AlexaはSiriと何が違うのか。

音声認識アシスタントといえば、まず、iPhoneに搭載されている音声アシスタントのSiriを思い出す人も多いのではないでしょうか?
SiriもAlexaも同じ音声アシスタントですが、UIとしては似ているようで実は大きな違いがあります。

Siriは、あくまでiPhone上のオペレーションをサポートする音声認識アシスタントであり、ユーザーが目的を達成するには、最終的にiPhoneの画面上での操作が必要になることがほとんどです。呼び出すのは音声、操作は画面、つまりユーザーインプットは音声、サービス側のアウトプットは画面、が前提のサービスです。

Apple 公式サイトより

一方、Alexaは、Amazon Echoという画面を持たないスピーカーに搭載された音声アシスタントです。音声のみのコミュニケーションでタスクが完結されることを前提に作られているため、必然的に、ユーザーインプットもサービス側のアウトプットも音声となります。

Siriがイマイチ利用されていない理由として、「日本人は声を出すのは恥ずかしいから」と耳にすることもあります。ただ個人的には、結局は音声で完結できるタスクが少なく、画面を見て操作することが求められるので、あまり音声の必然性が感じられない点が、普及を阻んでいるのでは?と思っています。

一方、Alexa搭載のAmazon Echoは、画面だけでなく、手で操作するデバイスもありません。つまり、見るもの、操作するものがないため、ユーザーは現在やっている作業の手や目も止めることなく、声だけの命令でサービスを利用できます。ユーザーの意識を必要以上に遮らず、煩わしさを感じさせないところが大きなポイントです。

具体的にイメージできる例をあげてみましょう。

「あ、お醤油切れてるわ。三河屋さんいつものお願いね。」
「かしこまりました。」

これが、Amazon Echo (Alexa)のイメージです。
 

「近くの駅はどこかな?」
「検索して地図起動しますねー。」

これがSiri。


このように、確かに音声完結のサービスはスマートですが、Siriはあえて画面を利用させることで、iPhoneのネイティブアプリや、Googleの検索結果、Wikipediaなど、多くの既存サービスに連結させることで、高い機能拡張性を担保する方を重視したといえるでしょう。

IFTTT公式サイトより

Alexaにとっては、音声完結型のサービスの充実が今後の大きな課題ですが、Amazonは、企業や個人が機能を追加していける「スキル」という仕組みや、IFTTTと連結して個人が自由にカスタマイズできる環境などを提供しています。今後、さまざまな家電に搭載されていく中で、プラットフォームとしての利用価値が高まり、サービス提供者が増えて行くことで、利便性はどんどん高まっていくでしょう。

音声完結するコミュニケーションって、結構不自由?

とはいえ、音声で完結するコミュニケーションはやっぱり限界があります。「いつもの醤油」を「いつものお店」に頼むのは簡単ですが、20種類の商品リストを音声で読み上げられても、覚えられないし意味がありませんよね。


乗り換え案内を例に考えてみましょう。
「東京駅に朝10時に行きたい。」

画面がある場合、優先候補を見て経路をチェックしたり、乗り換えの待ち時間や回数、経由駅などの条件を変えたりする作業は画面内で行います。つまり音声は最初のショートカットのみです。


音声で完結するサービスの場合、現サービスをそのまま実装すると
○○時の電車で、××駅で△△線に乗り換えて□□時に到着します。次の候補は…」

となります。冗長すぎてうんざりですね。

音声は、長い文だと理解するのに多くの集中力が求められるという欠点もあります。やはり、音声なら最適な候補を絞って、「○○時に家を出て、××駅で乗り換えてねっ!」くらいビシッと言ってほしいですよね。

ポイントは、真のパーソナライズと信頼関係?

ユーザーの要望に一言で応えるためには、そのユーザーのこだわりポイントをしっかりと把握している必要があります。具体的には、結果をフィルタリングする際の、重視する項目、その優先度を割り出すために、ユーザーの好み、スタイル、価値観など、さまざまな要素を把握する必要があります。

つまり、音声認識アシスタントの普及のカギのひとつとなるのは、「パーソナライズ・レコメンド」の精度といえそうです。

ただ、昨今の機械学習の進化により、人工知能的なパーソナライズ・レコメンドの精度はますます向上していくと期待されていながらも、あらゆるサービスにおいて、ドンピシャで最適なものを一発でレコメンドできるには、正直まだまだ時間がかかると思われます。

だとすると、何が普及を後押しするのか?

視点を変えると、実は受け取る側のユーザーの心理や態度も重要なのではないかと思います。ユーザーが求めているサービスへの期待度信頼度が、音声認識アシスタントの普及に大きく影響する可能性があるのではないでしょうか。


例えば、先ほどの乗り換え案内の例で再び考えてみます。

乗り換えサービスへの期待度として、「緊急時以外は、余裕を持ってたどり着ければいいや」くらいの期待をもっているユーザーがいるとします。さすがに、データが間違っていて、時間前に目的地にたどり着けないのは困りますが、そこはある程度のサービスへの信頼度があれば、言われるままに行動することができます。わざわざ、出された結果を比較して、最適解かどうかの検証を細かくチェックする時間を省き、その人にとって、より重要なことに時間を割くことができるようになります。

考えてみれば、全ユーザーは毎回、数分の誤差や数十円の値段の差を天秤にかけて検討する必要があるのでしょうか? 実は、候補ルートが複数提示されるからこそ細かくチェックしたくなるというユーザー心理が働いているだけなのではないでしょうか?

もちろん、同一ユーザーでもシチュエーションが変われば、期待度は変化します。例えば、とても急いでいる時などは、画面で比較して最適解を自分の目で調べたいと思うでしょう。

つまり、ユーザーのお任せ具合が高く、適度な期待度ある程度の信頼度があればよいというサービスは、音声認識インターフェースでの有用性が高いのではないかという仮説も考えられます。

ただ、「ま、いいか?」と思えるかどうかは、ユーザー自身の性格や求めているもの、シチュエーションによっても大きく異なってきます。「洗剤を買うなら、一番お得な商品じゃないと嫌だ!」といって近所のドラッグストアを見て回る人もいれば、「まあ適当にAmazon DASHボタンで補充してくれればいいよ」という人もでてくるのではないでしょうか?

まとめ

もしかすると、ユーザーは、自分で情報を検索して見られる情報化社会が故に、最適解に過剰にこだわってしまっている傾向があるのかもしれません。また、サービス事業者側も、ユーザーのニーズに合わせ機能を追加し、精度を高めることを重要視している傾向にあるのでしょう。

しかし、こうしたパーソナライズされた新しいサービスにおいては、当面、この適度なユーザーの期待度を意識してサービスを設計、あるいは利用していくことが、有用性を高めるヒントになっていく気がしています。

 

今後、日本でもAlexaなどの音声認識パーソナルアシスタントが利用できるようになるのは、時間の問題だと考えられます。サービス事業者として、ユーザーの期待度をいかにコントロールし、音声という新たなインターフェースを活用してどんなサービスを提供すべきなのか、今のうちから考えておいても、早すぎるということはなさそうです。