Amazon Echoは日本でも流行るのか？

今年のCESの主役はAmazon Alexaだった。この記事によると700のAmazon Alexa対応の製品が発表されたそうだ。自動車はもちろん、冷蔵庫、ロボット、照明などが音声で操作できる。

www.huffingtonpost.jp

世界初のまともな音声認識

f:id:tkan1111:20170205185417j:plain

音声コマンドで家電を操作する仕組みは大昔からあるが、使い物にならなかった。音声認識技術が貧弱でまともに認識されず、何度も言わなければならず、認識できるのも単語だけで難しい命令はできなかった。

音声認識の難しいところは、テキストと違い、人によって声質も言い方も異なる点だ。声が低い人もいれば高い人もいる。同じ意味でも異なる単語を使う人もいるし、日本語だと同音異義語がたくさんあり、音声だけでは判別できない。

その状況がビッグデータによって大きく進化した。大勢の人の音声を収集し解析することで、多種多様な音声・言い回しに対応できるようになった。

知っている人は多いと思うが、AppleのSiriでもGoogleでも音声を認識しているのはスマホなどの端末ではなく、サーバー側のシステムだ。サンプルと照合してユーザーが何を言ったのか判断している。

Amazon Alexaは、システムを通して多くの音声を採集し認識技術を進化させ、一般の人が満足できるレベルまで到達した、おそらく世界最初の音声認識技術だ。初めてまともに使える音声認識機器としてAmazon Echoは大ヒットし、多くのユーザーが使用した音声データがAmazonに集まり、さらに解析技術が進化する好循環が生まれている。

もうひとつのAmazon Alexaの特徴は、流暢な発声だ。Siriの日本語版など聞くに堪えないほどAmazon Alexaの音声はきれいで、従来我々が体験していた電子音声とはレベルが違う。

かくしてAlexaのエコシステムは急拡大を遂げている。

Androidのときと同じ轍を踏むApple

f:id:tkan1111:20170205190028p:plain

日本人にとって身近な音声認識技術といえばSiriだ。iPhone 4Sに導入されて以来、「認識されない」「使えない」と言われながらも少しずつ進化し、使用するユーザーも増えてきている。

ところが未だに誤認識は多いし、機械音声もひどいものだ。日本語はもちろん、英語でもAmazon Alexaに差をつけられている。

垂直統合を是とするAppleはSiriでも囲い込みを行い、他社の製品にSiriの使用を許可していない。いつものパターンだ。

SiriはiOS 10でやっと他社アプリに解放された程度で、Appleのアプリが制御するCarPlayは各自動車メーカーがようやく採用し始めたところだ。

自社製品・アプリへ無償で自由に取り込めるAmazon Alexaと比べて敷居が高い。自社に囲い込み、ブランド価値を維持し、高い利益率をあげるのがAppleのテーゼなので仕方がないが、Androidがスマホを席巻したのと同様に、音声認識分野でもAppleは先行者利益を得られず、市場を占有できていない。

日本では？

日本語の障壁もあり、Amazon Alexaも対抗馬であるGoogle Homeもまだ日本へは進出していない（日本企業が地の利を得ているわけではないのは残念だが）。

「Ok, Google」を日本へ導入済みのGoogleは、日本でもGoogle Homeを早晩開始するつもりだろう。Amazonの日本語解析技術は未知数だが、すでに日本市場を制圧しているAmazonがこの分野だけ日本を無視するのは不自然だ。いずれAmazon Echoを販売するだろう。

では、アメリカのように日本でもAmazon Echoのようなスマートスピーカーは流行るのだろうか？

単身者には流行るが、家庭では難しいと筆者は考える。狭い日本の住居で単身者ならスマートスピーカーは使いやすいが、複数の家族が集まる狭小なリビングでは使いづらい。テレビの音が流れ、会話が交わされる中で音声コマンドを認識しづらいし、家族とは言え他者がいる前で予定などをチェックしたくない。

もうひとつ、アメリカとの差は”音声”に対する考え方だ。これだけスマホやSNSが流行っても、アメリカ人のコミュニケーションの中核は会話だ。

ascii.jp

この記事にもあるようにアメリカ人は会話が大好きだ。仕事をしていても日本人ならメールでやり取りして終わらせるところを、すぐに音声ミーティングを設定したがるのはアメリカ人だ。待つのが嫌いで、すぐに結論を求めたがるアメリカ人にとって会話はもっともダイレクトで素早い手段なのだ。

日本人は違う。特にSNS世代である若者は会話よりもLINEなどのメッセンジャー機能を好む。

日本語固有の特徴も課題だ。同音異義語、曖昧な文節の順序は音声解析を難しくしている。アルファベットと数字が混ざるとさらに難しい。Qと９など文脈からでないと判断が難しく、ID番号を音声認識する時のネックになる。

アメリカのように日本でもAmazon Alexaが流行するか今の時点では不明だが、キーボードやタッチパネルによる文字コマンドが面倒なのは誰しも感じるところだろう。まずは、音声コマンドが併用できるぐらい日本語の音声認識技術の進化が待たれる。