シリコンバレー通信2011年11月号

パーソナル・アシスタントの第一歩、iPhone4SのSiri

　先月は、10月5日にシリコンバレーのVisionary、AppleのSteve Jobsが亡くなり、シリコンバレーにも大きなショックが走ったが、その前日の4日、AppleはiPhone4Sを発表した。ずいぶん長い間、うわさになっていたiPhone5ではなく、iPhone4Sとしてだ。その名のとおり、製品としては、前のiPhone4を改善するにとどまった感が強く、機能的にはSamsung等の競合メーカーと同等レベルのものを揃えた程度のものが多く、期待が大きかったせいもあり、最初は落胆する声が少なくなかった。

　しかしながら、予約販売開始当日だけで100万台を受け付け、14日の販売開始から3日で400万台が売れるなど、売り上げ的には、これまでのiPhoneの記録を大きく更新した。Jobsがかかわった最後の機種ということもプラスに作用したのかもしれない。

　わかりやすい新機能としては、レベルアップされた8メガピクセルで解像度3264x2448のカメラ、1080pレベルのHDビデオなどがある。外からわかりにくいものとしては、これまでのチップより高速なA5が導入され、ビデオや高速グラフィック対応が可能になって、ゲームなどには有効だろう。無線通信機能では、世界で使用されているGSMおよびCDMA二つのプロトコルに対応し、海外での使用が便利になった。これらは意味のある改善ではあるが、一般ユーザーにそれほど大きなインパクトのあるものとは言い難い。

　そんな中、iPhone4Sで最も注目されるのは、Siriだ。これは、簡単に言うと、音声でいろいろなことを聞いたり頼んだりすると、それに答えてくれるパーソナル・アシスタントだ。ただし、これは言語に依存する機能で、残念ながら現在発表されているのは英語、フランス語、ドイツ語のみだが、日本語も近い将来、使用可能になる模様だ。

　ここからは英語版等、現在使用可能な言語での話になるが、例えば、「今日の天気は？」と聞くと、自分のいる場所を理解した上で、天気予報を教えてくれる。また、「近くのいいフランス料理レストランは？」と聞くと、Yelpというレストラン等の人気ランキングを持つサイトと協力して、人気度とともにその場所を教えてくれる。さらに、「オフィスから帰る前に妻へ電話するよう言ってくれ」と入れておくと、その時間になると、電話するよう知らせてくれる。

　インターネットで情報を探すには、キーワードでサーチする、というのが今でも主流だが、それではなかなか思ったような情報にたどり着かない、という不満を持つユーザーは多い。そのため、FacebookなどのSNSとの連係なども行われ始めているが、パーソナル・アシスタント、つまり自分のことをよく知っているvirtualな秘書が出来れば、大変便利だ。

　実はこのSiri、もともとAppleが開発したものではなく、Siriという会社が持っていたもので、iPhoneのアプリケーションとして動いていたものをAppleが買収し、機能を強化してiPhoneの標準機能として出してきたものだ。そのSiriという会社はこの機能をどのように開発したかというと、さらに15年以上前にSRI Internationalという、私が長く勤めていた会社が開発したOpen Agent Architectureまでさかのぼる。

　当時、私はSRIのいろいろな研究を日本企業等に紹介する仕事もしていたので、この技術のことはよく知っており、その頃のSRI技術の中で、私の最も気に入っていた有望なものだった。それで日本からのいろいろな会社の方々にも紹介したものだったが、残念ながら本気でこれを共同開発していこうという会社はいなかった。その当時何度もデモをやってもらったのが、SRIでこの技術をメインに研究していたAdam Cheyerだ。彼はその後、この技術を応用し、SRIが中核となって実施した米国政府のCALOプロジェクトでも中心人物となり、SRIがSiriをベンチャー会社としてスピンオフしたときには、技術担当副社長としてSiriに移り、今はSiriとともにAppleに移っている。

　今回Appleから出されたSiriは、パーソナル・アシスタントという位置づけになるが、この世界はまだまだ奥が深い。そういう意味で、このコラムのタイトルも、パーソナル・アシスタントの第一歩、としているし、AppleもSiriはまだベータ版と言っている。現在発表されているSiriの機能は、主に音声認識と自然言語処理がメインになっており、そのため、音声認識の実用化、という面で捕らえている記事が多い。しかし、もともとのSRIの技術からいくと、音声認識はその一部に過ぎない。

　この技術のキーワードは、実は音声認識ではなく、マルチモーダルだ。マルチモーダルとは、いろいろな入出力ユーザー・インターフェースを組み合わせることが出来るもので、そこに大きなメリットがある。音声入力が便利なときは、それを使い、キーボードで入力したほうが早い場合は、そのようにする。また指でタッチして画面を移動させるようなジェスチャー機能も組み合わせる。そういったものを一番うまく組み合わせ、もっともユーザーに快適なエクスペリエンス（体験）をしてもらうようにする。

　入力だけでなく、パーソナル・アシスタントから得られる結果をどのような形でもらうかも、ときによって音声で返したり、画面上の表示で返したり、将来は振動など、いろいろな形での応答が考えられる。このようなことが進んでいくと、もっともっと使いやすいパーソナル・アシスタントが実現する。

　Steve JobsはAppleで、Macをはじめとして、いかにユーザーに使いやすいものを提供するか、いかにユーザーにとって心地よいエクスペリエンスを提供するかに注力してきた。社内では開発できなかったが、それをSiriに見出し、単なる一つのアプリとして他社の端末でも動くようなものにするのではなく、大金を払ってでも自社に取り込み、iPhoneや、おそらく将来はiPadなどの基本機能として取り入れようと考えた。Siriは、それだけ、将来の発展性の見込める技術だと言える。

　私は個人的にもこの技術をSRI時代から気に入り、それが長い年月を経て、ようやく日の目を見たのは、大変うれしいことだ。今回発表されたSiriはまだそのごく一部。そのため、iPhoneもiPhone5ではなく、iPhone4Sというに留まっているが、これからの発展に大いに期待したい。

（11/01/2011）

メディア通信トップページに戻る