シリコンバレー通信2007年8月号

iPhone、スマートフォンでマルチモーダル時代到来か

マルチモーダルについて初めてこのコラムで書いたのは、もう4年以上前のことである。そのときは、「本格化するネットワーク・コンバージェンス」というタイトルの中で書いた。ネットワーク・コンバージェンスとは、ネットワークに音声、データ、ビデオ等をすべて乗せることだが、今やこれは当たり前になり過ぎていて、ネットワーク・コンバージェンスなどという言葉も、すでに死語化している。そのとき、私は、ネットワーク上を音声、データ、ビデオ等を縦横無尽に駆使したマルチモーダル・アプリケーション時代の到来を予想したのである。

マルチモーダルとは、入力にキーボード、音声、ペン、ジェスチャー等のあらゆる方法が使え、出力にも音声、文字、静止画、ビデオ等が使えるものである。キーボードを使わない入出力として、音声を利用した音声認識アプリケーションが何年も前から世の中に広がっており、航空会社の飛行機発着案内、証券会社の株価案内等で活用されている。携帯電話では、キーボードもすべての文字に個別のキーがなく、入力に手間がかかるので、音声入力が大きな威力を発揮する。

したがって、音声認識アプリケーションは、携帯電話の広く普及した現在では、大きな広がりを見せていてもいいように思う。しかしながら、実際は、音声認識アプリケーションは、これまで、そこそこ普及してはいるものの、思ったほどの大きな広がりを見せていない。音声認識の技術が向上し、認識率がかなり高くなった現在でもである。

原因をいろいろと考えて見ると、音声認識の認識率の問題以外に、別なアプリケーション上の問題点が浮かび上がってくる。それは、最初に音声で質問等を入力するのは簡単でいいけれども、相手からいろいろ質問を返される場合、これがすべて音声で返ってくるため、たとえば、6つの選択肢があると、6つ全部を聞いてみなければならず、それに時間がかかることが上げられる。何度も使ったことのあるシステムであれば、早めに返事することも可能ではあるが、一般的には、選択肢を全部聞く必要がある場合も多い。

もう少し具体的な例で話してみよう。最近の携帯電話には、GPS（Global Positioning System）が付いていて、その人のいる位置がわかる。たとえば、その人が、今いるところの近くにあるラーメン屋を探したいとしよう。音声認識を使ったシステム（自然言語処理を含む）では、まず、「近くのラーメン屋には、どんなところがありますか？」と音声で入れる。これは、いとも簡単である。ところが、単なる音声認識システムでは、その出力も音声で返って来るため、たとえば、６つのラーメン屋を教えてもらうためには、６つのラーメン屋の名前と住所等を聞いて、メモにでもとらなければならない。このようなシステムでは、入力は音声で、とても簡単だが、出力も音声のため、時間もかかり、メモとりの手間まで生じて、あまり便利な方法とは言えない。

一方、これを携帯電話のメニューで辿っていくのは、どうだろう。これもかなり大変だ。まず、メニューからレストラン情報の画面にたどり着き、さらに料理の種類で中華料理を選び、さらにその中からラーメン屋を探す、というようなステップを踏み、そこでGPSと連動して、現在いる近くのラーメン屋を探し、それぞれのラーメン屋の名前と住所などが出てくる。メニュー画面から順々に辿るという方法以外にも、自然言語処理可能なサーチエンジンに「近くのラーメン屋には、どんなところがありますか？」と打つことも考えられる。ただ、これもサーチ画面に行き、20文字余りを打ち込む必要があり、入力が簡単になったとは言いがたい。また、出力が文字でしか出てこないと、ラーメン屋の住所を見ただけでは、実際どれくらい近くにあるかわからないし、十分な情報とはいえない。

これを一歩進めて、初歩的なマルチモーダルを使い、出力に地図を出せば、かなりわかり易い情報となる。メニューの一部を写真で出せば、どんな料理かの実感も得られるだろう。このように、出力に文字情報だけでなく、グラフィック情報を取り入れることは、大いに便利だし、すでに実際のアプリケーションでも、このような方式は多い。しかし、入力に手間がかかる、という部分についてはまだ解決していない。

では、理想的なシステムとはどんなものか。一言で言えば、人間にとって、最も入力が簡単で、出力が最も早く、わかりやすいもの、ということになる。この例で言えば、「近くのラーメン屋には、どんなところがありますか？」と音声で入力し、地図で近くのラーメン屋を表示することだろう。これが実現できるのが、まさしくマルチモーダルの威力である。

このように、マルチモーダルは、とても使い易いシステムであり、携帯電話等、モバイルの世界では、パソコンのような使い易いキーボードもなく、大きな画面もないので、もっと早い時期に発展すると思っていた。しかし、これまでは、ほとんど発展してこなかった。いろいろとその理由を考えて見ると、その一つの理由は、携帯電話は、話をするときは耳に当てるが、この状態では画面が見えない、という点があるように、最近になって思えてきた。実際、音声で入力したあとの結果を画面で見るためには、携帯電話を耳から離し、見える位置にもってくる必要がある。そこで、もしさらに何か入力をするために、音声を使うとすると、また、耳に持っていかなければならない。これは、ちょっと不自然な動きであり、不便である。

しかし、最近Appleが発売したiPhoneや、PDAに電話機能を加えたスマートフォンの広がりを見ると、いよいよマルチモーダルの世界の到来を予感させる。それは、これらの携帯端末が、どちらかというと、電話として使うときにも、耳に当てて使用するのではなく、イアホンを使う場合が多いからである。この実現には、携帯端末とイアホンを結ぶ無線のブルートゥース技術の進歩も見逃せない。

新しいものが本格発展するには、いろいろな要素が整う必要がある。上に示した、自分の居場所近くのラーメン屋を探す例を実現するためには、まずマルチモーダルを実現するソフトウェア技術が必要であるが、それに加え、地図等を簡単に表示できる機能、さらに高速ネットワーク、自分の居場所がわかるGPSシステム、話をするときに画面を見ながらできるブルートゥース無線など、いろいろな技術がそろって、初めて実現する。

今回のiPhoneを見ると、指でトントンとやったり、スライドさせることによって動作するジェスチャー入力機能も含まれている。音声、キーボード、静止画やビデオにジェスチャー入力も加え、人間にとって、もっとも使い易い本格的なマルチモーダル・システムが、いよいよ現実のものとなるきざしが、強く感じられる。

（8/01/2007）

メディア通信トップページに戻る