メインメニューをとばして、このページの本文エリアへ

AI研究に立ちはだかる壁

深層学習に欠かせないビッグデータ構築を怠るな

古井貞煕 豊田工業大学シカゴ校 (TTIC) 理事長

 囲碁でコンピューターがプロのプレーヤーに勝ったことから、人工知能(AI)のすべての分野が、これから一足飛びに進歩すると思っている人が多いが、それはあまりに楽観的すぎる。筆者は1970年から40年以上にわたって、音声認識技術を研究してきた。音声認識は、画像認識と並んでAI研究の重要な分野である。研究を始めたころはコンピューターの性能が極めて低く、実用化研究ではないとされていた。

 筆者はNTT(当時は電電公社)の研究所で働いていたが、20年間研究して1990年代になっても、まだ本当に役に立つ音声認識システムができないという状況が続いた。さすがに「いつになったら人間並みのシステムができるのか」と言われるようになった。苦し紛れに「あと20年待っていただければ」と答えた。

人間並みは、まだ先だが

 それから20年。最近は深層学習(Deep Learning)技術により、音声認識の誤り率は大幅に減少し、Googleの音声検索やAppleのSiriなど、広く使われるシステムが作られるようになった。

 しかしその性能は、人間並みとはとても言えない。囲碁や将棋、クイズ、文献や症例データベースに基づく医療診断のように、人間には難しそうな推論を対象とする問題はAIにとって解きやすい。だが、音声や映像の認識・理解のように、人間なら誰でもできる知覚や認識に関する問題が難しい。画像認識で、AIが人間を超えたと言われることがあるが、それは極めて特殊な課題の場合であって、一般生活で人間が普通にやっている多くの機能を、AIで実現するのはまだまだ難しい。

 人間だったら絶対にありえないような、とんでもない間違いをAIがしばしば起こすことも、研究者なら誰でも知っている。最近のテスラの自動運転中の事故はその一例と言える。

 GoogleやAppleの音声認識アプリでは普通、5~10単語の短い文が発声され、しかも利用者がある程度コンピューターの性能に合わせて発声するので、実用的になっている。しかし、コンピューターを意識しないで発声される一般の会議の議事録などを音声認識で作ろうとすると、ハードルはかなり高い。深層学習によって音声認識技術は大きく進歩したが、「人間並み」に近づけるにはまだまだ課題が多い。

・・・ログインして読む
(残り:約1967文字/本文:約2914文字)