メインメニューをとばして、このページの本文エリアへ

RSS

AI研究に立ちはだかる壁

深層学習に欠かせないビッグデータ構築を怠るな

古井貞煕 豊田工業大学シカゴ校 (TTIC) 学長

 囲碁でコンピューターがプロのプレーヤーに勝ったことから、人工知能(AI)のすべての分野が、これから一足飛びに進歩すると思っている人が多いが、それはあまりに楽観的すぎる。筆者は1970年から40年以上にわたって、音声認識技術を研究してきた。音声認識は、画像認識と並んでAI研究の重要な分野である。研究を始めたころはコンピューターの性能が極めて低く、実用化研究ではないとされていた。

 筆者はNTT(当時は電電公社)の研究所で働いていたが、20年間研究して1990年代になっても、まだ本当に役に立つ音声認識システムができないという状況が続いた。さすがに「いつになったら人間並みのシステムができるのか」と言われるようになった。苦し紛れに「あと20年待っていただければ」と答えた。

人間並みは、まだ先だが

 それから20年。最近は深層学習(Deep Learning)技術により、音声認識の誤り率は大幅に減少し、Googleの音声検索やAppleのSiriなど、広く使われるシステムが作られるようになった。

 しかしその性能は、人間並みとはとても言えない。囲碁や将棋、クイズ、文献や症例データベースに基づく医療診断のように、人間には難しそうな推論を対象とする問題はAIにとって解きやすい。だが、音声や映像の認識・理解のように、人間なら誰でもできる知覚や認識に関する問題が難しい。画像認識で、AIが人間を超えたと言われることがあるが、それは極めて特殊な課題の場合であって、一般生活で人間が普通にやっている多くの機能を、AIで実現するのはまだまだ難しい。

 人間だったら絶対にありえないような、とんでもない間違いをAIがしばしば起こすことも、研究者なら誰でも知っている。最近のテスラの自動運転中の事故はその一例と言える。

 GoogleやAppleの音声認識アプリでは普通、5~10単語の短い文が発声され、しかも利用者がある程度コンピューターの性能に合わせて発声するので、実用的になっている。しかし、コンピューターを意識しないで発声される一般の会議の議事録などを音声認識で作ろうとすると、ハードルはかなり高い。深層学習によって音声認識技術は大きく進歩したが、「人間並み」に近づけるにはまだまだ課題が多い。 ・・・続きを読む
(残り:約1967文字/本文:約2914文字)

全ジャンルパックなら本の記事が読み放題。
デモクラシーやJournalismの記事も読めるのは全ジャンルパックだけ!


筆者

古井貞煕

古井貞煕(ふるい・さだおき) 豊田工業大学シカゴ校 (TTIC) 学長

 豊田工業大学シカゴ校(Toyota Technological Institute at Chicago=TTIC) 学長。1968年東京大学卒。工学博士。NTT研究所を経て、1997年より東京工業大学大学院計算工学専攻教授。2011年同名誉教授。2013年より現職。音声認識、話者認識、音声知覚、音声合成などの研究に従事。科学技術庁長官賞、文部科学大臣表彰、NHK放送文化賞、大川賞受賞、紫綬褒章受章、文化功労者。種々の学会から功績賞、業績賞、論文賞、Fellowなど受賞。国内外の学会の会長、学会誌の編集長などを歴任。

古井貞煕の新着記事

もっと見る