メインメニューをとばして、このページの本文エリアへ

身近に広がる音声認識技術の活用

ロボットからスマホ、カーナビ、議事録作成、番組の字幕作成まで

川本裕司 朝日新聞記者

衆院本会議での速記者=2006年4月14日衆院本会議での速記者=2006年4月14日
 ロボットが人間のようにしゃべる「合成音声」のもととなる技術が「音声認識」だ。人間がスマートフォンに話しかけたとき、きちんと理解できて初めて、機械が応答できるようになる。議事録の作成、ニュースの字幕つけからカーナビまで、身近な場所で音声認識の技術が活躍する場が広がっている。

 1890年に帝国議会が設立されてから速記者の手書きで行われてきたが、衆議院の会議録作成は、人件費削減などを目的に2011年から自動音声認識技術が導入された。国会の審議では世界初の試みともいわれる。すべての本会議と委員会でマイクから収録されたものを音声認識で会議録がつくられる。06年度を最後に採用がなくなったものの、速記者は音声認識の書き起こしのチェックや短時間での文字化が求められる本会議や予算委員会、録音施設のない場所で開かれる両院協議会などでの速記を担当している。

  音声認識をつかった会議録づくりで難問となったのは、「えー」といった冗長語や方言の判読だった。実際の発言内容と会議録では約13%の単語の違いがあったという。過去の会議録をもとに、ある単語に続く言葉を予測する言語モデルを作成し、音声認識の精度を上げていった。

  衆院の会議録作成システムで音声認識の研究開発に携わった河原達也・京都大学術情報メディアセンター教授(情報工学)は「音声認識技術での文字正解率は本会議で95%、委員会で90%。音声認識をつかった会議録は、地方議会でも広まりつつある。かつて注目された人工知能が90年代に冬の時代を迎えたあと、2000年代に再び脚光を集め、音声認識も普及するようになった。テレビやネットの画面に字幕をつけるのにも利用されている」と話す。

  地方議会の会議録を04年から始めた音声認識の企画開発会社アドバンスト・メディア(東京都豊島区)は80以上の自治体で手がけている。以前は3カ月ほどかかっていたのが、音声認識を使えば期間を短くすることができるのが売り物だ。速報版ならば1週間という例もある。すぐにチェックでき検索機能がある利点を生かし、裁判員裁判でも使われているという。企業内の会議録のほか、コールセンターでも利用が増えつつあり、音声認識関連の市場は100億円ともいわれる。

  アドバンスト・メディアとテレビ番組の美術、CG制作を手がけるテレビ朝日クリエイト(東京都港区)は14年7月、音声認識技術を使って録画番組の字幕作成時間を大幅に減らすシステム「J-TAC」を開発した。

  映像から得た音声認識結果とあらかじめ作ったテキストを照らし合わせ、事前に設定された時間情報をもとに字幕を表示することで作業を自動化し、工程の3分の1を

・・・ログインして読む
(残り:約395文字/本文:約1535文字)