メインメニューをとばして、このページの本文エリアへ

世界初!「AIポン」誕生の裏側

スマホでニュースを読む時代。音声をリアルタイムで字幕表示するシステムが必要だ

渡邉 星 「けやきヒルズ」プロデューサー

3月22日イチローさん引退会見の放送

イチロー引退会見で「AIポン」“炎上”

 今年3月、日本中が見守ったイチローさんの引退会見。会見が始まるのが夜遅くなったため、会見全体をすべて生中継できた地上波テレビ局はありませんでした。一方で、各テレビ局が提供するニュースアプリやウェブメディアは会見をノーカットで生中継しました。AbemaTVのAbemaNewsチャンネルでも生中継したのですが、“ある試み”が少し話題になった、いえ、そこそこ炎上したことを皆さんご存知でしょうか。

 イチローさんが話している下側に表示されている2行の、漫画の吹き出しのような枠。ここには1時間半ちかくにわたった会見の間、ずっとイチローさんが話している言葉がリアルタイムで表示され続けていたのです。

 これこそが、AbemaTVとテレビ朝日が共同で開発したAIリアルタイム字幕システム「AIポン」です。ちなみにAIポンは「アイポン」と読みます(後述しますが、一見ふざけたこの呼び方にも意味があるのです)。

 AIポンはGoogle音声認識テキスト変換サービス「Cloud Speech-To-Text API」をベースに作られた字幕システムで、放送中の音声をリアルタイムで字幕表示することができるのです。AbemaTVでは、放送を見ながらコメントをする機能がありますが、そのコメント欄やツイッターでは「これは画期的!」「音声オフにしても内容が分かって便利」などお褒めの言葉をいただきました。

 ではなぜ炎上したのでしょうか。実は、時々、いや度々イチローさんの言葉が、話した通りには表示されなかったのです。

 一例をあげると、「選手生活」が「性生活」、「ニューヨーク」が「入浴」と表示されました。声に出してみるとこれらの言葉はよく似ています。これに対しての“ツッコミの声”を圧倒的に多く頂戴したのです。翌日にはまとめサイトがいくつも作られ、Twitterトレンドに載るなど反響はなかなか大きなものでした。

 しかし会見の後もAbemaNewsではAIポンを積極的に活用しつづけています。その理由をAIポン誕生の経緯からご説明しましょう。

「AIポン」を作ろうと思ったワケ

けやきヒルズ放送時の様子。コメンテーターは東京工業大学准教授の西田亮介さん
 私が担当しているニュース番組「けやきヒルズ」は、キャスター1名、コメンテーター1名、の二人っきりで月曜から金曜の正午から1時間生放送しています。この番組のプロデューサーに就いてまず考えたのは、「スマホでニュースを見る」ことと「テレビでニュースを見る」ことの違いでした。

 この記事をスマホで読んでいる方も多いと思いますが、基本的にスマホでニュースを知ろうとする人はニュースを「読む」人が多いと思います。ですから「けやきヒルズ」も、テレビのように「見る」のではなく「ニュースを読めるニュース番組」にしなければいけないと考えました。

 VTRにはテロップを入れることができますが、生放送のニュース番組では、「突如入ってきた緊急会見」や「スタジオでのコメンテーター解説」など、どうしてもテロップをすぐに入れられない事が多々あります。ましてやランチタイムの放送です。音声と共に番組を見てくださっている人はむしろ少ないのではないか、とも考えました。

 そこで、「音声をリアルタイムで字幕表示するシステムが必要だ」と考えたのです。

 地上波テレビにも実は即時字幕機能があります。これは“特殊な訓練を受けた専門家が特殊なキーボードを用いて人力で入力”するものです。しかしAbemaTVでそれを実現するには、お金がかかり過ぎてしまいます。そこでいきついたのが「AI音声認識技術」の活用でした。AIが音声を自動で認識し、かな漢字交じりの文章にして表示する技術です。

100%正しくない字幕を出して良いのか

 課題になったのが“精度”です。市販のAIスピーカーに話しかけるとき、人は「AIに自分の言葉を認識させよう」として話しかけます。認識率は非常に高いです。しかし放送中の音声の多くは「複数の人間の会話」です。どうしても認識精度にばらつきがでて誤字を表示してしまうのです。

 AbemaNewsチャンネルを制作しているのはテレビ朝日の報道局です。「報道局制作の番組で100%正しくない字幕を出してもいいのか」というのがシステム導入の大きなネックになっていました。

 そんな課題を打ち破ったのが、サイバーエージェント藤田晋社長の一言でした。

 「親しまれやすい、間違いを許してあげたくなるような名前をシステム自体につければいい」

 そんな名前をつけることで、100%正しいものではないことをあらかじめ提示し、「そもそも完璧さを求めない姿勢」を打ち出そうというわけです。

 そんなわけで名前は「AI」を「アイ」と読み、「AIが“ポン”と気軽に字幕を出す」という意味を込めて「AI(アイ)ポン」としました。デザインはAIポンが“一生懸命文字を打ち込んでいる印象”を与えるように、「一文字ずつのタイピング」にこだわりました。さらにAI音声認識は、前後の文脈から単語を推測して表示するのですが、確定前の候補もあえて表示して打ち直しさせ、“まるで思案しているように見える動き”をデザインしてみました。

 つまりイチローさんの会見での「誤字」はAIポンを作るときから“織り込み済み”だったのです。

「AIポンが許される」ということ

最近は英語のリアルタイム翻訳まで可能に

 さまざまなインターネットメディアが、同じ会見を生中継するようになった現在、「わざわざAbemaNewsで見る」理由を作ることは死活的に重要です。

 世界初の取り組みであるAIポンの存在は、他では見ることができない新たなコンテンツを生み出しました。権利上インターネットでは映像を放送できない会見でも、アナウンサーが会見の様子を実況し、それをAIポンが瞬時に字幕化することで、会見の内容を視聴者に届けることを可能にしたのです。

 私が今回AIポンの開発に携わって思ったのは“2つの許し”の重要性についてです。

 1つ目は「間違えるAIポンへの許し」です。

・・・ログインして読む
(残り:約798文字/本文:約3541文字)