政治・国際

「ディープフェイク」の次に注目されるのはAI言語モデル「GPT-3」

目前に迫るライターの失業

塩原俊彦　高知大学准教授

2020年12月04日

　このサイトに、「深刻なディープフェイク問題を議論しよう」をアップロードしたのは、2020年9月18日である。そのころ、同じく人工知能（AI）を利用した言語モデルが大きな話題になりつつあった。今回、紹介したいのはそのAI言語モデル「GPT-3」（Generative Pre-Trained Transformer 3）である。

　これは、「ボット」というオンラインで人間のふりをして機械的なメッセージを送り出す初期の「チャットボット」に代わる、人間の神経伝達を真似たニューラルネットワークで訓練されたmachine-driven communication（MADCOM）という、人間の発話パターンを模倣して、知的で適応力のあるアルゴリズムに基づく人的会話を可能にする技術の開発における「進歩」と言えるかもしれない。このMADCOMに関心のある人は2017年9月に公表された「MADCOMの将来」をぜひ読んでほしい。

マイクロソフトがGPT-3の独占ライセンスを取得

　ディープフェイクはある人物の動画について、首から上の部分をAIによって人工的に合成し、別の人物に置き換えたり、まったく実存しないものに換えたりする虚偽の動画だ。これに対して、カリフォルニア大学バークレー校の学生リアム・ポーアは虚偽の名前でまったくいんちきなブログをこのGPT-3を使ってはじめた（Gigazine2020年8月17日付）。

　GPT-3は、AIが人間と会話しているようなテキスト生成能力をもつ能力をコンピューターにもたらすための開発中のソフトウェアで、2週間で2万6000人もの人々がそのブログにアクセスした。だが、ほとんどの人はそれがAIによって会話されているとは気づかなかった。7月に、GPT-3に基づいてブログをスタートしたと公表したマニュエル・アラオスと異なり、ポーアはGPT-3に基づくブログと明かさないままブログを開設した結果だ。その結果、すでに洗練された、人間のようなテキストを生成する能力をコンピューターに与えることにある程度成功しているとの評価が高まったのである。

　2020年9月22日になって、マイクロソフトはブログで、「OpenAIと提携し、GPT-3の独占ライセンスを取得した」と発表した。それだけ高い評価をマイクロソフトが与えたことになる。

GPT-3って何

Shutterstock.com

　GPT-3はサンフランシスコに拠点を置くAIラボのOpenAIによって開発された。その設立には、テスラとスペースXの共同創始者であるイーロン・マスクが2015年に資金援助した。このソフトウェアは「言語モデル」という考え方に基づいてつくられている。これは、言語を統計学的に処理し、テキストをもとにその続きを予測するモデルをいう。たとえば、「赤」の次に「バラ」が続く頻度などを、単語が他の単語に続く確率を計算するのだ。同じような分析を文章や段落全体に施すことで、人間らしい文章を生み出そうというのである。

　ただし、こうした言語モデルを実際に構築するには、大変な作業を必要とする。膨大な量のテキストを探し、試行錯誤しながら何百万ものテキスト予測の試みから学習することが求められる。

　ロシアの「ノーヴァヤガゼータ電子版」によると、GPT-3の学習は1750億個のパラメータ（パターンを数学的に表現したもの）をもつマイクロソフトのスーパー・コンピューター・サービス（Azure）によって行われた。2019年2月に暴露されたGPT-2は危険なアプリケーションを恐れて公開されなかったが、そのGPT-2では、パラメータの数は15億個にすぎなかった。具体的なデータセットとして学習に使用したのは、ワールド・ワイド・ウェブ上で公開されている資料を毎月更新するデータベースから厳選したテキスト410ギガバイト、WebText2コレクションから19ギガバイトのデータ、12ギガバイトのデジタル化された世界文学、3ギガバイトの英語版ウィキペディアなどである。

　2020年11月24日付「ニューヨーク・タイムズ電子版」の「GPT-3との出会い、それはコードを学んだ（そしてブログも議論も）」という記事のなかでは、GPT-3が、何千冊ものデジタル書籍、ウィキペディアの縦横、ブログやソーシャルメディア、インターネットの残りの部分に投稿された約1兆個の単語を分析することによって、自然言語の働きを学習することに数カ月を費やしたと紹介されている。

完璧ではないGPT-3

　GPT-3は2020年5月28日に世界に公開された。このGPT-3に関心をもったThe Economistは「詩や散文を生成する新しいAI言語モデル」という記事のなかで、GPT-3を紹介している。そのなかでは、GPT-3の将来性は有望としながらも、記事は「そのプログラムは完璧ではない」と指摘している。

　「ときどき、ゼロから新鮮なテキストを生成するのではなく、記憶されたテキストの断片を再入力しているようにみえることがある」というのだ。しかも、数々の人間の生み出したテキストを学習した結果、人間の本来もっている偏見や性向がGPT-3の生成するテキストに反映されてしまう。たとえば、「黒人」、「ユダヤ人」、「女性」、「ゲイ」などの言葉は、しばしば人種差別、反ユダヤ人主義、女嫌い、ホモ嫌いなどの言葉と結びついた過去のテキストとの高い相関をもつ。その結果、こうした言葉について尋ねられると、GPT-3はこうしたネガティブな言葉を連ねた文章をつくりやすく

・・・ログインして読む
（残り：約2087文字／本文：約4415文字）