メインメニューをとばして、このページの本文エリアへ

忘れてはならないAIの「教育」コスト~ChatGPTが新興ベンチャーから産まれない理由

AI開発を一握りの企業が独占するリスクとは?

小林啓倫 経営コンサルタント

 先日の国会で、岸田首相が育児休業中の人らのリスキリング(学び直し)を「後押しする」と答弁し、ネット上で非難を浴びるという一件があった。出産や育児が大変だから産休や育休を取るのに、それと並行して新たなスキルを獲得せよとは何事だ――というのである。

 確かに産休や育休は「休(休暇)」という言葉を使っているものの、ゆっくり休むという意味ではなく、仕事並みあるいはそれ以上に大変な重労働に専念してもらうための制度だ。それと並行してリスキリングに取り組むように、という意味での発言であったとすれば、反発されるのも当然だろう。批判を受けて岸田首相は、「あらゆる(ライフ)ステージにおいて、本人が希望したならば、リスキリングに取り組める環境整備を強化していくことが重要だという趣旨で申し上げた」と釈明し、強制ではないとの考えを示した。

 首相の弁明にも表れているように、この議論で問われたのはリスキリングをどう進めるかであり、リスキリング自体の必要性を否定する声は少なかった。リスキリングとは文字通り学び直しという意味で、既に社会に出て働いている人々が、新しい仕事(同じ社内の場合もあれば転職の場合もある)に就くためのスキルを身につけることを意味する。近年では特に、デジタル技術やAIの進化・普及を背景に、さまざまなデジタル関係やデータ分析系のスキルを習得するという前提で使われることが多く、企業を中心に対応が進められている。

 とはいえ「育児と両立などできない」という声があがったことからも分かるように、新たなスキルを身につけるというのは容易ではない。それなりの時間とコストがかかり、だからこそ「企業に任せるだけでなく政府としても支援しよう」という話が出てくるわけだ。

 実はこうした「教育」コストが問題になっているのは、人間の学び直しだけではない。AIすなわち人工知能についても、教育コストの増加が問題となっている。

AIを教育するコストは膨らみ続ける

 機械のはずのAIに教育? と思われたかもしれないが、もちろんAIが人間のように、参考書やノートを使って勉強するわけではない。AIにデータを与え、その中から一定のパターンを見つけ出させることを、AIの訓練(Training)あるいは学習(Learning)と呼んでいるのである。

 現在、AIの開発手法として主流なのが「機械学習(Machine Learning)」と呼ばれるものだ。たとえばいま、手元にある大量の画像データから、自分の子供が写っている写真だけをより分けてくれるAIを機械学習で開発するとしよう。まずは「訓練」として、その子供の顔が写っている写真をサンプルとしてAIに与える。AIはそのサンプルを「学習」して、彼もしくは彼女の顔の特徴をパターンとして認識する。

 これを「モデル」と呼ぶのだが、ひとたびモデルが完成すれば、あとは実際により分けたい画像のデータセットをAIに与えるだけだ。AIはその中から、先ほど学習したパターンと照らし合わせ、あなたの子供が写っていると思われる写真をピックアップしてくれる。

Robert Kneschke/Sshutterstock.com

 これはごくごく簡単な例で、実際にビジネスや公的サービスで通用するAIを開発するには、より大量のデータと複雑な手法を組み合わせてAIを「教育」しなければならない。ところがいま、そのコストは非常に大きなものになっている。

 Microsoftが2021年10月に発表した、「Megatron-Turing Natural Language Generation model (MT-NLG)」と呼ばれる自然言語生成モデルを例に挙げよう。これは同社が半導体メーカーのNVIDIAと共同開発したもので、「大規模言語モデル」という種類に分類される。これは文字通り、さまざまな言語処理をする際に活用されるモデルで、チャットボットや機械翻訳といった用途が想定されている。

 MT-NLGのパラメータ数は、およそ5300億であると発表されている。機械学習におけるパラメータとは、ごく単純化してしまうと、モデルを構成する要素の数だと思ってほしい。パラメータが多ければ多いほど、複雑で精度が高いモデルになっていると期待できる。実際にはそう簡単ではないのだが、ここでは話を先に進めよう。

 MT-NLGの登場前、最多のパラメータを持つ大規模言語モデルはOpen AI社の「GPT-3」で、パラメータ数は1750億とされている。つまりMicrosoftとNVIDIAは、その3倍のパラメータ数を持つモデルをつくり上げたわけだ。

 NVIDIAの公式ブログによれば、モデルの開発には同社のスーパーコンピュータ「Selene」が使用され、学習用データとしてウィキペディアなど英語のウェブサイトから収集されたテキストデータを加工したものが利用された。この加工の際、AIが分析しやすいよう、テキストを「トークン」と呼ばれる言葉の断片に分割するのだが、このトークンの数は3390億に達したそうである。GPT-3が学習に使用したデータのトークン数は3000億とされており、こちらもMT-NLGが上回っている。

モデルを開発するだけで数億円以上の費用が発生

 ではそれにどのくらいのコストがかかったのか?

・・・ログインして読む
(残り:約3481文字/本文:約5705文字)