LLMがなぜ大事なのか?経営者の視点で考える波の待ち受け方
はじめに
LayerXの代表をしています福島と申します。本日はLLM(Large Language Model, 大規模言語モデル)について、なぜ大事なのか?経営者の視点でどうこの波を考えればいいのかについてです。
LLMが今非常に話題になっています。ChatGPTの裏側もこのLLMからできていると言えばわかりやすいでしょうか。
私は現在、LayerXという会社を経営しております。LayerXでも多分に漏れず、LLMに対するものすごいワクワクと、この波に対応しないと会社が消えてなくなるという強い危機感を抱いています。
私自身が元機械学習エンジニア、現在現役の経営者というキャリアを歩んできました。その立場から、なるべくわかりやすく、LLMの波というものを経営者がどう捉えるべきか、どう波を乗りこなすべきかの一助となればと思い筆を取っています。(機械学習のプロの方からすると、おいおいそれは単純化しすぎではみたいな表現もあるかもですが、そこはご了承ください。)
この文章ではLLMが今までの機械学習・AIのトレンドと決定的に違う部分は何か、なぜあらゆる会社がLLMに張っていく必要があるのかを解説します。
当社としても非常に強い危機感を持っており、すでに専任でLLMチームを組成し、機械学習エンジニアを(さらに)積極採用していくことを決めています。
AIによる要約
この文章の要約自体もLLMを使って作ってみました。凄さが体感できると思います。
以下本文になります。
LLMの衝撃
皆さんもおそらく触ったであろうChatGPT。百聞は一見にしかずでまだ触ってない人は是非触ってみてください。
今までのAIチャットボットというと、どこか非人間的というか、少し的外れな返答をしたり、どうにも使えんといった感想を抱いていたでしょう。ChatGPTには違和感がゼロではないが、そういった違和感を抱く頻度は明らかに減っており、まさに知性を感じるような返答を返してくれます。
今まで人間にしかできなかったであろうタスクが、ものすごい精度でAIが行うことに衝撃を覚えるほどです。LLM登場以降で人間の仕事の仕方や生産性向上の方法は180度書き換わると思います。
ChatGPTはLLMをベースにファインチューニング(目的特化の微調整)がなされたものです。LLMはより広範な言い方として事前学習モデル、基盤モデル(Foundation Model)といった呼び方が使われます。物凄くざっくりいうと世の中にあるビッグデータ(LLMだとweb上にある文書のデータ)を大量に学習させ、その学習させたモデルを活用して様々なファインチューニングができることが期待されている技術のことです。
機械学習的見地で見る2つの驚き
では技術的にみたときにLLMはどういったブレイクスルーがあったのでしょう。ここでは主に2つの驚きからいかに過去の機械学習研究者が持っていた直感と反する進化を遂げたかを解説します。
大規模な事前学習による表現学習と後続タスクへの接続
(注釈。正確にはGPT以前のBERTの登場・Transformerの登場により書き換えられた概念の話ですが、GPT系も持つ特徴のため簡単のためこう表現しています。GPTのTはTransformerのTです。)
LLMの特徴は、文字通り大規模な事前学習にあります。
ここで少し事前学習について解説すると、機械学習の世界では、「大規模に事前学習したものをファインチューニングする」方が、「あるタスクを解くように単品で学習する」よりも精度が高くなることがわかっています。(詳しく知りたい人は「BERT」「Transformer」で検索しましょう)
これの直感的な説明は、Deep Learningでは、複数の層に分かれて問題を解いているのですが、主に「表現を学習」している層と「タスク特有の学習」をしている層があります。この「表現を学習している層」のところに大規模に事前学習されたものを使った方が性能が上がるよねというのが直感的な説明です。
我々人間もある仕事をするときに、本を読んだり、経験者にアドバイスを聞くといった事前学習をします。そういった抽象的な学習を行った後の方が仕事のアウトプットも高まりますよね。機械も同じで事前により抽象的な知識を学習した方が後続のタスクの精度も高くなるのであろうなと想像しています。
こういった事前の知識を他のタスクに応用できることを「転移学習」といいます。これが今までの常識とどう反するのでしょうか。今までの機械学習(=BERT登場前の旨)では「ある特定のタスクを解くために特化した学習をする」というのが一般的でした。
といった具合です。
この転移学習をうまく活用すると1つの大規模な事前学習モデルから「法律のAI」「経理のAI」「チャット用のAI」などを作ることができます。しかもその精度は単品で学習させたものよりも高くなることがわかっています。
大規模な事前学習モデルは新たなAppStore、新たなクラウドの誕生とたとえても言い過ぎではないしょう。iPhoneが誕生し体験そのものが変化しました。AWSが誕生し、Webサービスの開発は大きく変わりました。大規模な事前学習モデルはそれらと同じくらいのインパクトを叩き出す変化になりうると私は考えます。
余談でここで少しChatGPTについてです。
ChatGPTはGPT-3.5という事前学習モデルを使い、その後続タスクである「人間が心地よく感じるような対話エージェント」にファインチューニングしたものです。
ChatGPTをファインチューニングするために、約1万セットの学習データを手動で作り学習させます(教師あり学習) またそのデータを元にした強化学習に使う報酬モデルを作り、それを用いた強化学習により精度を上げています。AlphaGo的パラダイムである「教師あり学習を使い、報酬モデルを作り、強化学習によって精度を向上させる」というものに「転移学習」が組み合わさった、まさに近年の研究の成果の結晶がChatGPTだと言えるのだなと、調査して感心した次第です。
(ChatGPTに関してはこの資料が非常にわかりやすかったです)
機械学習の新たなべき乗則(スケール則)の成立
従来の機械学習の常識では「オッカムの剃刀」という常識が存在していました。オッカムの剃刀とは「ある事柄を説明するためには、必要以上に多くを仮定するべきでない」とする指針です。
事実、機械学習の実務の世界では、必要以上に多くのパラメータ数を用いると、過学習してしまい、汎化性能が落ちるという現象が見られていました。
なので多くの機械学習研究者は「ある特定のタスクを解くAIを作る際、より少ないパラメータ数で作れる方法はないか?」という発想を常にしていました。
しかしLLMはこの常識を破壊してしまいます。なんとLLMではパラメータ数を増やせば増やすほど性能が劇的に良くなるという衝撃です。ここから新たな機械学習(現在はLLMに限定)でのべき乗則(スケール則)が導き出されました。
「データを増やし、計算リソースを増やし、パラメータの数を増やせば、精度がどんどん上がる」という法則です。
今までは、データを増やしても、パラメータ数を増やしても性能向上に限界がありました。特にパラメータ数を増やすとむしろ性能が下がってしまうこともあり、多くの機械学習研究者を悩ませてきましたが、この新たな法則により、とてつもないブレイクスルーが起こりました。これが今のChatGPTの出現につながります。
ビジネスとして張るべき理由
前述の2つの驚きがそのままビジネスとして張るべき理由になります。
1つ目はLLMを活用することで様々なタスクが解けることです。ChatGPTはGPT-3.5を「人間が心地よく感じるように訓練した対話エージェント」です。つまりLLMをファインチューニングした1つの応用例に過ぎないということです。ChatGPTの活用だけでも凄まじい数のビジネスチャンスが勃興しますが、そのChatGPTもまた応用例の1つに過ぎないという衝撃です。
GPT的なLLMを活用し、今後たとえば
などファインチューニングできそうな応用例は無限に思い付きます。
いやいやChatGPTは平気で嘘をつくから、こんなことはすぐ起きないよと思っているのは危険です。ChatGPTはGPTを「人間が心地よく感じる」ようにアラインしただけです。GPTをある業務に対して間違いが少なくなるようにアラインすることはまず間違いなくできるはずです。
2つ目の理由は機械学習のべき乗則です。「データを増やし、計算リソースを増やし、パラメータの数を増やせば、精度がどんどん上がる」というものです。
最近の研究では、どれくらいデータを増やし、どれくらい計算リソースを増やし、どれくらいパラメータ数を増やせば、どれくらいの性能になるかがある程度見積もれるようになったことがわかったのです(!!!!!!!!)
さらにそこではデータ数よりも、計算リソースやパラメータ数が支配的な変数であることがわかっています。(私も詳しくはありませんが) 現在のコンピューティングの限界でこれ以上の計算リソースやパラメータ数を増やすにはハードウェア的進化が必要らしいです。
一方でこの計算リソースやパラメータ数の問題は将来必ず解かれます。何より大きいのは解けた時のROIが非常に正確に測れるようになったことです。LLMの開発ロードマップはめちゃくちゃクリアなのです。
これによって少なくともLLMの将来は約束されていると私は考えます。
今のGPT-3.5の性能ですら脅威ですが、今後の進展によりさらに性能が劇的に向上されることがすでに見込まれているのです。(後日後述。この記事の後、GPT4ベースのChatGPTがローンチされました。パラメータ数が増えることでの性能向上をまさに目の当たりにしたと思います)
この2つがあらゆる会社がLLMにビジネスとして張らなければならない理由です。
今後の技術的発展の予測
LLM的発想は今後様々な分野に発展していくであろうが、まだまだ課題も多いです。箇条書きで今後の発展方向を予測します。
経営者としてのLLMに対する波の待ち構え方
素早く試す
こういった大きな技術的変化が起こった時はまず素早く手触り感を持って試すことが大事です。AppStoreができた当初は体重計アプリやフリック操作を使ったカジュアルゲームなど様々なアプリケーションが初期に登場しました。
今思うと「何だそんな単純なものか」と思えるようなものがAppStoreのランキングで1位をとったり一世を風靡しました。また初期からそういった技術に張った会社が、今のメルカリであり、SmartNewsであり、Uberであり、Instagramでありました。大きな流れの初期にしっかり手触り感を持って素振りすることで来たる大波にチャンスを掴むことができると我々は考えます。
当社でもすでに専任のLLMチームを作り、まずは簡単な業務改善から素早く素振りをしていきます。今後も積極的に機械学習エンジニアを採用していきます。
重要なデータポイントをおさえる
LLMは、大規模な「public」なデータから学習をしています。インターネット上にある誰でもアクセスできる文書を学習に使っています。
基本的に事前学習のモデルの精度は「データ」「計算リソース」「パラメータ数」から決まります。使っているデータが同じとなり、計算リソースやパラメータ数も少なくともBig Techの会社同士では非常に近いものになっています。ですので、近い将来はどのLLMを使っても、事前学習としての精度(正確には削減可能損失)という意味では大きく変わらないものになるであろうと言われています。私の予想ではLLMはクラウドに組み込まれてある種のインフラになると思います。OpenAIにMicrosoftが投資したのもこの理由からと思われます。
では我々のような大規模な事前学習モデルを自前では作れない会社はどう振る舞うべきかの鍵は、「独自のデータ」にあります。
前述の通り、LLMはその後続タスク用にファインチューニングして使われます。そのファインチューニングする際、ChatGPTは人手で泥臭く「Prompt(ChatGPTに与える入力)と人間が快適と感じる答えのセット」を1万セット以上作っています。
今後多くの会社にとって、このファインチューニングをどうやるかが主戦場になると思います。
ファインチューニングする際、重要なのは独自データです。
が必要です。
独自のデータをためられる事業というのはAI時代において非常に価値を持ってくると思います。今後のプロダクト戦略においても「何のデータを抑えるか」は今まで以上に重要になると確信しています。
(後日注釈: ただし独自のデータといっても、かなり少量のデータでファインチューニングできることがわかっています。(few-shot learning) 初期のファインチューニングから、うまく強化学習的ループを回せるかという観点での独自データが必要という旨です)
ワークフローを抑える
どれだけ優れたAIでも、プロダクトとシームレスに繋がっていないと体験を損ないます。私もBingやNotionAIをさわり実感しました。
ChatGPTがどれだけ優れていようが、毎回毎回ChatGPTの画面に遷移してPromptを入れるのは大変です。
NotionAIはnotion上でスペースを押すだけで起動できます。そこで文書の要約やアイデア出し、翻訳など様々なタスクを実行できます。このシームレス体験をした時、ものすごい「感動体験」を感じました。
AI全盛時代でも、ワークフロー(=業務のフロー)にソフトウェアとして入り込むこと。その上にシームレスなAIの体験を載せることは非常に体験価値を向上させます。
今後のプロダクト戦略において、「根幹となるワークフローはどこか」を考えることは非常に有望な考え方になるでしょう。