曲突徙薪(きょくとつししん)第8号

大規模言語モデル(LLM)の概要

 ChatGPTのように、入力データや出力結果として文章(言語)の情報を扱うAIを、しばしば大規模言語モデル(large language model, LLM)などと呼ぶことがあります。

 LLMは、自然言語処理(natural language processing, NLP)の分野にて、膨大な量の言語のデータをもとに、言語に関する知識やパターンを抽出し、人間のように自然な言語の受け答えを実現するモデル(コンピューターシステム)のことを指します。これらのモデルは、前述した基盤技術の進化、特にディープラーニング技術の発展とクラウドコンピューティングの普及により急速に高度化が進展しました 。

 LLMは、数億から数千億のパラメータを持つ非常に大きなニューラルネットワークを使用して構築されます。これによってコンピューターは、非常に複雑な言語パターン、つまり文法を学習できるようになりました。例えば、文章の意味や文脈に沿って、翻訳、要約、質問応答、感情分析、文書生成などのタスクを処理することが可能になります。

 LLMの学習には、膨大な量のテキストデータが必要です。これらのデータは、ウェブ上の文章、ニュース記事、書籍、社会メディアの投稿などから収集されます。機械学習の際には、高性能のGPUやテンソル処理ユニット(tensor processing unit, TPU)などの特殊なハードウェアや、クラウドコンピューティングのリソースを利用して、膨大な計算量を効率的に実行します。

 LLMとして有名なのは、ChatGPTが採用しているGPTのほか、米Google社のBERT(bidirectional encoder representations from transformer)、米Meta社のLlamaなどがあります。これらのモデルは、主に事前学習とファインチューニング(微調整)の2つのステップにより、さまざまなNLPのタスクに利用できます。このうちの事前学習では、膨大な量のテキストデータを用いた学習を通じて、一般的な言語の仕組みをモデルに落とし込んでいます。