AIの新たな潮流:スケーリング則を超える4つの革新
AIの進化は、これまで「スケーリング則」と呼ばれる、モデルのサイズや学習データの量を増やすことで性能を向上させる手法が主流でした。これは、さながら巨大な鍋に大量の食材を投入し、長時間煮込むことで美味しいスープを作るようなものです。
しかし、近年、このアプローチに依存しない新たな潮流が生まれています。これらの革新的な手法を、料理のたとえ話を用いてわかりやすく解説します。
DeepSeek:無駄を省いて効率的に学習するAI
特徴: 開発団体 : DeepSeek (中国)
DeepSeekは、限られたデータと計算資源で高性能なAIを作る、いわば「省エネAI」です。従来のAIは、大量のデータと巨大なモデルを使って力技で性能を上げてきました。これは、たくさんの食材を大きな鍋で煮込むようなもので、どうしてもコストがかかってしまいます。
DeepSeekは、モデルの構造を工夫することで、必要なデータ量と計算量を減らしています。具体的には、「スパース性」という概念を導入し、モデル内部の結合を疎にすることで、パラメータ数を大幅に削減しています。これは、神経細胞のシナプス結合を効率化するようなもので、重要な情報伝達経路のみを強化することで、脳全体のエネルギー消費を抑えつつ、高度な処理を可能にしています。
さらに、DeepSeekは、限られたデータを有効活用するために、様々な技術を駆使しています。例えば、「知識蒸留」では、巨大な教師モデルで学習した知識を、より小さな生徒モデルに圧縮して伝達することで、生徒モデルの性能を向上させています。
これは、熟練のシェフが弟子に秘伝のレシピを伝授するようなもので、効率的な知識伝承を実現しています。また、「データ拡張」では、既存のデータを加工・増幅することで、データ不足を補っています。これは、限られた食材を様々な調理法でアレンジすることで、バリエーション豊かな料理を生み出すようなものです。
このように、DeepSeekは、モデルの構造と学習方法を工夫することで、少ない資源で効率的に高性能なAIを実現しています。
客観的な実証結果:
DeepSeekの最新モデルDeepSeek-V3は、6710億パラメータのMoEアーキテクチャを採用した大規模言語モデルであり、オープンソースで公開されています。
14.8兆トークンもの多言語コーパスで学習され、特に数学やプログラミング分野で高い性能を発揮します。
各種ベンチマークテストでは、Qwen 2.5-MaxやGPT-4oに匹敵する結果も示しており、その性能が客観的に裏付けられています。
学習には約278.8万H800 GPU時間、約557.6万ドルという大規模な計算資源が投入されています。またOpenAI互換のAPI形式を採用しているため、既存のアプリケーションからの移行が容易な点も特徴です。
採用事例:
中国の主要企業や政府機関がDeepSeekのAIモデルを積極的に導入しています。
例えば、家電メーカーのHaierやHisense、TCL Electronicsは、製品にDeepSeekのAIモデルを組み込み、スマート機能を強化しています。また、通信大手のChina MobileやChina Unicom、China Telecomも、DeepSeekの技術を活用しています。 サウジアラムコはDeepSeekのAI技術を導入し、運用の効率化と価値向上を実現しています。
Sakana AI:AI同士を組み合わせて進化させる
特徴: 開発団体: Sakana AI (日本)
Sakana AIは、「進化的モデルマージ」という、生物の進化を模倣した方法でAIを進化させています。複数のAIモデルを、それぞれ異なる特徴を持つ「個体」と見なし、それらを交配させて新たな「個体」を生み出すことで、より優れたAIを探索します。
具体的には、各AIモデルのパラメータや構造を「遺伝子」として表現し、遺伝的アルゴリズムを用いて、これらの「遺伝子」を操作します。「交叉」と呼ばれる操作では、異なる「個体」の「遺伝子」を組み合わせることで、新たな「個体」を生み出します。
これは、両親の遺伝子を組み合わせて子供が生まれるようなもので、多様な個体を生成することができます。「突然変異」と呼ばれる操作では、「遺伝子」にランダムな変化を加えることで、新たな可能性を探索します。これは、進化の過程で起こる突然変異のように、予期せぬ変化によって新たな能力を獲得する可能性を秘めています。
そして、これらの操作によって生まれた「個体」の中から、優れた性能を持つものを選別し、さらに交配を繰り返すことで、世代を重ねるごとにAIの性能を向上させていきます。これは、自然界の進化のように、環境に適応した個体が生き残り、その遺伝子が次世代に受け継がれていくプロセスを模倣したものです。
このように、Sakana AIは、進化という自然のメカニズムをAI開発に取り入れることで、効率的に高性能なAIを生み出しています。
客観的な実証結果:
Sakana AIの「進化的モデルマージ」は、既存のモデルを組み合わせることで、新たな高性能モデルを自動生成する技術です。具体的なベンチマーク結果は公開されていませんが、この手法は、ゼロからモデルを構築するよりも効率的かつ効果的に高性能なAIを開発する可能性を示しています。
採用事例:
Sakana AIは、研究開発だけでなく、実際のユースケースの開発にも注力するため、「事業開発本部」を新設。三菱UFJフィナンシャル・グループや三井住友銀行などの金融機関と協業し、企業の業務合理化に貢献している。
DeepMindのRETRO:必要な情報は外部から
特徴: 開発団体:DeepMind (Google)
DeepMindのRETROは、外部のデータベースを活用することで、モデル自体を巨大化させることなく、高い性能を実現するAIです。従来のAIは、大量のデータを学習し、その知識をモデル内部に蓄積していました。しかし、RETROは、必要な時に必要な情報だけを外部データベースから検索して利用します。
具体的には、RETROは、入力されたテキストに関連する情報を、巨大なテキストデータベースから検索します。このデータベースは、Wikipediaなどの百科事典や書籍、論文など、膨大な量のテキストデータで構成されています。そして、検索された情報は、モデルの入力に付加され、文脈理解を深めるために利用されます。
これは、人間が本やインターネットで情報を検索しながら問題を解決するプロセスに似ています。私たちは、全ての知識を記憶しているわけではありませんが、必要な時に必要な情報を検索することで、様々な問題に対応することができます。RETROも同様に、外部データベースを活用することで、モデル自体が巨大な知識を持つ必要がなくなり、効率的に言語処理を行うことができます。
さらに、RETROは、「近似最近傍探索(Approximate Nearest Neighbor Search, ANN)」と呼ばれる技術を用いて、データベースから最も関連性の高い情報を効率的に検索します。ANNは、入力されたテキストと類似したテキストを高速に検索する技術で、大規模なデータセットに対して正確かつ迅速な情報検索を可能にします。
このように、RETROは、外部データベースを活用することで、モデルのサイズを抑えつつ、高度な言語理解と生成能力を実現しています。
客観的な実証結果:
RETROは、75億パラメータのモデルでありながら、1750億パラメータのJurassic-1や2800億パラメータのGopherと比較して、言語モデリングベンチマークで優れた性能を示しています。
具体的には、RETROはPileベンチマークでJurassic-1を10個中9個のデータセットで上回り、Gopherを9個中9個のデータセットで上回る結果を示しています
採用事例:
RETROは、DeepMindの研究プロジェクトとして開発されましたが、今のところ具体的な採用事例は公開されておりません。外部知識を活用するLLMのコンセプトは、検索エンジンと対話AIの融合や企業内ナレッジベースQ&Aなどの実用例に影響を与えています。
Meta AIのToolformer:道具を使いこなすAI
特徴: 開発団体:Meta AI (Meta Platforms)
Meta AIのToolformerは、人間のように様々なツールを使いこなすAIです。従来のAIは、特定のタスクをこなすために特化して設計されていましたが、Toolformerは、電卓、翻訳ツール、検索エンジンなど、様々なツールを自律的に利用することができます。
Toolformerは、API呼び出しを自然言語で記述したデータセットで学習することで、ツール利用能力を獲得しています。例えば、「10 + 20は?」という質問に対して、「電卓を使って計算する」という行動を学習します。そして、実際に電卓のAPIを呼び出し、「30」という答えを得ることで、タスクを完了します。
Toolformerは、与えられたタスクを分析し、どのツールを使えば効率的に解決できるかを判断します。そして、そのツールを操作するためのAPI呼び出しコマンドを生成し、実行します。これは、人間が状況に応じて適切な道具を選択し、使いこなすプロセスと似ています。
例えば、Toolformerは、以下のようなタスクをツールを使って解決することができます。
- 計算:電卓を使って複雑な計算を行う。
- 翻訳:翻訳ツールを使って文章を別の言語に翻訳する。
- 情報検索:検索エンジンを使って情報を検索する。
- カレンダー登録:カレンダーアプリを使って予定を登録する。
このように、Toolformerは、ツールを自律的に利用することで、従来のAIよりも幅広いタスクに対応できるようになっています。
以上
ケニー狩野(中小企業診断士、PMP、ITコーディネータ)
キヤノン(株)でアーキテクト、プロマネとして多数のプロジェクトをリード。
現在、株式会社ベーネテック代表、株式会社アープ取締役、一般社団法人Society 5.0振興協会評議員ブロックチェーン導入評価委員長。
これまでの知見を活かしブロックチェーンや人工知能技術の推進に従事。趣味はダイビングと囲碁。
2018年「リアル・イノベーション・マインド」を出版。