昨今、MoEの普及が進んでいるにもかかわらず、MoEに関する体系的かつ包括的なレビューが不足している。本白書では、MoEモデルに関する動向、論文、文献を体系的かつ包括的にレビューし、MoE技術の展望を探る者にとって価値ある大要として提供するものである。
本白書では、MoEモデルに関して形成されつつある分類法を紹介し、アルゴリズム設計、システム設計、コンピューティングシステムのサポート、実用的な応用といったさまざまな視点を包含する分析を提供し、それぞれ分類法で概説した構造に従って掘り下げている。
本白書が、MoEモデルを迅速に理解しようとする研究者、実務者、AI投資家、アナリスト等にとって不可欠な参考資料となり、MoE探索における継続的な更新と最先端開発の共有を促進することを願っている。
内容編成(目次)
序
第1章 MoE(専門家混合モデル)概説
1-1 まえがき
1-2 定義・概念の広がり
1-3 MoEモデルが関心を集める根拠・背景
1-4 LLMとMoEの関係
1-5 密なモデルよりも効果的にスケールするMoEモデル
第2章 MoEの展開と背景
2-1 概説
2-2 密なMoE
2-3 疎なMoE
2-4 MoEのスパース混合
2-5 条件付き計算
2-6 言語のためのMoE
2-7 視覚のためのMoE
2-8 浅いMoE
2-9 トランスフォーマーモデルへの応用
第3章 MoEに関する分類法
3-1 概説
3-2 TransformerベースのモデルにおけるMoE層
第4章 MoEがもたらす効率向上
4-1 MoE言語モデルのスケーリング則
4-2 効率的なスケーリングと生涯学習
4-3 検索補強モデル
4-4 効率的なフィードフォワード層
4-5 関連研究
グーグル・ディープマインド 「100万人のMoE」
第5章 MoEの研究動向
5-1 概況・近況
5-2 スパース性/活性化スパース性
5-3 異種MoE
5-4 スパースゲートMoE
5-5 ルーティング戦略
5-6 ニューラルアーキテクチャ探索
5-7 トップPルーティング戦略
5-8 事例
[1] テンセント・フンユアン/マサチューセッツ工科大学 「言語モデリングのための専門家の異種混合:HMoE」
第6章 MoE普及の課題・解法の道筋
6-1 概説
6-2 モデルのサイズ
6-3 トレーニングの安定性と負荷分散
6-4 スケーラビリティと通信オーバーヘッド
6-5 言語処理タスクに対応
6-6 専門家の専門化とコラボレーション
6-7 スパース活性化と計算効率
6-8 汎化性と頑健性
6-9 解釈可能性と透明性
6-10 学習後のLLMの量子化
6-11 パラメータオフロードによる推論
6-12 LLM圧縮による効率性、信頼性の向上
6-13 モデルを圧縮する際の問題
6-14 最適化された活性化オフロード
[1] 異なるエキスパートに対する不均等な計算負荷への対処
[2] LLMの量子化
[3] MoEの圧縮
第7章 最適化されたMoE活性化オフロード
7-1 MoEモデルの最適化
7-2 LLMの量子化とMoE
7-3 MoEの圧縮
第8章 専門家混合アルゴリズムの設計
8-1 ゲーティング機能
[1] 疎なゲーティング関数
[2] 密度
[3] ソフト
他
第9章 エキスパート・ネットワークのアーキテクチャ
9-1 ネットワークの種類
[1] フィード・フォワード・ネットワーク
[2] アテンション
[3] その他
9-2 ハイパーパラメーター
[1] 専門家の数
[2] エキスパートのサイズ
[3] MoE層の頻度
9-3 アクティベーション機能
9-4 共有エキスパート
第10章 MoE派生モデルの進化
10-1 概説
10-2 パラメータ効率の良いMoE
[1] フィード・フォワード・ネットワーク
[2] アテンション
[3] トランス・ブロック
[4] 各レイヤー
10-3 トレーニングと推論スキーム
[1] 密から疎へ
[2] 疎から密へ
[3] エキスパートモデルのマージ
10-4 派生モデル
10-5 パラメータ効率の良い微調整(PEFT)
10-6 Mixture of Depthアーキテクチャによるアプローチ
第11章 MoEの設計
11-1 計算
11-2 コミュニケーション
11-3 ストレージ
第12章 MoEの応用
12-1 自然言語処理
12-2 コンピュータビジョン
12-3 レコメンダー・システム
12-4 マルチモーダル・アプリケーション
他
第13章 MoEアーキテクチャの統合による大規模マルチモーダルモデルの機能拡張
13-1 概説
13-2 漸進的学習アプローチ
13-3 フレームワーク
13-4 戦略的トレーニング
13-5 トレーニング
13-6 統一されたマルチモーダルモデル
13-7 LLMのためのマルチモーダル命令チューニング
13-8 MoEによる大規模モデル
13-9 関連研究
[1] インスティテュート・オブ・テクノロジー他研究チーム 「Uni-MoE:MoEによる統一マルチモーダルLLMのスケーリング」
第14章 MoEのソリューション
14-1 動的なエキスパート配置・複製
第15章 非線形性を識別するための強力なモデルとしてのMoE
15-1 概説
第16章 SMoEs(スパースMoEモデル)
16-1 Sparse Mixture of Experts (SMoEs)による推論とトレーニング速度、メモリフットプリントの改善
16-2 関連研究
[1] グーグル・ブレイン 「専門家のスパース混合によるスケーリング・ビジョン」
[2] アーロン・クールビル 「Sparse Mixture-of-Expertによる分散実施」
第17章 主なプレーヤー/商用利用可能なMeEモデル
17-1 Mistral AI 「Mixtral 8x7B」
17-2 IBM 「量子回路の最適化、量子コンピューティング能力の強化:Qiskit SDK v1.2」
17-2 マイクロソフト 「勾配情報付き専門家混合MoEモデル:GRIN MoE」
17-3 マイクロソフト/中国科学院大学 「Q-Sparse:LLMにおける活性化の完全なスパース性を可能にするAIアプローチ」
17-4 アレンAI研究所/コンテクスチュアルAI/ワシントン大学/プリンストン大学の研究チーム 「完全にオープンソース化されたMoE」
17-5 XVERSE Technology 「MOEアーキテクチャと大規模言語処理における新たな基準を設定する多言語 AI モデル: XVERSE-MoE-A36B」
17-6 DeepSeek-AI 「MoEを特徴とする最先端の238億パラメータモデル:DeepSeek-V2.5」
第18章 その他主な研究論文紹介
18-1 テキサス大学オースティン校、ドレクセル大学、MIT、UIUC、ローレンス・リバモア国立研究所、AI安全性センター他研究チーム 「LLM圧縮の評価: AI言語モデル開発における効率性、信頼性、倫理性のバランス
18-2 非線形力学系のための専門家モデルの変分ベイズ混合と感度分析
18-3 モスクワ物理工科大学 「オフロードを用いた専門家混合言語モデルの高速推論」