膨大な公開データで学習されたLLMは、幅広い一般知識推論タスクで大きな進歩を遂げてきた。LLMは、様々なタスクをサポートするために、ますます専門的なドメインで採用されるようになってきている。ほとんどの一般的なLLMは、変換器アーキテクチャに依存し、汎用コーパスを用いて訓練される。
このような環境では、一般的な知識推論はそれほど重要ではなく、代わりに与えられた文書集合に基づいて精度を最大化することが主な目標となる。これらの汎用モデルは強力な性能を発揮したが、語彙の分布シフトにより、ドメインに特化した自然言語理解・生成タスクでは最適な性能を発揮できなかった。
こうしたなか、昨今、LLMの実装と実用化を促進するために、汎用のLLMに加えて、価値の高いドメイン特化型の大規模モデルが精力的に、そして広く研究・開発されている。
これまでの研究では、ドメインに特化したコーポラを用いて訓練されたLLMは、専門的なタスクにおいてより優れた性能を発揮することが実証されて、生成タスクにおいて素晴らしい能力を発揮している。また、ドメインに特化した正確な知識を提供するために、より小規模で高品質なデータセットで訓練されたLLMがリリースされるケースも増えている。
今後、LLMを、企業のプライベート文書、学習カットオフ後に構築されたプログラムリソースなどの特殊なドメインに適応させることが重要なテーマとして浮上し、新しいアプリケーションにとって不可欠となっている。
内容編成(目次)
序
第1章 ドメイン特化型LLMの分類、課題、将来の方向性
1-1 概説
1-2 ドメイン特化型LLMのカテゴリー
[1] ビジネス&マネジメント マネジメント教育
[2] ビジネス・経済学 科学等に関する研究論文作成
[3] ソフトウェア工学
[4] ヘルスケア
[5] 医学 学術論文
[6] 教育、社会、複合領域
[7] 学術・科学論文支援
[8] フォールト・イントレラントなドメイン
1-3 将来の方向性
[1] 会話・対話能力の向上
[2] パーソナライゼーション
[3] マルチモーダル設計
[4] マルチモーダルAIの実現に向けた次のステップ
第2章 ドメイン特化型LLM/ドメイン固有のLLMに関する研究・実装動向 概説
2-1 概況・近況
2-2 拡張トランス・アーキテクチャ
2-3 自然言語処理領域
2-4 コンピュータビジョン領域
2-5 金融LLM
2-6 金融に特化したLLMに関する研究動向
2-7 法務LLM
2-8 法務LLMに関する研究動向
2-9 科学研究のためのドメイン特化型LLM
2-10 研究チーム、参入企業動向
[1] NASA/IBM研究チーム 「高度な科学研究のためのドメイン特化型LLMスイート「INDUS」を発表」
[2] SciPhi Open Sourced Triplex 「知識(ナレッジ)グラフ構築に特化した科学者やアナリスト向けLLM:SOTA LLM」
第3章 ドメイン固有のRAGに適応させるLLM
3-1 概説
[1] オープンブック試験
[2] RAFT(提案)
[3] 検索補強型言語モデル(RALM)
3-2 関連研究
[1] カリフォルニア大学バークレー校 「RAFT:言語モデルをドメイン固有のRAGに適応させる」
第4章 財務分析に特化したLLM
4-1 概説
4-2 財務分析LLMにおけるプロンプトテンプレート
4-3 LLMによる高度な財務分析プロンプトエンジニアリング
[1] システムメッセージを戦略的に活用すること
[2] 温度パラメーター
4-4 関連研究
[1] マーケット大学ファイナンス学部 「財務分析のための適切な生成AIプロンプティング」
第5章 会計業務に特化したLLM
5-1 概説
5-2 会計におけるトピック別研究
5-3 会計トピックを認識するためのテキスト分析
5-4 潜在ディリクレ割り当て(LDA)
5-5 会計トピックの分類に適したイノベーション
5-6 研究応用
5-7 関連研究
[1] コロラド大学デンバー校 「会計トピック分類のための大規模言語モデルの使用」
第6章 フォレンジック会計に特化したLLM
6-1 概説
6-2 財務会計におけるLLMの能力の実証
6-3 内部統制の文脈におけるChatGPTの自然言語能力の実証
6-4 フォレンジック会計におけるChatgptの定量的能力の実証
6-5 技術的進化
6-6 chatgptの応用
6-7 LLMを効果的に使用するための原則
6-8 関連研究
[1] バックネル大学フリーマン経営学部研究チーム 「ChatGPTと他の大規模言語モデルをフォレンジック会計の実践に応用する」
第7章 監査業務に特化したLLM
7-1 概説
7-2 監査におけるAI/生成AIと関連する新技術
7-3 理論的観点
[1] 動的能力理論
[2] 社会的プレゼンス理論
7-4 生成AIの活用に関する現在の議論・状況的背景
7-5 責任あるAIと改善提案
7-6 関連研究
[1] カールスタード大学他研究チーム 「外部監査における大規模言語モデル(ChatGPT)の探求: その意味と倫理的考察」
第8章 金融に特化したLLM
8-1 概説
8-2 センチメントの構築
[1] デイリーニュースの要約テキストの構築
[2] 時系列でのセンチメントの有意性
[3] 金融LLM の展望
[4] LLMベースのセンチメント構成
[5] 従来のセンチメント構築
[6] 時系列でのセンチメントの有意性
[7] 金融LLM の展望
8-3 関連研究
[1] クイーンズランド大学ビジネススクール他研究チーム 「大規模言語モデルと金融市場のセンチメント」
第9章 知的財産戦略・特許保護戦略に特化したLLM
9-1 概要
9-2 イノベーションとアリス対CLSバンク・インターナショナル
[1] 法的背景
[2] 知的財産保護喪失の結果
[3] その他の影響力のある判例
9-3 データと方法
第10章 マテリアル・インフォマティクスに特化したLLM
10-1 マテリアル・インフォマティクス分野でのマルチモーダルLLMの複合的な可能性
10-2 材料分析と設計のためのマルチモーダル視覚言語モデル
10-3 研究チーム、参入企業動向
[1] MIT 「バイオインスパイアードデザインに特化したマルチモーダル視覚大言語モデル(V-LLM)シリーズ:Cephalo」
第11章 マーケティング業務に特化したLLM
11-1 LLMマーケティングとフレームワーク
[1] 概要
[2] タスク別分類
[3] 生成AIで効率化できるマーケティングタスク
[4] 生成系AIをマーケティングに活用するための方法論
[5] ツール(アプリケーション)別、ソリューション別アプローチ
[6] ビジネス・アプリケーション向けの生成AIアシスタント
11-2 2024年以降に予測されるLLMマーケティングのトレンド
11-3 LLM 主導のマーケティング戦略モデル
11-4 LLM による需要予測
11-5 LLM と顧客行動理解
11-6 LLM 主導のスマート・マーケティングの形成
11-7 LLM 主導のチャネル・マーケティング・トランスフォーメーション
第12章 ソフトウェア開発に特化したLLM
12-1 コードによる複雑なアルゴリズムの自動実装と検証を可能にするAIフレームワーク LLM
[1] 概説
[2] スタンフォード大学 「Parse」
12-2 コーディング用大規模言語モデル
[1] Hugging Face 「コーディング用LLM:StarCoder/StarCoderBase」
12-3 LLMのための許諾済みソースコード
[1] 概説
[2] BigCodeプロジェクト 「Stack」
12-4 自然言語のフィードバックでプログラム合成するソフトウェア開発技術
[1] 概説
[2] 自然言語のフィードバックでプログラム合成するソフトウェア開発技術
第13章 ロボティクスに特化したLLM
13-1 概況・近況
13-2 LLMを使ったロボット工学におけるイノベーション
[1] 概説
[2] グーグル 「LLMを使ったロボット工学における最新のイノベーション:PaLM 2」
13-3 大規模言語モデルを用いたロボット知能
13-4 ロボットの知能のための言語モデル
[1] 強化学習における報酬設計
[2] 低レベル制御
[3] 高レベル計画(意思決定および推論を含む)
[4] LLMによる操作
[5] LLMとVLMsにおけるシーンの理解
13-5 LLM/生成系AIのロボットアプリケーションへの適用
[1] 概説
[2] マイクロソフト 「ChatGPTのロボットアプリケーションへの使用に関する実験的研究」
13-6 LLMとロボットを融合させたグーグルの新型ロボット「RT-2」
13-7 マルチモーダル言語モデル「PaLM-E」とロボティクス
13-8 LLMによる未知知のシーンにゼロショットで行動を移せるロボティクスシステム
[1] 概説
[2] Meta AI 「GenAug」
13-9 Google DeepMind 「視覚と言語を行動に変換する視覚言語アクション(VLA)モデル「RT-2」
13-10 LLMによるロボットの多様な動作生成
[1] LLMによるロボットの制御/ロボットアームを用いた物体操作の実機実験
[2] プリファード 「LLMを介した自然言語によるHSR(ヒューマン・サポート・ロボット)/片付けロボット操作の取り組み」
13-11 その他ロボット制御系LLMの例
PaLM-E(ロボット操作などのタスクで強い推論能力を発揮するエンボディド・マルチモーダル言語モデル)
13-12 関連研究
[1] 東亜大学他研究チーム 「大規模言語モデルを用いたロボット知能」
第14章 画像・映像・アート系LLM/拡散モデル(DM)/潜在拡散モデル(LDM)[1]
14-1 概説
[1] OpenAIによる画像合成で拡散モデルがGANに勝つ
[2] UC Berkeleyによる拡散確率モデルのノイズ除去
[3] DALL-E 2 by OpenAI
[4] Googleによる画像生成:Imagen
[5] コンピュータビジョンと学習グループ(LMU)による安定した拡散
[6] スタンフォード大学によるControlNet
14-2 画像生成・動画広告などで可能性が広がる拡散モデル(Diffusion Model)
[1] 拡散モデルの概要
[2] 架空のグラドル生成
14-3 医療画像の合成データの作成
[1] 概説
[2] スタンフォード研究グループ 「学習データが乏しい状況で高忠実度の合成データセットを生成する安定拡散モデル」
14-4 Generative Adversarial Networks(GAN)の目的・スケーリング
[1] 概説
[2] カーネギーメロン大学/アドービ・リサーチ 「テキストから画像への合成のための大規模な修正GANアーキテクチャ:GigaGAN」
14-5 言語と画像を使って既存の動画から新しい動画を生成する生成AIモデル
[1] 概説
[2] Stability Ai 「DALL-E 2、Stable Diffusionと事前に訓練されたニューラルネットワーク」
14-6 画像拡散モデルを使った動画編集モデル
[1] 概説
[2] 画像拡散モデルを使って動画編集を簡略化するモデル 「Pix2Video」
14-7 エンベッディング空間によるテキストから画像への生成
[1] 概説
[2] テキストから画像への拡散モデル
14-8 人間のフィードバックを利用してテキストから画像へのAIモデルを改善するアプローチ
[1] 概説
[2] Google/U.C.Berkeley 「人間のフィードバックによる強化学習(RLHF)」
14-9 生成トランスフォーマーによるテキストから画像への生成・編集モデル
[1] 概説
[2] Google AI 「マスク型生成トランスフォーマーによるテキストから画像への生成・編集モデル: Muse」
[3] Facebook AI Research 「視覚および視覚言語タスクの広い範囲をサポートするたモデル: X-Decoder」
14-10 3Dジオメトリとコンピュータグラフィックスアプリケーション
[1] 概説
[2] OpenAI 「テキストプロンプトに基づき3D画像を高速生成する機械学習システム:Point-E」
14-11 非拘束空間を限定空間に変換するスペースワープ技術
[1] 概説
[2] 新しいグリッドベースの映像合成システム「F2NeRF」
14-12 Stability AI 「標準的なPCで実行可能な画像生成系AI:Stabile Diffusion XL 0.9」
14-13 画像と交錯する自由形式のテキストを生成するAIモデル
[1] 概説
[2] CMU 「Frozen Large Language Models(LLM)を効率的にブートストラップ:FROMAGe」
14-14 生成系AIアートのパーソナライゼーション
[1] 拡散モデルを用いたText-to-Image生成
[2] Adobe Research 「モデルを完全に再トレーニングすることなく複数の新しい概念を学習する方法」
第15章 画像・映像・アート系LLM/拡散モデル(DM)/潜在拡散モデル(LDM)[2]
15-1 テキストから画像を生成する拡散モデルを調整する方法
[1] 概説
[2] 多様で制御可能な画像生成を可能にする統合AIフレームワーク 「MultiDiffusion」
[3] CMU研究グループ 「制御可能なフォトリアリスティック画像合成のための3Dを意識した条件付き生成モデル:Pix2pix3D」
15-2 事前に訓練された画像拡散モデルによる時間的にコヒーレントな動画生成
[1] 概説
[2] NVIDIA 「効率的で表現力豊かなテキストからビデオへの変換モデル」
15-3 未知物体の3D再構成とコンピュータビジョンにおける課題
[1] 概説
[2] Nvidia 「単眼RGBD映像からのニューラル・オブジェクト追跡と3D再構成を実行するBundleSDFの提供」
15-4 既存の視覚モデルや視覚言語モデルが苦手とする視覚課題の解決
[1] 概説
[2] Microsoft AI 「MM-REACT」(視覚プールを組み合わせてマルチモーダル推論・行動を実現するシステム)」
15-5 動画の深層生成モデル
[1] 概説
[2] 動画の新しい生成モデルによるSOTAスコアの向上とGPUメモリ使用量の削減
15-6 テキストから4D(3D+時間)を生成するシステム
[1] 概説
[2] Meta AI 「テキストから4D(3D+時間)を生成するシステム」
15-7 3D生成モデル
[1] 概説
[2] 検索補強型視覚言語事前トレーニング
[3] Google AI 「チャート理解と数学的推論に革命を起こすMatChaとDePlotを提唱」
[4] Video-LLaMA:映像理解のための命令調整された視聴覚言語モデル
第16章 音楽・音響の生成モデル
16-1 テキスト記述から音楽を生成するAIモデル
[1] 概説
[2] テキスト記述から音楽を生成するAIモデル 「MusicLM」
16-2 音楽合成と音源分離の両方が可能な拡散ベースの生成モデル
[1] 概説
[2] ローマ大学GLADIA研究室 「Multi-Source Diffusion Model (MSDM)」
16-3 歌の伴奏を生成するAIモデル
[1] 概説
[2] 歌の伴奏を生成するAIモデル 「SingSong」
16-4 オーディオ生成のための潜在拡散モデル
[1] 概説
[2] オーディオ生成のための潜在拡散モデル 「AudioLDM」
16-5 その他、主な生成系AIのモデル
[1] 概説
[2] MusicLM
[3] SingSong
[4] Moûsai
[5] AudioLDM
[6] EPIC SOUNDSデータセット
第17章 科学・学術研究用のLLM
17-1 医療教育、研究、実践における大規模言語モデルの有用性
[1] 概説
[2] ChatGPTの利点と医療教育、実践、研究における応用の可能性
[3] 課題・将来の展望
17-2 文脈に基づく文献ベースの発見と科学的アイデアの支援
[1] 概説
[2] 文脈に基づく文献ベースの発見 「C-LBD」
17-3 単純な表現から分子の構造を推測するLLM
[1] 概説
[2] IBM 「MoLFormer-XL」
17-4 生物学のためのLLM
17-5 生物医学の言語を解釈するために訓練された目的別AIモデル
[1] 概説
[2] スタンフォード大学/MosaicML 「PubMed GPT」
17-6 分子生物学における大規模言語モデル
[1] 概説
[2] 分子生物学における言語モデル/LLMの果たす役割
[3] ファウンデーションモデル
[4] 未来への展望
17-7 大規模な生物医学文献で事前学習されたドメイン固有の生成変換言語モデル
[1] 概説
[2] Microsoft Research 「BioGPT」
17-8 科学的ニューラルネットワークアシスタント 「Galactica」
17-9 LLMによるニューロン解析
[1] 概説
[2] OpenAI 「GPT-4によるニューロン解析の研究成果を公表」
17-10 生成系AIによる衛星データ活用の課題解決
[1] Solafune/マイクロソフト 「GPU(画像処理半導体)インスタンス(仮想マシン)の提供による生成系AIの衛星データ活用」
第18章 医療領域を支援する大規模言語モデル
18-1 概説
18-2 医療領域を支援する大規模言語モデル 「Med-PaLM」
18-3 安定拡散ベースの大規模な胸部X線および放射線データセットで微調整するモデル
[1] 概説
[2] スタンフォード大学 「RoentGen」
18-4 ディープラーニングモデルによる個別化医療を支援
[1] 概説
[2] MIT 「電子健康記録から重要なデータを抽出するモデル」
18-5 LLMによる認知症予測
[1] 概説
[2] ドレクセル大学 「LLMによる自発的なスピーチからの認知症予測」
[3] デンマーク工科大学/コペンハーゲン大学病院 「LLMが医学的な質問について推論する能力の探求」
18-6 ヒポクラティックAI 「安全性に特化した言語モデルを公開」
第19章 LLMによるリサーチ、研究論文作成、学術出版支援
19-1 概説
19-2 学術出版におけるLLM活用の利点
19-3 LLMを学術出版に利用することの倫理的問題
19-4 オーサーシップ、著作権、剽窃対策
19-5 学術界における引用の慣行対策
19-6 大規模言語モデルの妥当性判定・知覚分析の自動化
19-7 自動生成された文章と直接評価を使用した知覚マップの作成
19-8 関連研究
ChatGPTと新たな学術的現実: AIが書いた研究論文と学術出版における大規模言語モデルの倫理
第20章 法律セクターにおけるLLMの活用
20-1 概説
20-2 法律に特化したLLMS
20-3 アドバンスト・プロンプティング
20-4 エンベッディングとベクトル・データベース
20-5 ソース(予測結果の出所)
20-6 ブラックボックス問題と解決策
20-7 クラウドソーシング
20-8 二次資料の捏造対策
20-9 関連研究
[1] 大規模言語モデルのケース: リーガル・リサーチにおけるロー&テクノロジー・ライブラリアン
第21章 政策・行政立案ツールとしてのLLM
21-1 概説
21-2 ロビイストツールとしてのLLM
21-3 社会-AIアライメントの問題
21-4 関連研究
[1] スタンフォード大学 「企業ロビイストとしての大規模言語モデル」
第22章 主なドメイン特化・業務特化型LLM
22-1 ファーウェイクラウド 「自動車向け・医療向けの大規模言語モデル」
22-2 Salesforce AI 「コードインテリジェンスタスクのLLM統合:CodeTFライブラリ」
22-3 Salesforce AI 「テキストから画像への拡散生成を行う新しい編集アルゴリズム:EDICT」
22-4 Salesforth AIリサーチ 「画像エンコーダとLLMからブートストラップする視覚・言語事前学習戦略:BLIP-2」
22-5 MosaicML Foundation 「MPT-7B」