テックブログ

エルカミーの技術ブログです

🤖 【論文紹介】LLMベースのAIエージェントのデザインパターン18選

目次
1. はじめに 1.1 この記事について 1.2 対象者 1.3 これを読むと何が嬉しいか? 2. AIエージェントとは? 2.1 AIエージェントの定義 2.2 AIエージェントの特徴 2.3 AIエージェントの設計の課題 2.4 なぜデザインパターンか?(課題に対して解消) 3. デザインパターン 3.1 受動的なゴールクリエーター (Passive goal creator) 3.2 能動的なゴールクリエーター (Proactive Goal Creator) 3.3 プロンプト/レスポンス最適化 (Prompt/response optimiser) 3.4 RAG (Retrieval augmented generation) 3.5 ワンショットモデルクエリ (One-shot model querying) 3.6 インクリメンタルモデルクエリ (Incremental model querying) 3.7 シングルパスプランジェネレーター (Single-path plan generator) 3.8 マルチパスプランジェネレーター (Multi-path plan generator) 3.9 セルフリフレクション (Self-reflection) 3.10 クロスリフレクション (Cross-reflection) 3.11 ヒューマンリフレクション (Human reflection) 3.12 投票ベースの協力 (Voting-based cooperation) 3.13 役割ベースの協力 (Role-based cooperation) 3.14 ディベートベースの協調 (Debate-based cooperation) 3.15 マルチモーダルガードレール (Multimodal guardrails) 3.16 ツール/エージェントレジストリ (Tool/agent registry) 3.17 エージェントアダプター (Agent adapter) 3.18 エージェント評価者 (Agent evaluator) 4. おわりに 4.1 具体的な活用シーン 4.2 今後の展望 5. 参考文献

1. はじめに

1.1 この記事について

AIエージェントの設計に役立つ18のデザインパターンを紹介します。デザインパターンを活用することで、AIエージェントを構築する際の失敗を減らし、効率的な設計を行うことができます。参考論文「Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents」を基に、具体的なパターンの内容とその適用方法について解説します。

1.2 対象者
  • AIエージェントの概要を知りたい
  • AIエージェントでシステムを構築したい人
  • 論文を読む時間ない人
  • AIエージェントの設計パターンを辞書的に使いたい人
1.3 これを読むと何が嬉しいか?
  • AIエージェントの設計におけるベストプラクティスを学べる
  • 設計の失敗を減らし、効率的なシステム構築が可能になる
  • デザインパターンを理解し、具体的な問題解決に役立てることができる

2. AIエージェントとは?

2.1 AIエージェントの定義

LLM(大規模言語モデル)の文脈でAIエージェントとは、ユーザーの目標を追求する自律的なシステムです。これらのシステムは、ユーザーの指示に基づき、LLMを活用してタスクを実行し、目標達成を支援します。

2.2 AIエージェントの特徴
  • 優れた推論能力と言語処理機能: 自然言語を理解し、適切な応答を生成する能力
  • 目標達成のタスク分割と実行: ユーザーの目標を達成するためのタスクを自動的に分割し、実行する能力
2.3 AIエージェントの設計の課題
  1. 推論プロセスの説明可能性: エージェントの決定過程をユーザーに説明する能力
  2. 幻覚(ハルシネーション): エージェントが誤った情報を生成するリスク
  3. 説明責任の複雑: エージェントの行動に対する説明責任をどのように担保するか
2.4 なぜデザインパターンか?(課題に対して解消)

デザインパターンは、これらの設計課題を解消するための具体的な方法を提供します。パターンを理解し、適用することで、効率的で信頼性の高いAIエージェントを構築することができます。

3. デザインパターン

以下に、AIエージェントの設計に役立つ18のデザインパターンを一覧で紹介します。

No パターン名 内容 知っておくべき 度
1 受動的なゴールクリエーター
(Passive goal creator)
対話インターフェイスを通じてユーザーの明確なプロンプトを分析し、インタラクティブ性、目標追求、効率性を維持します。 ⭐️⭐️
2 能動的なゴールクリエーター
(Proactive goal creator)
ユーザーの行動や履歴を基に、目標を自動的に設定し、提案します。 ⭐️⭐️
3 プロンプト/レスポンス最適化
(Prompt/response optimiser)
入力や出力の内容と形式を最適化します。 ⭐️⭐️⭐️
4 RAG
(Retrieval augmented generation)
内部またはオンラインデータから知識を取得し、エージェントの知識を強化します。 ⭐️⭐️⭐️
5 ワンショットモデルクエリ
(One-shot model querying)
単一のインスタンスで計画を生成します。 ⭐️
6 インクリメンタルモデルクエリ
(Incremental model querying)
計画生成の各ステップでモデルを逐次クエリします。 ⭐️⭐️
7 シングルパスプランジェネレーター
(Single-path plan generator)
ユーザーの目標達成に向けた中間ステップを生成します。 ⭐️⭐️⭐️
8 マルチパスプランジェネレーター
(Multi-path plan generator)
各中間ステップで複数の選択肢を生成します。 ⭐️⭐️⭐️
9 セルフリフレクション
(Self-reflection)
エージェントが自己評価を行い、計画と推論プロセスを改善します。 ⭐️⭐️⭐️
10 クロスリフレクション
(Cross-reflection)
他のエージェントや基盤モデルからフィードバックを取得します。 ⭐️⭐️
11 ヒューマンリフレクション
(Human reflection)
人間からのフィードバックを収集し、計画を改善します。 ⭐️⭐️
12 投票ベースの協力
(Voting-based cooperation)
エージェント間で投票を行い、意見を集約します。 ⭐️⭐️⭐️
13 役割ベースの協力
(Role-based cooperation)
エージェントに役割を割り当て、役割に応じて決定を行います。 ⭐️⭐️
14 ディベートベースの協力
(Debate-based cooperation)
エージェント間で議論を行い、意見を調整します。 ⭐️⭐️
15 マルチモーダルガードレール
(Multimodal guardrails)
基盤モデルの入力と出力を制御し、特定の要件を満たします。 ⭐️⭐️⭐️
16 ツール/エージェントレジストリ
(Tool/agent registry)
多様なエージェントやツールを選択するための統一されたリソースを提供します。 ⭐️⭐️
17 エージェントアダプター
(Agent adapter)
エージェントと外部ツールを接続するインターフェースを提供します。 ⭐️⭐️
18 エージェント評価者
(Agent evaluator)
エージェントの性能を評価するためのテストを実施します。 ⭐️⭐️⭐️
image block
https://arxiv.org/html/2405.10467v3
3.1 受動的なゴールクリエーター (Passive goal creator)
image block
概要 受動的なゴールクリエーターは、対話インターフェースを通じてユーザーの明確なプロンプトを分析し、目標を生成します。
問題 ユーザーが提供する情報が曖昧である場合、エージェントが目標を達成するのが難しくなります。
解決 ユーザーが提供するコンテキスト情報を分析し、関連情報をメモリから取得して目標を設定します。
メリット 対話性、目標追求、効率性を維持します。
デメリット 推論の不確実性が増す可能性があります。
ユースケース 対話からのユーザの意図理解

3.2 能動的なゴールクリエーター (Proactive Goal Creator)
image block
概要 能動的なゴールクリエーターは、ユーザーの行動や履歴を基に目標を自動的に設定し、提案します。
問題 対話インターフェースだけでは、限られたコンテキスト情報しか収集できない可能性があります。
解決 検出器がマルチモーダルなコンテキスト情報(ユーザのジェスチャーなど)を収集し、ユーザーの目標を予測します。
メリット 対話性、目標追求、アクセシビリティが向上します。
デメリット コストが増加する可能性があります。
用途 対話以外からのユーザの意図理解

3.3 プロンプト/レスポンス最適化 (Prompt/response optimiser)
image block
概要 プロンプト/レスポンス最適化は、入力や出力の内容と形式を最適化します。
問題 効果的なプロンプトや標準化されたレスポンスを生成するのが難しいことがあります。
解決 プロンプトやレスポンスのテンプレートを使用して、標準化されたクエリやレスポンスを生成します。
メリット 標準化、目標整合性、相互運用性、適応性が向上します。
デメリット コンテキスト情報を効果的に取り込むのが難しい場合があります。
用途 テンプレートを用いたよりよいプロンプトを生成
3.4 RAG (Retrieval augmented generation)
image block
概要 RAGは、エージェントの知識更新性を向上させ、データプライバシーを維持します。
問題 ドメイン固有の知識が不足している場合、推論プロセスが信頼できないことがあります。
解決 内部またはオンラインデータから知識を取得し、計画生成に使用します。
メリット 知識取得、更新性、データプライバシー、コスト効率が向上します。
デメリット パラメータ化された知識の維持と更新には追加のコストがかかります。
用途 社内文章をもとにした回答を生成
3.5 ワンショットモデルクエリ (One-shot model querying)

image block
概要 基盤モデルを単一のインスタンスでクエリし、計画を生成します。
問題 エージェントが効率的に計画を生成する方法は?
解消 単一のクエリで計画を生成し、詳細な推論ステップを省略します。
メリット 効率性、コスト効率、シンプルさが向上します。
デメリット 複雑なタスクには適さない、説明可能性が低い
用途 シンプルなエージェントを作る場合

3.6 インクリメンタルモデルクエリ (Incremental model querying)
image block
概要 インクリメンタルモデルクエリでは、プラン生成プロセスの各ステップで基礎モデルにアクセスします。
問題 基盤モデルが最初の試行で正しい応答を生成できない場合にエージェントはどのようにして正確な推論プロセスを実行できるでしょうか?
解決 ステップごとに基盤モデルをクエリし、計画を生成します。
メリット 補完的なコンテキスト、推論の確実性、説明可能性が向上します。
デメリット オーバーヘッドが増加、コストが増加する可能性
用途 ユーザからのフィードバックを反映したプラン生成

3.7 シングルパスプランジェネレーター (Single-path plan generator)
image block
概要 シングルパス プラン ジェネレーターは、ユーザーの目標達成につながる中間ステップの生成を調整します。
問題 エージェントが効率的に目標を達成するための戦略を策定する方法は?
解決 各ステップに単一の後続ステップを持つ計画を生成します。
メリット 推論の確実性、整合性、効率性が向上します。
デメリット 柔軟性が制限される可能性、過度な単純化
用途 目標達成のためのステップを作成し実行させる
3.8 マルチパスプランジェネレーター (Multi-path plan generator)
image block
概要 マルチパス プラン ジェネレーターを使用すると、ユーザーの目標を達成するために、各中間ステップで複数の選択肢を作成できます。
問題 複雑なタスクや問題に対して包括的で効率的な解決策を生成する方法は?
解決 各ステップで複数の選択肢を生成し、ユーザーの好みに合わせて計画を調整します。
メリット 推論の確実性、整合性、人間の好みに合わせたカスタマイズ、包括性が向上します。
デメリット オーバーヘッドが増加
用途 目標達成のためのステップを作成し、ステップごとにユーザが介入できる選択肢を生成

3.9 セルフリフレクション (Self-reflection)
image block
概要 自己反省により、エージェントは計画と推論プロセスに関するフィードバックを生成し、自分自身から改善のガイダンスを提供できるようになります。
問題 基盤モデルの幻覚によって生成された計画が影響を受ける場合はどうすればよいか?
解決 エージェントが自己評価を行い、計画と推論プロセスを改善します。
メリット 推論の確実性、説明可能性、継続的な改善、効率性が向上します。
デメリット 推論の不確実性、オーバーヘッドが増加する可能性
用途 計画の正確性向上

3.10 クロスリフレクション (Cross-reflection)
image block
概要 他のエージェントや基盤モデルからフィードバックを取得し、計画と推論プロセスを改善します。
問題 エージェントが自己評価を行う能力が限られている場合はどうすればよいか?
解決 他のエージェントからフィードバックを取得し、計画と推論プロセスを改善します。
メリット 推論の確実性、説明可能性、包括性、スケーラビリティが向上します。
デメリット 推論の不確実性、公平性の維持が難しい、複雑な責任追及プロセス
用途 別エージェントによる計画の正確性向上

3.11 ヒューマンリフレクション (Human reflection)
image block
概要 エージェントは人間からのフィードバックを収集し、計画を改善します。
問題 人間の好みを完全かつ正確に把握し、推論プロセスと生成された計画に統合する方法
解決 エージェントが生成した計画を人間に提示し、フィードバックを収集して計画を改善します。
メリット 人間の好みに合わせた計画の調整、コンテスタビリティ、効果的なフィードバック収集
デメリット 公平性の維持、限られた理解能力、オーバーヘッド
用途 人間による計画の正確性向上

3.12 投票ベースの協力 (Voting-based cooperation)
image block
概要 エージェントは自由に意見を述べ、投票ベースの協力を通じて合意に達することができます。
問題 エージェント間の意思決定を適切に行い、公平性を確保する方法は?
解決 各エージェントが投票を行い、最も適切なフィードバックを選択します。
メリット 公平性、アカウンタビリティ、集合知
デメリット 中央集権化、オーバーヘッド
用途 複数のエージェントを活用して多数決で最終的な回答を選択する

3.13 役割ベースの協力 (Role-based cooperation)

image block
概要 エージェントにはさまざまな役割が割り当てられ、その役割に応じて決定が確定されます。
問題 エージェントが特定のタスクに協力する方法は?
解消 各エージェントに役割を割り当て、役割に応じてタスクを遂行します。
メリット 労働の分担、フォールトトレランス、スケーラビリティ、アカウンタビリティ
デメリット オーバーヘッド
用途 複数役割エージェントによるタスク遂行

3.14 ディベートベースの協調 (Debate-based cooperation)
image block
概要 エージェント間で議論を行い、意見を調整します。
問題 複数のエージェントを活用して精緻な応答を生成し、エージェントの進化を促進する方法は?
解決 エージェント間で議論を行い、意見を調整します。
メリット 適応性、説明可能性、クリティカルシンキング
デメリット 限られた能力、データプライバシー、オーバーヘッド、スケーラビリティの維持
用途 ユーザの質問に対して、複数のエージェントが議論した結果内容をユーザに回答

3.15 マルチモーダルガードレール (Multimodal guardrails)
image block
概要 マルチモーダル ガードレールは、ユーザー要件、倫理基準、法律などの特定の要件を満たすために、基盤モデルの入力と出力を制御できます。
問題 基盤モデルが悪意のある入力に影響されるのを防ぎ、ユーザーや他のコンポーネントに有害な出力を生成しないようにするには?
解決 ガードレールを中間層として配置し、入力と出力を検証します。
メリット ロバスト性、安全性、標準準拠、適応性
デメリット オーバーヘッド、説明可能性の欠如
用途 安全なエージェントを構築

3.16 ツール/エージェントレジストリ (Tool/agent registry)
image block
概要 ツール/エージェント レジストリは、さまざまなエージェントとツールを選択するための統一された便利なソースを維持します。
問題 多様なエージェントやツールの中から適切なものを効率的に選択する方法は?
解決 ツール/エージェントレジストリを使用して、適切なエージェントやツールを検索します。
メリット 発見性、効率性、ツールの適切性、スケーラビリティ
デメリット 中央集権化、オーバーヘッド
用途 AI エージェントの機能を拡張

3.17 エージェントアダプター (Agent adapter)

image block
概要 エージェント アダプターは、タスクを完了するためにエージェントと外部ツールを接続するインターフェイスを提供します。
問題 多様なツールのインターフェースに対応する方法は?
解決 エージェントアダプターがインターフェースを変換し、ツールのサービスを利用します。
メリット 相互運用性、適応性、開発コストの削減
デメリット メンテナンスオーバーヘッド
用途 インターフェースを使って外部ツールを使用
3.18 エージェント評価者 (Agent evaluator)
image block
概要 エージェント評価者は、さまざまな要件とメトリックに関してエージェントを評価するためのテストを実行できます。
問題 エージェントの性能を評価し、意図通りに動作しているかを確認する方法は?
解決 エージェント評価者が特定のシナリオに基づいたテストケースを準備し、評価を実施します。
メリット 機能適合性、適応性、柔軟性
デメリット メトリックの定量化、評価の質
用途 AI エージェントのテストや評価

4. おわりに

本記事では、AIエージェントの設計に役立つ18のデザインパターンの参考論文「Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents」を紹介しました。これらのパターンは、AIエージェントの構築における共通の課題に対する解決策を提供し、より効率的で信頼性の高いAIエージェントの設計に役立てることができます。

4.1 具体的な活用シーン

活用シーンとしては、

  • ユーザーとの自然な対話: 受動的/能動的なゴールクリエーター、プロンプト/レスポンス最適化
  • 知識ベースの活用: RAG
  • 計画の生成と実行: ワンショット/インクリメンタルモデルクエリ、シングル/マルチパスプランジェネレーター
  • エージェントの自己改善: セルフ/クロス/ヒューマンリフレクション
  • 複数のエージェントの協調: 投票ベース/役割ベース/ディベートベースの協力
  • 安全なシステムの構築: マルチモーダルガードレール
  • ツールの活用と評価: ツール/エージェントレジストリ、エージェントアダプター、エージェント評価者

などが挙げられます。

4.2 今後の展望
  • より複雑なタスクへの対応: マルチモーダルな情報処理、長期的な計画、感情認識
  • 倫理的な問題への対処: バイアスの軽減、説明可能性の向上、プライバシー保護
  • 人間との共存: 協調的な作業、信頼関係の構築

本記事が、読者の皆様のAIエージェントの設計に少しでもお役に立てれば幸いです。

5. 参考文献