分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

マルチモーダルAI用の究極のMCPサーバーを構築したところです。オーディオ、ビデオ、画像、テキストに対して RAG を実行できます。 100%オープンソース、完全な内訳は次のとおりです...👇

本題に入る前に、私たちが構築しているものの簡単なデモを次に示します。技術スタック: - マルチモーダルAIインフラの構築に@pixeltablehq - エージェントワークフローをオーケストレーションする@crewAIInc スレッドをすばやく確認してから、ここに戻って詳細な概要を確認してください。🚀

まず、Pixeltableとは? Pixeltableは、マルチモーダルAI用の頼りになるPythonライブラリであり、データストレージからモデル実行までのパイプライン全体を合理化します。画像、ビデオ、テキスト、オーディオを簡単に処理します。当社のMCPサーバーは、Pixeltable上に構築されています。

システム概要: - ユーザーがクエリを送信した - ルーターエージェントがモダリティを識別し、スペシャリストをトリガーします - 専門エージェントが関連するコンテキストを応答ジェネレーターに送信します - ユーザーは一貫した応答を受け取りますコードに飛び込んでみましょう!

1️⃣ Docker セットアップ Docker Compose を使用してピクセル可能な MCP サーバーをデプロイします。この設定では、サーバー送信イベント (SSE) トランスポートを使用して 4 つの MCP サーバー (ドキュメント、オーディオ、画像、ビデオ) が起動します。これがいいと思います 👇

2️⃣ MCP サーバーを CrewAI に接続する Pixeltableサーバーを用意したので、MCPサーバーをCrewAIのツールとして統合しましょう! かなり簡単ですので、これをチェックしてください 👇

次に、エージェントの定義を開始します... 3️⃣ ルータークエリエージェントの定義ルーターエージェントは、システム内のユーザークエリを指示し、それらを分析して、それぞれを適切な専門エージェントに割り当てます。これがいいと思います 👇

4️⃣ 画像スペシャリストエージェントの定義 Video Specialist Agentは、ツールにVideo MCP Serverを利用しています。インデックスを作成し、ビデオを挿入し、フレームとオーディオの両方を処理して、RAG で使用できるようにします。これがいいと思います 👇

同様に、他のスペシャリストを定義できます。画像、オーディオ、ドキュメントのスペシャリストエージェント同じコードが使用され、最後に共有されます。

5️⃣ 応答合成エージェントの定義合成エージェントは最終的な品質管理層として機能し、特殊なエージェントからの検索出力を洗練されたユーザーフレンドリーな応答に洗練します。これがいいと思います 👇

6️⃣ CrewAI エージェントフローを作成するエージェントの乗組員と Pixeltable MCP サーバーを CrewAI Flow 内のツールとして接続する方法を見てみましょう。👇

次に、取り込んで RAG を実行するビデオを次に示します。どのモダリティ、画像、オーディオなどでも同じことができます。変更は必要ありません。次のツイートでクエリと取得した出力を確認してください...👇

完成です！それでは、MCP を利用したマルチモーダル、マルチエージェントのワークフローが実際に動作🚀している様子を見てみましょうこれを👇チェックしてください

洞察力に富んだものを見つけた場合は、ネットワークと再共有してください。お探し→ @akshay_pachaar ✔️ LLM、AIエージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。

104.65K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable