トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
マルチモーダルAI用の究極のMCPサーバーを構築したところです。
オーディオ、ビデオ、画像、テキストに対して RAG を実行できます。
100%オープンソース、完全な内訳は次のとおりです...👇
本題に入る前に、私たちが構築しているものの簡単なデモを次に示します。
技術スタック:
- マルチモーダルAIインフラの構築に@pixeltablehq
- エージェントワークフローをオーケストレーションする@crewAIInc
スレッドをすばやく確認してから、ここに戻って詳細な概要を確認してください。🚀
まず、Pixeltableとは?
Pixeltableは、マルチモーダルAI用の頼りになるPythonライブラリであり、データストレージからモデル実行までのパイプライン全体を合理化します。
画像、ビデオ、テキスト、オーディオを簡単に処理します。
当社のMCPサーバーは、Pixeltable上に構築されています。
システム概要:
- ユーザーがクエリを送信した
- ルーターエージェントがモダリティを識別し、スペシャリストをトリガーします
- 専門エージェントが関連するコンテキストを応答ジェネレーターに送信します
- ユーザーは一貫した応答を受け取ります
コードに飛び込んでみましょう!
1️⃣ Docker セットアップ
Docker Compose を使用してピクセル可能な MCP サーバーをデプロイします。
この設定では、サーバー送信イベント (SSE) トランスポートを使用して 4 つの MCP サーバー (ドキュメント、オーディオ、画像、ビデオ) が起動します。
これがいいと思います 👇

2️⃣ MCP サーバーを CrewAI に接続する
Pixeltableサーバーを用意したので、MCPサーバーをCrewAIのツールとして統合しましょう!
かなり簡単ですので、これをチェックしてください 👇

次に、エージェントの定義を開始します...
3️⃣ ルータークエリエージェントの定義
ルーターエージェントは、システム内のユーザークエリを指示し、それらを分析して、それぞれを適切な専門エージェントに割り当てます。
これがいいと思います 👇

4️⃣ 画像スペシャリストエージェントの定義
Video Specialist Agentは、ツールにVideo MCP Serverを利用しています。
インデックスを作成し、ビデオを挿入し、フレームとオーディオの両方を処理して、RAG で使用できるようにします。
これがいいと思います 👇

同様に、他のスペシャリストを定義できます。
画像、オーディオ、ドキュメントのスペシャリストエージェント
同じコードが使用され、最後に共有されます。
5️⃣ 応答合成エージェントの定義
合成エージェントは最終的な品質管理層として機能し、特殊なエージェントからの検索出力を洗練されたユーザーフレンドリーな応答に洗練します。
これがいいと思います 👇

6️⃣ CrewAI エージェント フローを作成する
エージェントの乗組員と Pixeltable MCP サーバーを CrewAI Flow 内のツールとして接続する方法を見てみましょう。👇

次に、取り込んで RAG を実行するビデオを次に示します。
どのモダリティ、画像、オーディオなどでも同じことができます。
変更は必要ありません。
次のツイートでクエリと取得した出力を確認してください...👇
完成です!
それでは、MCP を利用したマルチモーダル、マルチエージェントのワークフローが実際に動作🚀している様子を見てみましょう
これを👇チェックしてください

洞察力に富んだものを見つけた場合は、ネットワークと再共有してください。
お探し→ @akshay_pachaar ✔️
LLM、AIエージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。

7月23日 21:20
マルチモーダルAI用の究極のMCPサーバーを構築したところです。
オーディオ、ビデオ、画像、テキストに対して RAG を実行できます。
100%オープンソース、完全な内訳は次のとおりです...👇
104.65K
トップ
ランキング
お気に入り