マルチモーダルAI用の究極のMCPサーバーを構築したところです。 オーディオ、ビデオ、画像、テキストに対して RAG を実行できます。 100%オープンソース、完全な内訳は次のとおりです...👇
本題に入る前に、私たちが構築しているものの簡単なデモを次に示します。 技術スタック: - マルチモーダルAIインフラの構築に@pixeltablehq - エージェントワークフローをオーケストレーションする@crewAIInc スレッドをすばやく確認してから、ここに戻って詳細な概要を確認してください。🚀
まず、Pixeltableとは? Pixeltableは、マルチモーダルAI用の頼りになるPythonライブラリであり、データストレージからモデル実行までのパイプライン全体を合理化します。 画像、ビデオ、テキスト、オーディオを簡単に処理します。 当社のMCPサーバーは、Pixeltable上に構築されています。
システム概要: - ユーザーがクエリを送信した - ルーターエージェントがモダリティを識別し、スペシャリストをトリガーします - 専門エージェントが関連するコンテキストを応答ジェネレーターに送信します - ユーザーは一貫した応答を受け取ります コードに飛び込んでみましょう!
1️⃣ Docker セットアップ Docker Compose を使用してピクセル可能な MCP サーバーをデプロイします。 この設定では、サーバー送信イベント (SSE) トランスポートを使用して 4 つの MCP サーバー (ドキュメント、オーディオ、画像、ビデオ) が起動します。 これがいいと思います 👇
2️⃣ MCP サーバーを CrewAI に接続する Pixeltableサーバーを用意したので、MCPサーバーをCrewAIのツールとして統合しましょう! かなり簡単ですので、これをチェックしてください 👇
次に、エージェントの定義を開始します... 3️⃣ ルータークエリエージェントの定義 ルーターエージェントは、システム内のユーザークエリを指示し、それらを分析して、それぞれを適切な専門エージェントに割り当てます。 これがいいと思います 👇
4️⃣ 画像スペシャリストエージェントの定義 Video Specialist Agentは、ツールにVideo MCP Serverを利用しています。 インデックスを作成し、ビデオを挿入し、フレームとオーディオの両方を処理して、RAG で使用できるようにします。 これがいいと思います 👇
同様に、他のスペシャリストを定義できます。 画像、オーディオ、ドキュメントのスペシャリストエージェント 同じコードが使用され、最後に共有されます。
5️⃣ 応答合成エージェントの定義 合成エージェントは最終的な品質管理層として機能し、特殊なエージェントからの検索出力を洗練されたユーザーフレンドリーな応答に洗練します。 これがいいと思います 👇
6️⃣ CrewAI エージェント フローを作成する エージェントの乗組員と Pixeltable MCP サーバーを CrewAI Flow 内のツールとして接続する方法を見てみましょう。👇
次に、取り込んで RAG を実行するビデオを次に示します。 どのモダリティ、画像、オーディオなどでも同じことができます。 変更は必要ありません。 次のツイートでクエリと取得した出力を確認してください...👇
完成です! それでは、MCP を利用したマルチモーダル、マルチエージェントのワークフローが実際に動作🚀している様子を見てみましょう これを👇チェックしてください
洞察力に富んだものを見つけた場合は、ネットワークと再共有してください。 お探し→ @akshay_pachaar ✔️ LLM、AIエージェント、機械学習に関するその他の洞察とチュートリアルについては、こちらをご覧ください。
Akshay 🚀
Akshay 🚀7月23日 21:20
マルチモーダルAI用の究極のMCPサーバーを構築したところです。 オーディオ、ビデオ、画像、テキストに対して RAG を実行できます。 100%オープンソース、完全な内訳は次のとおりです...👇
104.65K