我剛剛為多模態 AI 建立了終極 MCP 伺服器。 它讓你可以在音頻、視頻、圖像和文本上進行 RAG! 100% 開源,這裡是完整的細節...👇
在我們深入之前,這裡有一個我們正在構建的快速演示! 技術棧: - @pixeltablehq 用於構建多模態 AI 基礎設施 - @crewAIInc 用於協調代理工作流程 快速查看這個主題,然後回到這裡以獲取詳細概述。🚀
首先,什麼是 Pixeltable? Pixeltable 是一個專為多模態 AI 設計的 Python 庫—簡化了從數據存儲到模型執行的整個流程。 輕鬆處理圖像、視頻、文本和音頻。 我們的 MCP 伺服器是基於 Pixeltable 建立的。
系統概述: - 用戶提交查詢 - 路由代理識別模式並觸發專家 - 專家代理將相關上下文發送給回應生成器 - 用戶收到一致的回應 讓我們深入代碼吧!
1️⃣ Docker 設定 使用 Docker Compose 部署 Pixeltable MCP 伺服器。 此設定啟動 4 個 MCP 伺服器(文檔、音頻、圖像和視頻),並使用伺服器推送事件(SSE)傳輸。 查看這個 👇
2️⃣ 將 MCP 伺服器連接到 CrewAI 隨著我們的 Pixeltable 伺服器準備就緒,讓我們將 MCP 伺服器整合為 CrewAI 中的工具! 這相當簡單,看看這個 👇
接下來我們開始定義代理... 3️⃣ 定義路由查詢代理 路由代理在我們的系統中指導用戶查詢,分析它們以將每個查詢分配給適當的專家代理。 查看這個 👇
4️⃣ 定義影像專家代理 視頻專家代理利用視頻MCP伺服器進行其工具。 它創建索引,插入視頻,處理幀和音頻,並使其可用於RAG。 查看這個 👇
同樣地,我們可以定義其他專家: 圖像、音頻和文檔專家代理 使用相同的代碼,該代碼在最後共享。
5️⃣ 定義回應合成代理 合成代理作為最終的質量控制層,將專業代理的檢索輸出精煉成精緻、易於使用的回應。 查看這個 👇
6️⃣ 創建 CrewAI 代理流程 讓我們探索如何將我們的代理團隊和 Pixeltable MCP 伺服器作為 CrewAI 流程中的工具連接起來...👇
現在這是我們將要處理並進行 RAG 的視頻。 你可以對任何形式進行相同的操作,例如圖像、音頻等。 不需要任何更改。 查看下一條推文以獲取查詢和獲得的輸出...👇
完成! 現在讓我們看看我們的MCP驅動的多模態、多代理工作流程在運行中 🚀 查看這個 👇
如果您覺得它很有見地,請與您的網路重新分享。 找到我 → @akshay_pachaar ✔️ 有關 LLM、AI 代理和機器學習的更多見解和教程!
Akshay 🚀
Akshay 🚀7月23日 21:20
我剛剛為多模態 AI 建立了終極 MCP 伺服器。 它讓你可以在音頻、視頻、圖像和文本上進行 RAG! 100% 開源,這裡是完整的細節...👇
104.62K