Jag har precis byggt den ultimata MCP-servern för multimodal AI. Det låter dig göra RAG över ljud, video, bilder och text! 100 % öppen källkod, här är hela uppdelningen... 👇
Innan vi dyker in, här är en snabb demo av vad vi bygger! Teknisk stack: - @pixeltablehq att bygga den multimodala AI-infrastrukturen - @crewAIInc man orkestrerar det agentiska arbetsflödet Kontrollera snabbt tråden och gå sedan tillbaka hit för en detaljerad översikt. 🚀
Först och främst, vad är Pixeltable? Pixeltable är ett Python-bibliotek för multimodal AI – som effektiviserar hela pipelinen från datalagring till modellkörning. Hanterar bilder, videor, text och ljud utan ansträngning. Våra MCP-servrar är byggda ovanpå Pixeltable.
Översikt över systemet: - Användaren skickar in en fråga - Routeragenten identifierar modaliteten och triggar en specialist - Specialistagenten skickar relevant kontext till svarsgeneratorn - Användaren får ett sammanhängande svar Låt oss dyka in i koden!
1️⃣ Docker-inställning Distribuera Pixeltable MCP-servern med hjälp av Docker Compose. Den här installationen startar 4 MCP-servrar (dokument, ljud, bild och video) med SSE-transport (Server-Sent Events). Kolla in det här 👇
2️⃣ Anslut MCP-servern till CrewAI Med våra Pixeltable-servrar förberedda, låt oss integrera MCP-servrar som verktyg i CrewAI! Det är ganska enkelt, kolla in 👇 det här
Nu ska vi börja definiera agenterna... 3️⃣ Definiera Router Query Agent Router Agent dirigerar användarfrågor inom vårt system och analyserar dem för att tilldela var och en till lämplig specialistagent. Kolla in det här 👇
4️⃣ Definiera bildspecialistagent Video Specialist Agent använder Video MCP Server för sina verktyg. Den skapar ett index, infogar videor, bearbetar både ramar och ljud och gör den tillgänglig för RAG. Kolla in det här 👇
På samma sätt kan vi definiera de andra specialisterna: Agenter som är specialister på bild, ljud och dokument Samma kod används, som delas i slutet.
5️⃣ Definiera svarssyntesagent Synthesis Agent fungerar som ett slutligt kvalitetskontrolllager och förfinar hämtningsutdata från specialiserade agenter till polerade, användarvänliga svar. Kolla in det här 👇
6️⃣ Skapa CrewAI Agentic Flow Låt oss utforska hur vi kan ansluta våra team av agenter och Pixeltable MCP-servrar som verktyg inom CrewAI Flow... 👇
Här är videon som vi ska mata in och göra RAG över. Du kan göra detsamma för alla modaliteter, bilder, ljud etc. Inga ändringar skulle krävas. Kontrollera nästa tweet för frågan och erhållna utdata... 👇
Färdig! Låt oss nu se hur vårt MCP-drivna, multimodala arbetsflöde med flera agenter fungerar i praktiken 🚀 Kolla in det här 👇
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar ✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!
Akshay 🚀
Akshay 🚀23 juli 21:20
Jag har precis byggt den ultimata MCP-servern för multimodal AI. Det låter dig göra RAG över ljud, video, bilder och text! 100 % öppen källkod, här är hela uppdelningen... 👇
104,63K