Właśnie zbudowałem ostateczny serwer MCP dla Multimodal AI. Pozwala na RAG w audio, wideo, obrazach i tekście! 100% open-source, oto pełne zestawienie...👇
Zanim zaczniemy, oto szybka demonstracja tego, co budujemy! Stos technologiczny: - @pixeltablehq do budowy infrastruktury AI wielomodalnej - @crewAIInc do orkiestracji agentowego przepływu pracy Szybko sprawdź wątek, a następnie wróć tutaj po szczegółowy przegląd. 🚀
Przede wszystkim, czym jest Pixeltable? Pixeltable to biblioteka Python, która jest niezbędna dla Multimodal AI—upraszczająca cały proces od przechowywania danych po wykonanie modelu. Obsługuje obrazy, filmy, tekst i audio bez wysiłku. Nasze serwery MCP są zbudowane na bazie Pixeltable.
Przegląd systemu: - Użytkownik przesyła zapytanie - Agent routera identyfikuje modalność i uruchamia specjalistę - Agent specjalisty wysyła odpowiedni kontekst do generatora odpowiedzi - Użytkownik otrzymuje spójną odpowiedź Zanurzmy się w kod!
1️⃣ Ustawienie Dockera Wdróż serwer Pixeltable MCP za pomocą Docker Compose. To ustawienie uruchamia 4 serwery MCP (dokument, audio, obraz i wideo) z transportem Server-Sent Events (SSE). Sprawdź to 👇
2️⃣ Połącz serwer MCP z CrewAI Z naszymi serwerami Pixeltable przygotowanymi, zintegrować serwery MCP jako narzędzia w CrewAI! To całkiem proste, sprawdź to 👇
Następnie zaczynamy definiować agentów... 3️⃣ Zdefiniuj Agenta Zapytania Routera Agent Routera kieruje zapytaniami użytkowników w naszym systemie, analizując je, aby przypisać każde do odpowiedniego agenta specjalisty. Sprawdź to 👇
4️⃣ Zdefiniuj Agenta Specjalisty ds. Obrazów Agent Specjalisty ds. Wideo wykorzystuje serwer Video MCP do swoich narzędzi. Tworzy indeks, wstawia filmy, przetwarza zarówno klatki, jak i dźwięk, a następnie udostępnia je dla RAG. Sprawdź to 👇
Podobnie możemy zdefiniować innych specjalistów: Agenci specjalistów ds. obrazu, dźwięku i dokumentów Używany jest ten sam kod, który jest udostępniony na końcu.
5️⃣ Zdefiniuj Agenta Syntezy Odpowiedzi Agent Syntezy pełni rolę ostatecznej warstwy kontroli jakości, udoskonalając wyniki wyszukiwania z wyspecjalizowanych agentów w dopracowane, przyjazne dla użytkownika odpowiedzi. Sprawdź to 👇
6️⃣ Utwórz Agentic Flow w CrewAI Zbadajmy, jak połączyć nasze zespoły agentów i serwery Pixeltable MCP jako narzędzia w CrewAI Flow...👇
Teraz oto wideo, które załadujemy i przeprowadzimy RAG. Możesz zrobić to samo dla dowolnej formy, obrazów, dźwięku itp. Nie będą wymagane żadne zmiany. Sprawdź następny tweet, aby zobaczyć zapytanie i uzyskany wynik...👇
Zrobione! Teraz zobaczmy nasz workflow zasilany przez MCP, wielomodalny, wieloagentowy w akcji 🚀 Sprawdź to 👇
Jeśli uważasz go za wnikliwy, udostępnij go ponownie w swojej sieci. Znajdź mnie → @akshay_pachaar ✔️ Aby uzyskać więcej szczegółowych informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!
Akshay 🚀
Akshay 🚀23 lip, 21:20
Właśnie zbudowałem ostateczny serwer MCP dla Multimodal AI. Pozwala na RAG w audio, wideo, obrazach i tekście! 100% open-source, oto pełne zestawienie...👇
104,63K