Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Właśnie zbudowałem ostateczny serwer MCP dla Multimodal AI.
Pozwala na RAG w audio, wideo, obrazach i tekście!
100% open-source, oto pełne zestawienie...👇
Zanim zaczniemy, oto szybka demonstracja tego, co budujemy!
Stos technologiczny:
- @pixeltablehq do budowy infrastruktury AI wielomodalnej
- @crewAIInc do orkiestracji agentowego przepływu pracy
Szybko sprawdź wątek, a następnie wróć tutaj po szczegółowy przegląd. 🚀
Przede wszystkim, czym jest Pixeltable?
Pixeltable to biblioteka Python, która jest niezbędna dla Multimodal AI—upraszczająca cały proces od przechowywania danych po wykonanie modelu.
Obsługuje obrazy, filmy, tekst i audio bez wysiłku.
Nasze serwery MCP są zbudowane na bazie Pixeltable.
Przegląd systemu:
- Użytkownik przesyła zapytanie
- Agent routera identyfikuje modalność i uruchamia specjalistę
- Agent specjalisty wysyła odpowiedni kontekst do generatora odpowiedzi
- Użytkownik otrzymuje spójną odpowiedź
Zanurzmy się w kod!
1️⃣ Ustawienie Dockera
Wdróż serwer Pixeltable MCP za pomocą Docker Compose.
To ustawienie uruchamia 4 serwery MCP (dokument, audio, obraz i wideo) z transportem Server-Sent Events (SSE).
Sprawdź to 👇

2️⃣ Połącz serwer MCP z CrewAI
Z naszymi serwerami Pixeltable przygotowanymi, zintegrować serwery MCP jako narzędzia w CrewAI!
To całkiem proste, sprawdź to 👇

Następnie zaczynamy definiować agentów...
3️⃣ Zdefiniuj Agenta Zapytania Routera
Agent Routera kieruje zapytaniami użytkowników w naszym systemie, analizując je, aby przypisać każde do odpowiedniego agenta specjalisty.
Sprawdź to 👇

4️⃣ Zdefiniuj Agenta Specjalisty ds. Obrazów
Agent Specjalisty ds. Wideo wykorzystuje serwer Video MCP do swoich narzędzi.
Tworzy indeks, wstawia filmy, przetwarza zarówno klatki, jak i dźwięk, a następnie udostępnia je dla RAG.
Sprawdź to 👇

Podobnie możemy zdefiniować innych specjalistów:
Agenci specjalistów ds. obrazu, dźwięku i dokumentów
Używany jest ten sam kod, który jest udostępniony na końcu.
5️⃣ Zdefiniuj Agenta Syntezy Odpowiedzi
Agent Syntezy pełni rolę ostatecznej warstwy kontroli jakości, udoskonalając wyniki wyszukiwania z wyspecjalizowanych agentów w dopracowane, przyjazne dla użytkownika odpowiedzi.
Sprawdź to 👇

6️⃣ Utwórz Agentic Flow w CrewAI
Zbadajmy, jak połączyć nasze zespoły agentów i serwery Pixeltable MCP jako narzędzia w CrewAI Flow...👇

Teraz oto wideo, które załadujemy i przeprowadzimy RAG.
Możesz zrobić to samo dla dowolnej formy, obrazów, dźwięku itp.
Nie będą wymagane żadne zmiany.
Sprawdź następny tweet, aby zobaczyć zapytanie i uzyskany wynik...👇
Zrobione!
Teraz zobaczmy nasz workflow zasilany przez MCP, wielomodalny, wieloagentowy w akcji 🚀
Sprawdź to 👇

Jeśli uważasz go za wnikliwy, udostępnij go ponownie w swojej sieci.
Znajdź mnie → @akshay_pachaar ✔️
Aby uzyskać więcej szczegółowych informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!

23 lip, 21:20
Właśnie zbudowałem ostateczny serwer MCP dla Multimodal AI.
Pozwala na RAG w audio, wideo, obrazach i tekście!
100% open-source, oto pełne zestawienie...👇
104,63K
Najlepsze
Ranking
Ulubione