Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich habe gerade den ultimativen MCP-Server für Multimodale KI erstellt.
Er ermöglicht es dir, RAG über Audio, Video, Bilder und Text zu machen!
100% Open-Source, hier ist die vollständige Aufschlüsselung...👇
Bevor wir eintauchen, hier ist eine kurze Demo von dem, was wir aufbauen!
Technologiestack:
- @pixeltablehq zum Aufbau der multimodalen KI-Infrastruktur
- @crewAIInc zur Orchestrierung des agentischen Workflows
Überprüfen Sie schnell den Thread und kehren Sie dann hierher zurück für eine detaillierte Übersicht. 🚀
Zunächst einmal, was ist Pixeltable?
Pixeltable ist eine bevorzugte Python-Bibliothek für Multimodale KI – sie optimiert die gesamte Pipeline von der Datenspeicherung bis zur Modellausführung.
Verarbeitet mühelos Bilder, Videos, Texte und Audio.
Unsere MCP-Server basieren auf Pixeltable.
Systemübersicht:
- Benutzer reicht eine Anfrage ein
- Router-Agent identifiziert die Modalität und aktiviert einen Spezialisten
- Spezialisten-Agent sendet relevanten Kontext an den Antwortgenerator
- Benutzer erhält eine kohärente Antwort
Lass uns in den Code eintauchen!
1️⃣ Docker-Setup
Setzen Sie den Pixeltable MCP-Server mit Docker Compose ein.
Dieses Setup startet 4 MCP-Server (Dokument, Audio, Bild und Video) mit Server-Sent Events (SSE) Transport.
Schau dir das an 👇

2️⃣ Verbinde den MCP-Server mit CrewAI
Mit unseren vorbereiteten Pixeltable-Servern lassen Sie uns die MCP-Server als Werkzeuge in CrewAI integrieren!
Es ist ziemlich einfach, schauen Sie sich das an 👇

Als nächstes beginnen wir mit der Definition der Agenten...
3️⃣ Definiere Router-Query-Agent
Der Router-Agent leitet Benutzeranfragen innerhalb unseres Systems weiter, analysiert sie und weist jede Anfrage dem entsprechenden Fachagenten zu.
Sieh dir das an 👇

4️⃣ Definiere Bildspezialist-Agent
Der Videospezialist-Agent nutzt den Video MCP-Server für seine Werkzeuge.
Er erstellt ein Index, fügt Videos ein, verarbeitet sowohl Bilder als auch Audio und macht es für RAG verfügbar.
Sieh dir das an 👇

Ähnlich können wir die anderen Spezialisten definieren:
Bild-, Audio- und Dokumentenspezialisten-Agenten
Der gleiche Code wird verwendet, der am Ende geteilt wird.
5️⃣ Definiere den Antwortsynthese-Agenten
Der Synthese-Agent dient als letzte Qualitätskontrollschicht, die die Abrufausgaben von spezialisierten Agenten in ausgefeilte, benutzerfreundliche Antworten verfeinert.
Sieh dir das an 👇

6️⃣ Erstelle CrewAI Agentic Flow
Lass uns erkunden, wie wir unsere Gruppen von Agenten und Pixeltable MCP-Servern als Werkzeuge innerhalb des CrewAI Flows verbinden können...👇

Hier ist das Video, das wir verarbeiten und über RAG durchführen werden.
Das Gleiche kannst du für jede Modalität tun, Bilder, Audio usw.
Es sind keine Änderungen erforderlich.
Sieh dir den nächsten Tweet für die Abfrage und die erhaltene Ausgabe an...👇
Fertig!
Jetzt sehen wir unseren MCP-gesteuerten, multimodalen, Multi-Agenten-Workflow in Aktion 🚀
Überprüfe das 👇

Wenn Sie es aufschlussreich fanden, teilen Sie es erneut mit Ihrem Netzwerk.
Finde mich → @akshay_pachaar ✔️
Für weitere Einblicke und Tutorials zu LLMs, KI-Agenten und maschinellem Lernen!

23. Juli, 21:20
Ich habe gerade den ultimativen MCP-Server für Multimodale KI erstellt.
Er ermöglicht es dir, RAG über Audio, Video, Bilder und Text zu machen!
100% Open-Source, hier ist die vollständige Aufschlüsselung...👇
104,62K
Top
Ranking
Favoriten