Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg har nettopp bygget den ultimate MCP-serveren for Multimodal AI.
Den lar deg gjøre RAG over lyd, video, bilder og tekst!
100 % åpen kildekode, her er hele oversikten... 👇
Før vi dykker inn, her er en rask demo av hva vi bygger!
Teknisk stabel:
- @pixeltablehq bygge den multimodale AI-infrastrukturen
- @crewAIInc for å orkestrere den agentiske arbeidsflyten
Sjekk tråden raskt, og kom tilbake hit for en detaljert oversikt. 🚀
Først av alt, hva er Pixeltable?
Pixeltable er et Python-bibliotek for multimodal kunstig intelligens – som effektiviserer hele datasamlebåndet fra datalagring til modellkjøring.
Håndterer bilder, videoer, tekst og lyd uten problemer.
Våre MCP-servere er bygget på toppen av Pixeltable.
Oversikt over systemet:
- Brukeren sender inn en forespørsel
- Ruteragent identifiserer modalitet og utløser en spesialist
- Spesialistagent sender relevant kontekst til responsgenerator
- Brukeren får et sammenhengende svar
La oss dykke ned i koden!
1️⃣ Docker-oppsett
Distribuer Pixeltable MCP-serveren ved hjelp av Docker Compose.
Dette oppsettet starter 4 MCP-servere (dokument, lyd, bilde og video) med Server-Sent Events (SSE)-transport.
Sjekk dette ut 👇

2️⃣ Koble MCP-serveren til CrewAI
Med våre Pixeltable-servere klargjort, la oss integrere MCP-servere som verktøy i CrewAI!
Det er ganske enkelt, sjekk dette ut 👇

Deretter begynner vi å definere agentene ...
3️⃣ Definer ruterspørringsagent
Router Agent dirigerer brukerforespørsler i systemet vårt, analyserer dem for å tilordne hver til riktig spesialistagent.
Sjekk dette ut 👇

4️⃣ Definer bildespesialistagent
Video Specialist Agent bruker Video MCP Server for sine verktøy.
Den lager en indeks, setter inn videoer, behandler både rammer og lyd og gjør den tilgjengelig for RAG.
Sjekk dette ut 👇

På samme måte kan vi definere de andre spesialistene:
Bilde-, lyd- og dokumentspesialister
Den samme koden brukes, som deles på slutten.
5️⃣ Definer responssynteseagent
Synthesis Agent fungerer som et endelig kvalitetskontrolllag, og foredler gjenfinningsutganger fra spesialiserte agenter til polerte, brukervennlige svar.
Sjekk dette ut 👇

6️⃣ Opprett CrewAI Agentic Flow
La oss utforske hvordan vi kan koble sammen våre mannskaper av agenter og Pixeltable MCP-servere som verktøy i CrewAI Flow... 👇

Her er videoen som vi skal ta inn og gjøre RAG over.
Du kan gjøre det samme for alle modaliteter, bilder, lyd osv.
Ingen endringer ville være nødvendig.
Sjekk neste tweet for spørringen og den innhentede utgangen... 👇
Gjort!
La oss nå se vår MCP-drevne, multimodale, multiagentarbeidsflyt i aksjon 🚀
Sjekk dette 👇

Hvis du syntes det var innsiktsfullt, kan du dele det med nettverket ditt.
Finn meg → @akshay_pachaar ✔️
For mer innsikt og opplæringer om LLM-er, AI-agenter og maskinlæring!

23. juli, 21:20
Jeg har nettopp bygget den ultimate MCP-serveren for Multimodal AI.
Den lar deg gjøre RAG over lyd, video, bilder og tekst!
100 % åpen kildekode, her er hele oversikten... 👇
104,62K
Topp
Rangering
Favoritter