Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ho appena costruito il server MCP definitivo per l'IA multimodale.
Ti consente di fare RAG su audio, video, immagini e testo!
100% open-source, ecco il riepilogo completo...👇
Prima di immergerci, ecco una rapida demo di ciò che stiamo costruendo!
Stack tecnologico:
- @pixeltablehq per costruire l'infrastruttura AI multimodale
- @crewAIInc per orchestrare il flusso di lavoro agentico
Controlla rapidamente il thread, poi torna qui per una panoramica dettagliata. 🚀
Prima di tutto, cos'è Pixeltable?
Pixeltable è una libreria Python di riferimento per l'IA multimodale—ottimizzando l'intero processo dalla memorizzazione dei dati all'esecuzione del modello.
Gestisce immagini, video, testo e audio senza sforzo.
I nostri server MCP sono costruiti su Pixeltable.
Panoramica del sistema:
- L'utente invia una query
- L'agente router identifica la modalità e attiva uno specialista
- L'agente specialista invia il contesto rilevante al generatore di risposte
- L'utente riceve una risposta coerente
Immergiamoci nel codice!
1️⃣ Configurazione di Docker
Distribuisci il server Pixeltable MCP utilizzando Docker Compose.
Questa configurazione avvia 4 server MCP (documento, audio, immagine e video) con trasporto Server-Sent Events (SSE).
Dai un'occhiata a questo 👇

2️⃣ Collega il server MCP a CrewAI
Con i nostri server Pixeltable pronti, integriamo i server MCP come strumenti in CrewAI!
È abbastanza facile, dai un'occhiata 👇

Successivamente iniziamo a definire gli agenti...
3️⃣ Definisci l'Agente di Query Router
L'Agente Router dirige le query degli utenti all'interno del nostro sistema, analizzandole per assegnarle a ciascun agente specialista appropriato.
Dai un'occhiata a questo 👇

4️⃣ Definire l'Agente Specialista in Immagini
L'Agente Specialista in Video utilizza il Server Video MCP per i suoi strumenti.
Crea un indice, inserisce video, elabora sia i fotogrammi che l'audio e lo rende disponibile per RAG.
Dai un'occhiata qui 👇

Allo stesso modo, possiamo definire gli altri specialisti:
Agenti Specialisti di Immagine, Audio e Documento
Viene utilizzato lo stesso codice, che è condiviso alla fine.
5️⃣ Definire l'Agente di Sintesi della Risposta
L'Agente di Sintesi funge da ultimo strato di controllo qualità, affinando i risultati di recupero provenienti da agenti specializzati in risposte rifinite e user-friendly.
Dai un'occhiata a questo 👇

6️⃣ Crea il Flusso Agentico di CrewAI
Esploriamo come connettere i nostri gruppi di agenti e i server MCP di Pixeltable come strumenti all'interno del Flusso di CrewAI...👇

Ora ecco il video che ingesteremo e su cui faremo RAG.
Puoi fare lo stesso per qualsiasi modalità, immagini, audio, ecc.
Non sarebbero necessarie modifiche.
Controlla il tweet successivo per la query e l'output ottenuto...👇
Fatto!
Ora vediamo il nostro flusso di lavoro multi-modale e multi-agente alimentato da MCP in azione 🚀
Controlla questo 👇

Se l'hai trovato interessante, condividilo nuovamente con la tua rete.
Trovami → @akshay_pachaar ✔️
Per ulteriori approfondimenti e tutorial su LLM, agenti di intelligenza artificiale e apprendimento automatico!

23 lug, 21:20
Ho appena costruito il server MCP definitivo per l'IA multimodale.
Ti consente di fare RAG su audio, video, immagini e testo!
100% open-source, ecco il riepilogo completo...👇
104,64K
Principali
Ranking
Preferiti