DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Ho appena costruito il server MCP definitivo per l'IA multimodale. Ti consente di fare RAG su audio, video, immagini e testo! 100% open-source, ecco il riepilogo completo...👇

Prima di immergerci, ecco una rapida demo di ciò che stiamo costruendo! Stack tecnologico: - @pixeltablehq per costruire l'infrastruttura AI multimodale - @crewAIInc per orchestrare il flusso di lavoro agentico Controlla rapidamente il thread, poi torna qui per una panoramica dettagliata. 🚀

Prima di tutto, cos'è Pixeltable? Pixeltable è una libreria Python di riferimento per l'IA multimodale—ottimizzando l'intero processo dalla memorizzazione dei dati all'esecuzione del modello. Gestisce immagini, video, testo e audio senza sforzo. I nostri server MCP sono costruiti su Pixeltable.

Panoramica del sistema: - L'utente invia una query - L'agente router identifica la modalità e attiva uno specialista - L'agente specialista invia il contesto rilevante al generatore di risposte - L'utente riceve una risposta coerente Immergiamoci nel codice!

1️⃣ Configurazione di Docker Distribuisci il server Pixeltable MCP utilizzando Docker Compose. Questa configurazione avvia 4 server MCP (documento, audio, immagine e video) con trasporto Server-Sent Events (SSE). Dai un'occhiata a questo 👇

2️⃣ Collega il server MCP a CrewAI Con i nostri server Pixeltable pronti, integriamo i server MCP come strumenti in CrewAI! È abbastanza facile, dai un'occhiata 👇

Successivamente iniziamo a definire gli agenti... 3️⃣ Definisci l'Agente di Query Router L'Agente Router dirige le query degli utenti all'interno del nostro sistema, analizzandole per assegnarle a ciascun agente specialista appropriato. Dai un'occhiata a questo 👇

4️⃣ Definire l'Agente Specialista in Immagini L'Agente Specialista in Video utilizza il Server Video MCP per i suoi strumenti. Crea un indice, inserisce video, elabora sia i fotogrammi che l'audio e lo rende disponibile per RAG. Dai un'occhiata qui 👇

Allo stesso modo, possiamo definire gli altri specialisti: Agenti Specialisti di Immagine, Audio e Documento Viene utilizzato lo stesso codice, che è condiviso alla fine.

5️⃣ Definire l'Agente di Sintesi della Risposta L'Agente di Sintesi funge da ultimo strato di controllo qualità, affinando i risultati di recupero provenienti da agenti specializzati in risposte rifinite e user-friendly. Dai un'occhiata a questo 👇

6️⃣ Crea il Flusso Agentico di CrewAI Esploriamo come connettere i nostri gruppi di agenti e i server MCP di Pixeltable come strumenti all'interno del Flusso di CrewAI...👇

Ora ecco il video che ingesteremo e su cui faremo RAG. Puoi fare lo stesso per qualsiasi modalità, immagini, audio, ecc. Non sarebbero necessarie modifiche. Controlla il tweet successivo per la query e l'output ottenuto...👇

Fatto! Ora vediamo il nostro flusso di lavoro multi-modale e multi-agente alimentato da MCP in azione 🚀 Controlla questo 👇

Se l'hai trovato interessante, condividilo nuovamente con la tua rete. Trovami → @akshay_pachaar ✔️ Per ulteriori approfondimenti e tutorial su LLM, agenti di intelligenza artificiale e apprendimento automatico!

104,64K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari