Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acabo de construir el servidor MCP definitivo para IA Multimodal.
¡Te permite hacer RAG sobre audio, video, imágenes y texto!
100% de código abierto, aquí está el desglose completo...👇
¡Antes de sumergirnos, aquí hay una rápida demostración de lo que estamos construyendo!
Tecnología:
- @pixeltablehq para construir la infraestructura de IA multimodal
- @crewAIInc para orquestar el flujo de trabajo agente
Revisa rápidamente el hilo y luego regresa aquí para una visión detallada. 🚀
¿Qué es Pixeltable?
Pixeltable es una biblioteca de Python imprescindible para la IA multimodal: optimiza todo el proceso desde el almacenamiento de datos hasta la ejecución del modelo.
Maneja imágenes, videos, texto y audio sin esfuerzo.
Nuestros servidores MCP están construidos sobre Pixeltable.
Descripción general del sistema:
- El usuario envía una consulta
- El agente enrutador identifica la modalidad y activa a un especialista
- El agente especialista envía el contexto relevante al generador de respuestas
- El usuario recibe una respuesta coherente
¡Vamos a sumergirnos en el código!
1️⃣ Configuración de Docker
Despliega el servidor Pixeltable MCP utilizando Docker Compose.
Esta configuración inicia 4 servidores MCP (documento, audio, imagen y video) con transporte de Eventos Enviados por el Servidor (SSE).
Mira esto 👇

2️⃣ Conectar el servidor MCP a CrewAI
¡Con nuestros servidores Pixeltable preparados, integremos los servidores MCP como herramientas en CrewAI!
Es bastante fácil, ¡mira esto 👇

A continuación, comenzamos a definir los agentes...
3️⃣ Definir Agente de Consulta de Router
El Agente de Router dirige las consultas de los usuarios dentro de nuestro sistema, analizándolas para asignar cada una al agente especialista apropiado.
Mira esto 👇

4️⃣ Definir Agente Especialista en Imágenes
El Agente Especialista en Video utiliza el Servidor Video MCP para sus herramientas.
Crea un índice, inserta videos, procesa tanto los fotogramas como el audio y lo hace disponible para RAG.
Mira esto 👇

De manera similar, podemos definir a los otros especialistas:
Agentes Especialistas en Imágenes, Audio y Documentos
Se utiliza el mismo código, que se comparte al final.
5️⃣ Definir Agente de Síntesis de Respuestas
El Agente de Síntesis actúa como la capa final de control de calidad, refinando los resultados de recuperación de agentes especializados en respuestas pulidas y amigables para el usuario.
Mira esto 👇

6️⃣ Crear el flujo Agentic de CrewAI
Exploremos cómo conectar nuestras tripulaciones de agentes y los servidores MCP de Pixeltable como herramientas dentro del flujo de CrewAI...👇

Ahora aquí está el video que vamos a ingerir y hacer RAG sobre él.
Puedes hacer lo mismo para cualquier modalidad, imágenes, audio, etc.
No se requerirían cambios.
Consulta el siguiente tweet para la consulta y la salida obtenida...👇
¡Hecho!
Ahora veamos nuestro flujo de trabajo multi-agente, multi-modal y potenciado por MCP en acción 🚀
Mira esto 👇

Si te ha resultado interesante, vuelve a compartirlo con tu red.
Encuéntrame → @akshay_pachaar ✔️
Para obtener más información y tutoriales sobre LLM, agentes de IA y aprendizaje automático.

23 jul, 21:20
Acabo de construir el servidor MCP definitivo para IA Multimodal.
¡Te permite hacer RAG sobre audio, video, imágenes y texto!
100% de código abierto, aquí está el desglose completo...👇
104,63K
Parte superior
Clasificación
Favoritos