Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Acabei de construir o servidor MCP definitivo para IA multimodal.
Ele permite que você faça RAG em áudio, vídeo, imagens e texto!
100% de código aberto, aqui está o detalhamento completo ... 👇
Antes de nos aprofundarmos, aqui está uma demonstração rápida do que estamos construindo!
Pilha de tecnologia:
- @pixeltablehq construir a infraestrutura de IA multimodal
- @crewAIInc para orquestrar o fluxo de trabalho agêntico
Verifique rapidamente o tópico e retorne aqui para obter uma visão geral detalhada. 🚀
Em primeiro lugar, o que é Pixeltable?
Pixeltable é uma biblioteca Python para IA multimodal, simplificando todo o pipeline, desde o armazenamento de dados até a execução do modelo.
Lida com imagens, vídeos, texto e áudio sem esforço.
Nossos servidores MCP são construídos sobre o Pixeltable.
Visão geral do sistema:
- O usuário envia uma consulta
- O agente do roteador identifica a modalidade e aciona um especialista
- O agente especialista envia contexto relevante para o gerador de resposta
- O usuário recebe uma resposta coerente
Vamos mergulhar no código!
1️⃣ Configuração do Docker
Implante o servidor Pixeltable MCP usando o Docker Compose.
Essa configuração inicia 4 servidores MCP (documento, áudio, imagem e vídeo) com transporte de eventos enviados pelo servidor (SSE).
Confira isso 👇

2️⃣ Conecte o servidor MCP ao CrewAI
Com nossos servidores Pixeltable preparados, vamos integrar os servidores MCP como ferramentas no CrewAI!
É bastante fácil, veja isso 👇

Em seguida, começamos a definir os agentes...
3️⃣ Definir o Agente de Consulta do Roteador
O Router Agent direciona as consultas do usuário em nosso sistema, analisando-as para atribuir cada uma delas ao agente especializado apropriado.
Confira isso 👇

4️⃣ Definir Agente Especialista em Imagem
O Video Specialist Agent utiliza o Video MCP Server para suas ferramentas.
Ele cria um índice, insere vídeos, processa quadros e áudio e o disponibiliza para RAG.
Confira isso 👇

Da mesma forma, podemos definir os outros especialistas:
Agentes especializados em imagem, áudio e documentos
O mesmo código é usado, que é compartilhado no final.
5️⃣ Definir Agente de Síntese de Resposta
O Synthesis Agent serve como camada final de controle de qualidade, refinando as saídas de recuperação de agentes especializados em respostas polidas e fáceis de usar.
Confira isso 👇

6️⃣ Criar fluxo agêntico CrewAI
Vamos explorar como conectar nossas equipes de agentes e servidores Pixeltable MCP como ferramentas no CrewAI Flow... 👇

Agora, aqui está o vídeo que vamos ingerir e fazer RAG.
Você pode fazer o mesmo para qualquer modalidade, imagens, áudio, etc.
Nenhuma alteração seria necessária.
Verifique o próximo tweet para a consulta e a saída obtida... 👇
Terminado!
Agora vamos ver nosso fluxo de trabalho multimodal, multiagente e baseado em MCP em ação 🚀
Verifique isso 👇

Se você achou perspicaz, compartilhe novamente com sua rede.
Encontre-me → @akshay_pachaar ✔️
Para obter mais insights e tutoriais sobre LLMs, agentes de IA e aprendizado de máquina!

23 de jul., 21:20
Acabei de construir o servidor MCP definitivo para IA multimodal.
Ele permite que você faça RAG em áudio, vídeo, imagens e texto!
100% de código aberto, aqui está o detalhamento completo ... 👇
104,63K
Melhores
Classificação
Favoritos