热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我刚刚为多模态人工智能构建了终极MCP服务器。
它让你可以在音频、视频、图像和文本上进行RAG!
100%开源,这里是完整的细节...👇
在我们深入之前,这里有一个我们正在构建的快速演示!
技术栈:
- @pixeltablehq 用于构建多模态 AI 基础设施
- @crewAIInc 用于协调代理工作流程
快速查看一下线程,然后返回这里以获取详细概述。🚀
首先,什么是Pixeltable?
Pixeltable是一个用于多模态AI的首选Python库——简化了从数据存储到模型执行的整个流程。
轻松处理图像、视频、文本和音频。
我们的MCP服务器建立在Pixeltable之上。
系统概述:
- 用户提交查询
- 路由代理识别模式并触发专家
- 专家代理将相关上下文发送给响应生成器
- 用户收到连贯的响应
让我们深入代码吧!
1️⃣ Docker 设置
使用 Docker Compose 部署 Pixeltable MCP 服务器。
此设置启动 4 个 MCP 服务器(文档、音频、图像和视频),并使用服务器推送事件(SSE)传输。
查看这个 👇

2️⃣ 将MCP服务器连接到CrewAI
在我们的Pixeltable服务器准备好后,让我们将MCP服务器作为工具集成到CrewAI中!
这非常简单,看看这个 👇

接下来我们开始定义代理...
3️⃣ 定义路由查询代理
路由代理在我们的系统中引导用户查询,分析它们以将每个查询分配给适当的专业代理。
查看这个 👇

4️⃣ 定义图像专家代理
视频专家代理利用视频MCP服务器进行工具操作。
它创建索引,插入视频,处理帧和音频,并使其可用于RAG。
查看这个 👇

同样,我们可以定义其他专家:
图像、音频和文档专家代理
使用相同的代码,该代码在最后共享。
5️⃣ 定义响应合成代理
合成代理作为最终质量控制层,将来自专业代理的检索输出精炼成经过打磨的、用户友好的响应。
查看这个 👇

6️⃣ 创建 CrewAI 代理流
让我们探索如何将我们的代理团队和 Pixeltable MCP 服务器作为 CrewAI 流中的工具连接起来...👇

现在这是我们将要处理并进行RAG的视频。
您可以对任何形式进行相同的操作,包括图像、音频等。
不需要进行任何更改。
请查看下一条推文以获取查询和获得的输出...👇
完成!
现在让我们看看我们基于MCP的多模态、多代理工作流程的实际运作 🚀
查看这个 👇

如果您觉得这篇文章有启发性,请与您的网络分享。
找到我 → @akshay_pachaar ✔️
获取更多关于LLM、AI代理和机器学习的见解和教程!

7月23日 21:20
我刚刚为多模态人工智能构建了终极MCP服务器。
它让你可以在音频、视频、图像和文本上进行RAG!
100%开源,这里是完整的细节...👇
104.66K
热门
排行
收藏