我刚刚为多模态人工智能构建了终极MCP服务器。 它让你可以在音频、视频、图像和文本上进行RAG! 100%开源,这里是完整的细节...👇
在我们深入之前,这里有一个我们正在构建的快速演示! 技术栈: - @pixeltablehq 用于构建多模态 AI 基础设施 - @crewAIInc 用于协调代理工作流程 快速查看一下线程,然后返回这里以获取详细概述。🚀
首先,什么是Pixeltable? Pixeltable是一个用于多模态AI的首选Python库——简化了从数据存储到模型执行的整个流程。 轻松处理图像、视频、文本和音频。 我们的MCP服务器建立在Pixeltable之上。
系统概述: - 用户提交查询 - 路由代理识别模式并触发专家 - 专家代理将相关上下文发送给响应生成器 - 用户收到连贯的响应 让我们深入代码吧!
1️⃣ Docker 设置 使用 Docker Compose 部署 Pixeltable MCP 服务器。 此设置启动 4 个 MCP 服务器(文档、音频、图像和视频),并使用服务器推送事件(SSE)传输。 查看这个 👇
2️⃣ 将MCP服务器连接到CrewAI 在我们的Pixeltable服务器准备好后,让我们将MCP服务器作为工具集成到CrewAI中! 这非常简单,看看这个 👇
接下来我们开始定义代理... 3️⃣ 定义路由查询代理 路由代理在我们的系统中引导用户查询,分析它们以将每个查询分配给适当的专业代理。 查看这个 👇
4️⃣ 定义图像专家代理 视频专家代理利用视频MCP服务器进行工具操作。 它创建索引,插入视频,处理帧和音频,并使其可用于RAG。 查看这个 👇
同样,我们可以定义其他专家: 图像、音频和文档专家代理 使用相同的代码,该代码在最后共享。
5️⃣ 定义响应合成代理 合成代理作为最终质量控制层,将来自专业代理的检索输出精炼成经过打磨的、用户友好的响应。 查看这个 👇
6️⃣ 创建 CrewAI 代理流 让我们探索如何将我们的代理团队和 Pixeltable MCP 服务器作为 CrewAI 流中的工具连接起来...👇
现在这是我们将要处理并进行RAG的视频。 您可以对任何形式进行相同的操作,包括图像、音频等。 不需要进行任何更改。 请查看下一条推文以获取查询和获得的输出...👇
完成! 现在让我们看看我们基于MCP的多模态、多代理工作流程的实际运作 🚀 查看这个 👇
如果您觉得这篇文章有启发性,请与您的网络分享。 找到我 → @akshay_pachaar ✔️ 获取更多关于LLM、AI代理和机器学习的见解和教程!
Akshay 🚀
Akshay 🚀7月23日 21:20
我刚刚为多模态人工智能构建了终极MCP服务器。 它让你可以在音频、视频、图像和文本上进行RAG! 100%开源,这里是完整的细节...👇
104.66K