Я только что создал идеальный сервер MCP для многомодального ИИ. Он позволяет вам выполнять RAG по аудио, видео, изображениям и тексту! 100% с открытым исходным кодом, вот полное описание...👇
Прежде чем мы начнем, вот краткая демонстрация того, что мы строим! Технологический стек: - @pixeltablehq для создания многомодальной ИИ-инфраструктуры - @crewAIInc для оркестрации агентного рабочего процесса Быстро проверьте тему, а затем вернитесь сюда для подробного обзора. 🚀
Прежде всего, что такое Pixeltable? Pixeltable — это удобная библиотека Python для многомодального ИИ, упрощающая весь процесс от хранения данных до выполнения модели. Легко обрабатывает изображения, видео, текст и аудио. Наши серверы MCP построены на основе Pixeltable.
Обзор системы: - Пользователь отправляет запрос - Агент маршрутизатора определяет модальность и запускает специалиста - Агент специалиста отправляет соответствующий контекст генератору ответов - Пользователь получает связный ответ Давайте погрузимся в код!
1️⃣ Настройка Docker Разверните сервер Pixeltable MCP с помощью Docker Compose. Эта настройка запускает 4 сервера MCP (документ, аудио, изображение и видео) с транспортом Server-Sent Events (SSE). Посмотрите это 👇
2️⃣ Подключите сервер MCP к CrewAI С нашими серверами Pixeltable готовыми, давайте интегрируем серверы MCP как инструменты в CrewAI! Это довольно просто, посмотрите 👇
Далее мы начинаем определять агентов... 3️⃣ Определить Агент Запросов Роутера Агент Роутера направляет запросы пользователей внутри нашей системы, анализируя их, чтобы назначить каждый запрос соответствующему специализированному агенту. Посмотрите это 👇
4️⃣ Определите агента-специалиста по изображениям Агент-специалист по видео использует сервер Video MCP для своих инструментов. Он создает индекс, вставляет видео, обрабатывает как кадры, так и аудио и делает это доступным для RAG. Посмотрите это 👇
Аналогично, мы можем определить других специалистов: Специалисты-агенты по изображениям, аудио и документам Используется тот же код, который будет представлен в конце.
5️⃣ Определите Агент Синтеза Ответов Агент Синтеза служит последним уровнем контроля качества, улучшая результаты поиска от специализированных агентов в отшлифованные, удобные для пользователя ответы. Посмотрите это 👇
6️⃣ Создайте агентный поток CrewAI Давайте исследуем, как соединить наши группы агентов и серверы Pixeltable MCP в качестве инструментов внутри CrewAI Flow...👇
Теперь вот видео, которое мы будем обрабатывать и делать RAG. Вы можете сделать то же самое для любой модальности, изображений, аудио и т.д. Изменения не потребуются. Проверьте следующий твит для запроса и полученного результата...👇
Готово! Теперь давайте посмотрим, как работает наш многомодальный, многопользовательский рабочий процесс на базе MCP 🚀 Проверьте это 👇
Если вы нашли это полезным, поделитесь с вашей сетью. Найдите меня → @akshay_pachaar ✔️ Для получения дополнительных сведений и учебных материалов по LLM, AI-агентам и машинному обучению!
Akshay 🚀
Akshay 🚀23 июл., 21:20
Я только что создал идеальный сервер MCP для многомодального ИИ. Он позволяет вам выполнять RAG по аудио, видео, изображениям и тексту! 100% с открытым исходным кодом, вот полное описание...👇
104,63K