Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я только что создал идеальный сервер MCP для многомодального ИИ.
Он позволяет вам выполнять RAG по аудио, видео, изображениям и тексту!
100% с открытым исходным кодом, вот полное описание...👇
Прежде чем мы начнем, вот краткая демонстрация того, что мы строим!
Технологический стек:
- @pixeltablehq для создания многомодальной ИИ-инфраструктуры
- @crewAIInc для оркестрации агентного рабочего процесса
Быстро проверьте тему, а затем вернитесь сюда для подробного обзора. 🚀
Прежде всего, что такое Pixeltable?
Pixeltable — это удобная библиотека Python для многомодального ИИ, упрощающая весь процесс от хранения данных до выполнения модели.
Легко обрабатывает изображения, видео, текст и аудио.
Наши серверы MCP построены на основе Pixeltable.
Обзор системы:
- Пользователь отправляет запрос
- Агент маршрутизатора определяет модальность и запускает специалиста
- Агент специалиста отправляет соответствующий контекст генератору ответов
- Пользователь получает связный ответ
Давайте погрузимся в код!
1️⃣ Настройка Docker
Разверните сервер Pixeltable MCP с помощью Docker Compose.
Эта настройка запускает 4 сервера MCP (документ, аудио, изображение и видео) с транспортом Server-Sent Events (SSE).
Посмотрите это 👇

2️⃣ Подключите сервер MCP к CrewAI
С нашими серверами Pixeltable готовыми, давайте интегрируем серверы MCP как инструменты в CrewAI!
Это довольно просто, посмотрите 👇

Далее мы начинаем определять агентов...
3️⃣ Определить Агент Запросов Роутера
Агент Роутера направляет запросы пользователей внутри нашей системы, анализируя их, чтобы назначить каждый запрос соответствующему специализированному агенту.
Посмотрите это 👇

4️⃣ Определите агента-специалиста по изображениям
Агент-специалист по видео использует сервер Video MCP для своих инструментов.
Он создает индекс, вставляет видео, обрабатывает как кадры, так и аудио и делает это доступным для RAG.
Посмотрите это 👇

Аналогично, мы можем определить других специалистов:
Специалисты-агенты по изображениям, аудио и документам
Используется тот же код, который будет представлен в конце.
5️⃣ Определите Агент Синтеза Ответов
Агент Синтеза служит последним уровнем контроля качества, улучшая результаты поиска от специализированных агентов в отшлифованные, удобные для пользователя ответы.
Посмотрите это 👇

6️⃣ Создайте агентный поток CrewAI
Давайте исследуем, как соединить наши группы агентов и серверы Pixeltable MCP в качестве инструментов внутри CrewAI Flow...👇

Теперь вот видео, которое мы будем обрабатывать и делать RAG.
Вы можете сделать то же самое для любой модальности, изображений, аудио и т.д.
Изменения не потребуются.
Проверьте следующий твит для запроса и полученного результата...👇
Готово!
Теперь давайте посмотрим, как работает наш многомодальный, многопользовательский рабочий процесс на базе MCP 🚀
Проверьте это 👇

Если вы нашли это полезным, поделитесь с вашей сетью.
Найдите меня → @akshay_pachaar ✔️
Для получения дополнительных сведений и учебных материалов по LLM, AI-агентам и машинному обучению!

23 июл., 21:20
Я только что создал идеальный сервер MCP для многомодального ИИ.
Он позволяет вам выполнять RAG по аудио, видео, изображениям и тексту!
100% с открытым исходным кодом, вот полное описание...👇
104,63K
Топ
Рейтинг
Избранное