Saya baru saja membangun server MCP terbaik untuk Multimodal AI. Ini memungkinkan Anda melakukan RAG melalui audio, video, gambar, dan teks! 100% open-source, berikut rincian lengkapnya... 👇
Sebelum kita menyelam, berikut adalah demo singkat tentang apa yang sedang kita bangun! Tumpukan teknologi: - @pixeltablehq membangun infrastruktur AI multi-moda - @crewAIInc untuk mengatur alur kerja agen Periksa utas dengan cepat, lalu kembali ke sini untuk ikhtisar terperinci. 🚀
Pertama-tama, apa itu Pixeltable? Pixeltable adalah pustaka Python masuk untuk AI Multimodal—merampingkan seluruh alur mulai dari penyimpanan data hingga eksekusi model. Menangani gambar, video, teks & audio dengan mudah. Server MCP kami dibangun di atas Pixeltable.
Ikhtisar sistem: - Pengguna mengirimkan kueri - Agen router mengidentifikasi modalitas dan memicu spesialis - Agen spesialis mengirimkan konteks yang relevan ke generator respons - Pengguna menerima respons yang koheren Mari selami kodenya!
1️⃣ Pengaturan Docker Sebarkan server MCP Pixeltable menggunakan Docker Compose. Pengaturan ini memulai 4 server MCP (dokumen, audio, gambar, & video) dengan transportasi Server-Sent Events (SSE). Lihat 👇 ini
2️⃣ Hubungkan server MCP ke CrewAI Dengan server Pixeltable kami yang disiapkan, mari integrasikan server MCP sebagai alat di CrewAI! Cukup mudah, lihat ini 👇
Selanjutnya kita mulai mendefinisikan agen... 3️⃣ Tentukan Agen Kueri Router Agen Router mengarahkan kueri pengguna dalam sistem kami, menganalisisnya untuk menetapkan masing-masing ke agen spesialis yang sesuai. Lihat 👇 ini
4️⃣ Tentukan Agen Spesialis Gambar Video Specialist Agent menggunakan Video MCP Server untuk alatnya. Ini membuat indeks, menyisipkan video, memproses bingkai dan audio dan membuatnya tersedia untuk RAG. Lihat 👇 ini
Demikian pula, kita dapat mendefinisikan spesialis lainnya: Agen Spesialis Gambar, Audio, dan Dokumen Kode yang sama digunakan, yang dibagikan di bagian akhir.
5️⃣ Tentukan Agen Sintesis Respons Agen Sintesis berfungsi sebagai lapisan kontrol kualitas akhir, menyempurnakan hasil pengambilan dari agen khusus menjadi respons yang dipoles dan ramah pengguna. Lihat 👇 ini
6️⃣ Buat Aliran Agen CrewAI Mari jelajahi cara menghubungkan kru agen dan server MCP Pixeltable kami sebagai alat dalam CrewAI Flow... 👇
Sekarang inilah video yang akan kita cerna dan lakukan RAG. Anda dapat melakukan hal yang sama untuk modalitas apa pun, gambar, audio, dll. Tidak ada perubahan yang diperlukan. Periksa tweet berikutnya untuk kueri dan output yang diperoleh... 👇
Selesai! Sekarang mari kita lihat alur kerja multi-agen, multi-moda multi-agen kami yang 🚀 didukung MCP Periksa ini 👇
Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda. Temukan saya → @akshay_pachaar ✔️ Untuk wawasan dan tutorial lebih lanjut tentang LLM, Agen AI, dan Pembelajaran Mesin!
Akshay 🚀
Akshay 🚀23 Jul, 21.20
Saya baru saja membangun server MCP terbaik untuk Multimodal AI. Ini memungkinkan Anda melakukan RAG melalui audio, video, gambar, dan teks! 100% open-source, berikut rincian lengkapnya... 👇
104,65K