Baru-baru ini, selama uji coba Particle News, @particle_news memikirkan kembali nilai dan batasan LLM dalam skenario aliran informasi transaksi. Particle adalah produk berita AI yang sangat canggih yang melakukan pekerjaan yang sangat baik dalam keluasan informasi & netralitas, serta keterbacaan dan pendengaran konten cair. Namun, ada perbedaan struktural antara pengalaman yang dipoles dengan presisi ini dan sistem informasi transaksional, dan dituliskan terlebih dahulu untuk melihat apakah itu dapat membantu rekan kerja yang juga melakukan produk serupa. 1. Informasi tidak ditangkap dan diintegrasikan, tetapi pemahaman berkelompok. Saya sangat setuju dengan konsep "cerita" yang berulang kali ditekankan oleh pendiri Sara Beykpour dalam wawancara, yang juga merupakan salah satu sorotan inti mereka, menekankan bahwa informasi tidak "diambil dan diintegrasikan" tetapi "dikelompokkan dan dipahami". Jika informasi hanya pengikisan dan penggabungan tanpa otak, maka semua pengurutan hilir dan penilaian kredibilitas akan kabur. Secara khusus, dalam skenario transaksional, di mana kepadatan informasi sangat tinggi, persyaratan real-time kuat, dan rentang konteksnya besar, tidak mungkin membiarkan model besar "memahami dengan bebas", tetapi pertama-tama harus melakukan putaran pengelompokan semantik terstruktur oleh AI untuk mengatur informasi yang terfragmentasi menjadi beberapa "kluster peristiwa" (cerita) yang ringkas dengan petunjuk kausal internal. 2. Kekuatan LLM dan Titik Buta: Netralitas, Kausalitas vs. Kekuatan Prediksi - LLM memiliki keunggulan yang signifikan dalam gaya, kontrol/opini, netralitas emosi dalam jumlah sedang. Namun, setelah polimerisasi + banyak pasca-eval, ketepatan waktu dan ketegangan struktural dikorbankan. - LLM pandai dalam penilaian rantai kausal, analisis sebab dan akibat, dan beberapa poin untuk menyempurnakan apakah ada korelasi antara hal-hal yang sangat bernuansa, terutama "jalur pengaruh" dan "reaksi hulu dan hilir", yang akan menjadi salah satu logika penting transaksi. - LLM tidak pandai memprediksi. Sebagai model bahasa statistik, secara alami memperkuat "opini arus utama" atau "sinyal frekuensi tinggi". Pengamatan kami sendiri adalah bahwa AI selalu "terlalu optimis," dan penilaian Sara adalah: "Jika banyak orang mengatakan Tim A akan menang, model akan berpikir Tim A menang." "Prediksi adalah titik buta besar untuk LLM dan tidak boleh digunakan sebagai mesin sinyal. Di sisi lain, masih harus dilihat apakah produk chatbot seperti prediksi Q&A + terbuka seperti Flush atau Rockflow dapat menembus batasan ini atau terjebak. 3. Strategi untuk prediksi alternatif: rantai kausal + garis waktu struktural Jika prediksi adalah kelemahan saat ini dalam LLM, akan berguna untuk menyimpan bagian seperti Kalender TradingView dan Sebab & Akibat ketika perkiraan tidak dibuat dan ketepatan waktu tinggi. Menyimpulkan apakah satu hal terkait dengan yang lain dan urutan relatif dan pemicu perkembangan peristiwa. Penilaian ini juga cukup untuk menetapkan model bias informasi untuk sistem perdagangan tanpa perkiraan nyata. 4. Pekerjaan evaluasi: Evaluasi jelas merupakan pekerjaan yang sangat halus dan terarah. Misalnya, pengekangan membatasi ekspresi: setiap kalimat hanya dapat memiliki satu sudut pandang, hindari klausa; Misalnya, "petunjuk" = "opini" untuk menghindari kesimpulan yang tidak jelas; Misalnya, ringkasan tidak boleh melebihi kata X, dan begitu ada warna subjektif atau "ekspresi yang disengaja", itu dianggap sebagai kesalahan. Tentu saja, tingkat "kritis" dari setiap konten unit juga diukur, agar pipeline berjalan secara otomatis dengan lebih baik. Seluruh alur tidak sinkron dan dapat diulang: selama pemeriksaan evaluasi gagal, tugas dimulai ulang secara otomatis. Oleh karena itu, model hanya perlu menyelesaikan tugas kecil pada satu waktu, seperti menentukan apakah suatu peristiwa telah terjadi atau mengeluarkan ringkasan non-implisit, daripada menyelesaikan semua inferensi dan ekspresi dalam satu putaran. Logika yang mendasari pendekatan ini adalah untuk memecah generasi menjadi beberapa tugas kecil yang dapat diverifikasi dan dapat digunakan kembali, yang masing-masing dapat diperiksa secara nyata untuk menghindari halusinasi dan kecenderungan semaksimal mungkin. 5. Lini produksi lengkap dari prototipe hingga konten AI berkualitas tinggi Sara membagikan proses lengkap melakukan sistem moderasi: pertama tulis prompt di lingkungan pengujian, atur lima pertanyaan, lalu jailbreak atau break struktur atau lupakan konteksnya, hingga model menunjukkan perilaku yang stabil dan berkualitas baik, prompt bisa ratusan baris. Ketika prompt awalnya stabil, prompt diserahkan ke tim teknis, templat prompt dibongkar menjadi komponen dan dimasukkan ke dalam alur asinkron, dan semua pertanyaan lainnya dijalankan untuk analisis offline. Terakhir, mulai tes pertanyaan langsung untuk menjalankan sistem dalam skenario nyata, lalu secara resmi bergabung dengan evaluasi. Singkatnya, jika Anda ingin membangun sistem agregasi & push informasi yang dibantu AI, jangan berfantasi tentang model besar yang secara langsung memberikan alfa; Semua prediksi yang menggunakan AI untuk memberi tahu Anda target mana yang harus dibeli adalah penipuan. Pengetahuan sebenarnya adalah struktur, proses, dan sistem verifikasi yang membuat LLM dapat diandalkan di bawah arsitektur.
3,39K