Nghiên cứu mới từ Databricks. Nó liên quan đến việc đào tạo các tác nhân tìm kiếm doanh nghiệp thông qua RL. KARL giới thiệu một phương pháp RL đa nhiệm, nơi các tác nhân được đào tạo qua các hành vi tìm kiếm không đồng nhất, tìm kiếm thực thể theo ràng buộc, tổng hợp tài liệu chéo và lý luận bảng. Nó tổng quát tốt hơn nhiều so với những mô hình được tối ưu hóa cho bất kỳ tiêu chuẩn đơn lẻ nào. KARL là tối ưu Pareto về cả chi phí-chất lượng và độ trễ-chất lượng so với Claude 4.6 và GPT 5.2. Với đủ tài nguyên tính toán trong thời gian kiểm tra, nó vượt qua các mô hình đóng mạnh nhất trong khi vẫn tiết kiệm chi phí hơn. Bài báo: Học cách xây dựng các tác nhân AI hiệu quả trong học viện của chúng tôi: