David Silver, người đứng đầu RL tại DeepMind, đã nói trong một podcast vài tháng trước rằng DeepMind đã xây dựng một hệ thống meta-RL tự học thuật toán RL của riêng nó và đánh bại tất cả các thuật toán do con người thiết kế.
9K