
Sign up to save your podcasts
Or
Nghiên cứu sử dụng metric pass@k để đo lường ranh giới khả năng suy luận trên nhiều bài kiểm tra toán học, lập trình và suy luận hình ảnh. Kết quả cho thấy RLVR chủ yếu tăng cường hiệu quả lấy mẫu các con đường suy luận đúng đã tồn tại trong mô hình cơ sở, nhưng không tạo ra khả năng suy luận mới và thậm chí còn giảm phạm vi bao phủ các vấn đề có thể giải quyết ở các giá trị k lớn.
Nghiên cứu sử dụng metric pass@k để đo lường ranh giới khả năng suy luận trên nhiều bài kiểm tra toán học, lập trình và suy luận hình ảnh. Kết quả cho thấy RLVR chủ yếu tăng cường hiệu quả lấy mẫu các con đường suy luận đúng đã tồn tại trong mô hình cơ sở, nhưng không tạo ra khả năng suy luận mới và thậm chí còn giảm phạm vi bao phủ các vấn đề có thể giải quyết ở các giá trị k lớn.
5 Listeners
23 Listeners
122 Listeners
47 Listeners
0 Listeners