Bài viết giới thiệu DeepSeek-R1, một mô hình ngôn ngữ lớn thế hệ mới được phát triển thông qua học tăng cường (RL) để nâng cao khả năng suy luận. Mô hình đầu tiên, DeepSeek-R1-Zero, được huấn luyện chỉ bằng RL và cho thấy khả năng suy luận ấn tượng, nhưng gặp vấn đề về tính dễ đọc. DeepSeek-R1 giải quyết những vấn đề này bằng cách kết hợp huấn luyện đa giai đoạn và dữ liệu khởi tạo trước RL, đạt hiệu suất suy luận ngang ngửa với OpenAI-o1-1217 trên các điểm chuẩn. Ngoài ra, các nhà nghiên cứu đã công khai các mô hình nhỏ hơn được tinh chỉnh từ DeepSeek-R1, chứng minh hiệu quả của việc tinh chỉnh khả năng suy luận từ các mô hình lớn hơn.