Trong bối cảnh công nghệ AI ngày càng phát triển mạnh mẽ, DeepSeek đã chính thức công bố phiên bản nâng cấp đầu tiên cho mô hình R1 của mình sau 5 tháng ra mắt. Phiên bản mới này không chỉ cải thiện khả năng suy luận mà còn giảm thiểu hiện tượng “ảo giác” trong quá trình xử lý thông tin, đồng thời cho phép chạy trên một GPU duy nhất, mở ra nhiều cơ hội cho người dùng.
Đánh giá về phiên bản R1-0528
DeepSeek đã thông qua nền tảng dành cho nhà phát triển Hugging Face để giới thiệu phiên bản R1-0528. Mặc dù được mô tả là một “nâng cấp nhỏ”, nhưng phiên bản này mang lại những cải tiến đáng kể trong khả năng suy luận và xử lý các tác vụ phức tạp. Theo thông tin từ công ty, hiệu suất của mô hình mới chỉ kém hơn một chút so với các mô hình hàng đầu như o3 của OpenAI và Gemini 2.5 Pro của Google.
Hình ảnh logo của ứng dụng DeepSeek trên một màn hình điện thoại tại Krakow, Ba Lan, ngày 17/2. Ảnh: Reuters
Những cải tiến nổi bật của R1-0528
Khác với phiên bản R1 ra mắt vào tháng 1, DeepSeek không cung cấp nhiều chi tiết về các tính năng mới của R1-0528. Tuy nhiên, công ty đã công bố rằng tỷ lệ “ảo giác” trong đầu ra của mô hình đã giảm khoảng 45-50% trong các tình huống như viết lại và tóm tắt. Điều này cho phép mô hình có khả năng sáng tạo trong việc viết bài luận, tiểu thuyết và nhiều thể loại khác, đồng thời cải thiện khả năng lập trình và nhập vai dưới dạng tác nhân AI.
Với kích thước 685 tỷ tham số, R1-0528 là một mô hình khá “nặng”. Mô hình này được cấp phép theo giấy phép MIT, cho phép sử dụng cho mục đích thương mại. Tuy nhiên, kho lưu trữ trên Hugging Face không cung cấp mô tả chi tiết về mô hình, mà chỉ có các tệp cấu hình và trọng số cùng một số hướng dẫn sử dụng.
Đánh giá từ các chuyên gia
Adina Yakefu, một nhà nghiên cứu AI tại Hugging Face, đã có những nhận xét tích cực về bản nâng cấp này. Bà cho biết mô hình mới có khả năng lý luận sắc nét hơn, mạnh mẽ hơn trong các bài toán toán học và lập trình, gần đạt đến trình độ của các mô hình hàng đầu hiện nay.
Biến thể mới DeepSeek-R1-0528-Qwen3-8B
Để mở rộng khả năng của mô hình, DeepSeek đã phát triển một biến thể “được tinh chế” mang tên DeepSeek-R1-0528-Qwen3-8B. Biến thể này được xây dựng dựa trên mô hình Qwen3-8B với 8 tỷ tham số của Alibaba, cho thấy hiệu suất cao hơn Qwen-3 ban đầu hơn 10%. Việc tinh chỉnh này giúp mô hình mới mạnh mẽ hơn và tiết kiệm tài nguyên hơn, chỉ cần một GPU với RAM từ 40-80 GB để hoạt động, trong khi phiên bản R1-0528 tiêu chuẩn cần đến 16 GPU A100 80 GB.
Thành công trong các bài kiểm tra
DeepSeek cho biết mô hình nhỏ gọn này đã vượt qua Gemini 2.5 Flash của Google trong các bài kiểm tra AIME 2025, cũng như đạt sức mạnh tương đương với mô hình lý luận Phi 4 của Microsoft trong các bài kiểm tra kỹ năng toán học HMMT. Điều này cho thấy khả năng cạnh tranh mạnh mẽ của DeepSeek trong lĩnh vực AI.
Triển vọng tương lai
Trên nền tảng Hugging Face, DeepSeek đã mô tả DeepSeek-R1-0528-Qwen3-8B là một mô hình phù hợp cho nghiên cứu học thuật, lý luận và phát triển công nghiệp quy mô nhỏ. Mô hình này cũng được cấp phép MIT, cho phép sử dụng rộng rãi. Sau thông báo về bản cập nhật R1, cổ phiếu của nhiều công ty AI đã ghi nhận sự giảm sút từ 5-15%.
DeepSeek đã thu hút sự chú ý từ cuối năm ngoái với sự ra mắt của mô hình V3 và R1, được đánh giá có sức mạnh tương đương với các sản phẩm hàng đầu từ các công ty lớn như OpenAI và Google, mặc dù sử dụng ít GPU hơn trong quá trình đào tạo. Để đối phó với sự cạnh tranh từ DeepSeek, nhiều công ty đã điều chỉnh chiến lược của mình, như Google đã giới thiệu các gói dịch vụ Gemini với giá cả hợp lý hơn.
Trong khi đó, DeepSeek cũng đang chuẩn bị cho sự ra mắt của mô hình R2, dự kiến sẽ kế nhiệm R1 vào tháng 5, nhưng đến nay vẫn chưa có thông tin cụ thể.
Bảo Lâm (theo Reuters, CNBC, TechCrunch)
- Jensen Huang: ‘DeepSeek R1 là món quà cho ngành AI’
- DeepSeek vượt ChatGPT về lượt truy cập mới hàng tháng
- DeepSeek đang len lỏi trong đời sống thế nào
- Tham vọng đưa AI vào cuộc sống của Trung Quốc
- Ứng dụng DeepSeek bị ‘hạ bệ’ trên App Store Trung Quốc
- Phong cách DeepSeek ‘tương đồng đáng kinh ngạc’ với ChatGPT