Nghiên cứu · Chubby♨️

Anthropic Opus 4.8 cải thiện hiệu suất trên DeepSWE, nhưng vẫn xếp sau GPT-5.5

Opus 4.8 ghi nhận mức tăng 6% hiệu suất trên DeepSWE với chi phí tối ưu hơn, tuy nhiên GPT-5.5 vẫn duy trì vị thế dẫn đầu về cả năng lực lẫn chi phí trong cuộc đua giữa hai ông lớn AI.

Điểm 59Thời gian 09:17 · 31/05/2026

Tóm tắt

Vì sao đáng chú ý

Cập nhật kịp thời về cuộc đua hiệu năng giữa các mô hình AI hàng đầu, cung cấp cái nhìn thực tế về sự cạnh tranh gay gắt giữa Anthropic và OpenAI.

Nội dung dịch chi tiết

Anthropic đã chính thức giới thiệu Opus 4.8, mang lại những cải tiến đáng kể trong bài kiểm tra chuẩn DeepSWE so với phiên bản Opus 4.7. Đáng chú ý, mô hình mới không chỉ tăng hiệu suất mà còn giúp giảm chi phí trung bình cho mỗi tác vụ.

Trong thiết lập nỗ lực tư duy cao mặc định (xhigh), Opus 4.8 đạt điểm số cao hơn 6% so với Opus 4.7 xhigh. Đây là một bước tiến rõ rệt cho dòng mô hình của Anthropic.

Tuy nhiên, GPT-5.5 xhigh vẫn giữ vững vị thế dẫn đầu trong bài kiểm tra này với khoảng cách đáng kể. Không chỉ vượt trội về điểm số, GPT-5.5 còn cho thấy lợi thế về chi phí vận hành thấp hơn so với đối thủ.

Tác giả bài viết bày tỏ sự ấn tượng trước các bản phát hành gần đây của OpenAI và đang kỳ vọng vào sự xuất hiện của GPT-5.6. Đồng thời, tác giả cũng ghi nhận những nỗ lực của Anthropic với Opus 4.8.

Nhìn chung, thị trường AI hiện nay đang chứng kiến cuộc đua gay cấn giữa hai phòng thí nghiệm hàng đầu, nơi cả hai liên tục tung ra những mô hình thực sự ấn tượng.

Ý chính từ bài gốc

Opus 4.8 cải thiện 6% điểm số trên DeepSWE so với Opus 4.7 ở thiết lập xhigh.
Opus 4.8 tối ưu hóa chi phí trung bình cho mỗi tác vụ so với phiên bản cũ.
GPT-5.5 xhigh vẫn dẫn đầu bài kiểm tra với điểm số cao và chi phí thấp hơn.
Tác giả kỳ vọng vào GPT-5.6 và ghi nhận sự tiến bộ của Anthropic với Opus 4.8.
Thị trường đang chứng kiến sự cạnh tranh mạnh mẽ giữa hai phòng thí nghiệm AI hàng đầu.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ X/Twitter. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan