Mô hình · meng shao

Anthropic ra mắt Claude Opus 4.8: Nâng cấp mạnh mẽ khả năng lập trình và tác tử AI

Claude Opus 4.8 cải thiện vượt trội về tư duy logic, độ trung thực và khả năng xử lý tác vụ phức tạp, đặc biệt tối ưu cho lập trình và vận hành các tác tử AI tự động với quy trình làm việc linh hoạt h

Điểm 92Thời gian 08:09 · 29/05/2026

Tóm tắt

Vì sao đáng chú ý

Đây là bản cập nhật quan trọng từ một trong những mô hình hàng đầu thế giới, mang lại cải tiến thực tế cho giới lập trình và phát triển AI Agent.

Nội dung dịch chi tiết

Trong ngày công bố vòng gọi vốn Series H trị giá 65 tỷ USD, Anthropic đã chính thức ra mắt Claude Opus 4.8. Được phát triển dựa trên nền tảng Opus 4.7, mô hình mới tập trung nâng cao khả năng phán đoán, độ trung thực và thời gian làm việc độc lập, tối ưu hóa cho các công việc lập trình, tác tử thông minh và tri thức.

Về hiệu suất, Claude Opus 4.8 đạt các kết quả ấn tượng trong các bài kiểm tra chuyên môn: SWE-Bench Pro đạt 69,2%, GDPval-AA đạt 1890 và Terminal-Bench 2.1 đạt 74,6%. Những con số này khẳng định năng lực xử lý vượt trội trong các tác vụ kỹ thuật phức tạp.

Độ trung thực của mô hình đã được cải thiện gấp 4 lần, cho phép AI tự giám sát và báo cáo tiến độ công việc chính xác hơn. Khả năng cộng tác của các tác tử cũng được nâng cao, giúp việc đưa ra quyết định ổn định hơn và sử dụng công cụ tiết kiệm chi phí hơn.

Khả năng điều khiển máy tính và trình duyệt của mô hình cũng được củng cố, với điểm số OSWorld-Verified đạt 83,4% và Online-Mind2Web đạt 84%. Điều này giúp AI thực hiện các thao tác trên môi trường thực tế hiệu quả hơn.

Song song đó, Claude Code giới thiệu tính năng Dynamic Workflows (Quy trình làm việc động). Hệ thống này đã nâng cấp từ mô hình đơn tác tử lên quy trình đa bước, bao gồm lập kế hoạch, thực hiện song song và kiểm chứng kết quả.

Hiện tại, mô hình Claude Opus 4.8 đã bắt đầu được cung cấp dịch vụ tới người dùng với mức giá không đổi so với phiên bản trước.

Ý chính từ bài gốc

Claude Opus 4.8 cải thiện khả năng lập trình, độ trung thực và hiệu suất làm việc độc lập.
Đạt kết quả cao trong các bài kiểm tra chuyên môn như SWE-Bench Pro (69,2%) và Terminal-Bench 2.1 (74,6%).
Độ trung thực tăng gấp 4 lần, giúp AI tự giám sát và báo cáo tiến độ chính xác hơn.
Nâng cấp khả năng điều khiển máy tính và trình duyệt với điểm số OSWorld-Verified đạt 83,4%.
Claude Code ra mắt Dynamic Workflows, hỗ trợ quy trình làm việc đa bước gồm lập kế hoạch và kiểm chứng.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ X/Twitter. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan