Nghiên cứu · X：karminski (@karminski3)

Karminski công bố bài kiểm tra năng lực kỹ thuật phức tạp cho AI: Kimi-K2.7-Code đạt 93% độ hoàn thiện

Karminski thiết lập chuẩn đo lường mới cho AI qua việc yêu cầu mô hình chỉnh sửa dự án SillyTavern. Kimi-K2.7-Code dẫn đầu với 93% độ hoàn thiện, cho thấy bước ngoặt về năng suất của các mô hình lập t

Điểm 67Thời gian 16:15

Tóm tắt

Vì sao đáng chú ý

Bài kiểm tra thực tế, có số liệu so sánh cụ thể giữa các mô hình hàng đầu, phản ánh đúng năng lực thực chiến của AI trong phát triển phần mềm.

Nội dung dịch chi tiết

Karminski vừa công bố bài kiểm tra năng lực kỹ thuật phức tạp đầu tiên dành cho các mô hình ngôn ngữ lớn. Trong thử nghiệm này, các mô hình được cung cấp tài liệu yêu cầu dài 21.000 token và phải sử dụng Coding Agent để sửa đổi dự án SillyTavern, cụ thể là bổ sung hệ thống chỉ số động.

Kết quả cho thấy Kimi-K2.7-Code đạt độ hoàn thiện 93%, con số này rất gần với mức 97,7% khi thực hiện thủ công (vibe coding). Trong khi đó, Kimi-K2.6 chỉ đạt 74,4% và DeepSeek-V4-Pro dừng lại ở mức 68,6%.

Sự vượt trội của K2.7 nằm ở khả năng chú ý toàn cục mạnh mẽ hơn và năng lực Agent hoàn thiện hơn, giúp giảm thiểu tình trạng bỏ sót yêu cầu. Ngược lại, K2.6 gặp vấn đề do lệch kế hoạch (Plan), còn DeepSeek do không sử dụng Plan Agent nên dẫn đến nhiều thiếu sót.

Thử nghiệm cũng chỉ ra vấn đề "tầm nhìn hình ống" (tunnel vision) của các mô hình: chúng thường chỉ tập trung vào các tác vụ dễ kiểm chứng mà bỏ qua những phần đòi hỏi suy luận phức tạp như giao diện web hay tiêm câu lệnh (prompt injection).

Việc Kimi-K2.7-Code cải thiện 20 điểm so với các phiên bản trước được đánh giá là bước ngoặt về năng suất cho các mô hình lập trình nội địa.

Ý chính từ bài gốc

Karminski thiết kế bài kiểm tra năng lực kỹ thuật phức tạp đầu tiên cho LLM với yêu cầu sửa đổi dự án SillyTavern.
Kimi-K2.7-Code đạt độ hoàn thiện 93%, tiệm cận mức 97,7% của con người.
Kimi-K2.6 đạt 74,4% và DeepSeek-V4-Pro đạt 68,6% trong cùng bài kiểm tra.
K2.7 vượt trội nhờ khả năng chú ý toàn cục và năng lực Agent tốt hơn.
Các mô hình hiện nay vẫn gặp vấn đề "tầm nhìn hình ống", bỏ qua các tác vụ đòi hỏi suy luận phức tạp.
Mức tăng 20 điểm của K2.7 được coi là bước ngoặt năng suất cho mô hình lập trình nội địa.

Mở bài gốc