← Quay lại dòng tin

Tin ngành · IT Home

Đại học Fudan: Sinh viên ra đề 'hóc búa' khiến loạt mô hình AI nhận điểm 0

Trong kỳ thi cuối kỳ môn Khai thác dữ liệu, sinh viên Đại học Fudan đã thiết kế các bài toán khó khiến 50/51 mô hình AI mắc lỗi, thậm chí 4 sinh viên đã khiến AI đạt điểm 0 tuyệt đối, cho thấy cách ti

Điểm 56Thời gian

Lý do đề xuất

Tin tức mang tính thời sự cao về giáo dục trong kỷ nguyên AI, cách tiếp cận thực tế giúp sinh viên hiểu sâu về lỗ hổng của mô hình ngôn ngữ lớn.

Tóm tắt

Trong kỳ thi cuối kỳ môn Khai thác dữ liệu, sinh viên Đại học Fudan đã thiết kế các bài toán khó khiến 50/51 mô hình AI mắc lỗi, thậm chí 4 sinh viên đã khiến AI đạt điểm 0 tuyệt đối, cho thấy cách tiếp cận mới trong giáo dục thời đại AI.

Bản dịch AI

Theo tin từ Đại học Fudan ngày 5 tháng 7, khóa học "Kỹ thuật khai thác dữ liệu" tại trường vừa kết thúc một kỳ thi cuối kỳ đặc biệt. Trong kỳ thi này, sinh viên không những không ngồi trong phòng thi để làm bài mà tất cả đều trở thành người ra đề.

IT之家 được biết, sinh viên cần sử dụng 10 câu hỏi do chính mình thiết kế để "đánh đố" ba mô hình AI. AI trả lời sai càng nhiều và mô hình bị đánh đố càng mạnh thì điểm số của sinh viên ra đề càng cao.

Giáo sư Xiao Yanghua thuộc Học viện Đổi mới Tính toán và Trí tuệ của Đại học Fudan cho biết, phương thức ra đề kiểm tra truyền thống đã không còn hiệu quả trong kỷ nguyên AI.

Khi giáo viên đưa ra một bài toán thuật toán tiêu chuẩn, AI tính toán nhanh và chính xác hơn bất kỳ sinh viên nào. Tiếp tục kiểm tra theo cách này chẳng khác nào lấy sở đoản của con người để so tài với sở trường của AI, điều đó hoàn toàn vô nghĩa.

Vì vậy, bài tập cuối kỳ của môn "Kỹ thuật khai thác dữ liệu" đã được thay đổi: mỗi người phải tự ra 10 câu hỏi tính toán trong lĩnh vực khai thác dữ liệu, yêu cầu phải có đáp án đúng duy nhất và quy trình suy luận tính toán hoàn chỉnh. Sau đó, sinh viên dùng 10 câu hỏi này để kiểm tra ba mô hình AI ở các cấp độ khác nhau. AI trả lời sai càng nhiều, sinh viên càng được điểm cao.

Trong 51 bài thi cuối kỳ, có 50 sinh viên khiến ít nhất một mô hình AI trả lời sai một câu, chỉ có 1 người không thể làm khó được bất kỳ mô hình nào. Tuy nhiên, chỉ có 4 người có thể khiến bất kỳ mô hình nào đạt 0 điểm trên toàn bộ bài thi, và trong ba mô hình tham gia kiểm tra, mô hình Claude mạnh nhất không bị bất kỳ sinh viên nào đánh bại hoàn toàn. Điểm trung bình của cả lớp là 85,7 điểm, trung vị là 88 điểm. Đây là bảng thành tích của kỳ thi cuối kỳ "người kiểm tra AI" này.

Theo giới thiệu, ba mô hình tương ứng với ba cấp độ khó: DeepSeek V4-Flash trả lời sai một câu được cộng 1,5 điểm, MiniMax M2.7 trả lời sai một câu được cộng 2 điểm, Claude Sonnet 4.6 trả lời sai một câu được cộng 3 điểm. Tổng điểm = 60 điểm cơ bản + điểm khó của AI, tối đa là 100 điểm. "Chỉ cần nghiêm túc hoàn thành 10 câu hỏi hợp lệ là đã có 60 điểm cơ bản, việc làm khó được AI là phần cộng điểm."

Xiao Yanghua cho biết: "Ý tưởng cốt lõi của thiết kế này là tôi muốn sinh viên tin rằng, chỉ cần bạn thực sự hiểu sâu kiến thức, bạn có thể tìm ra điểm mù của AI. Đây không phải là may mắn, mà là năng lực."

Tuyên bố quảng cáo: Các liên kết chuyển hướng bên ngoài trong bài viết (bao gồm nhưng không giới hạn ở siêu liên kết, mã QR, mật khẩu, v.v.) được sử dụng để truyền tải thêm thông tin, tiết kiệm thời gian lựa chọn, kết quả chỉ mang tính chất tham khảo, tất cả các bài viết của IT之家 đều bao gồm tuyên bố này.

Ý chính từ bài gốc

  • Đại học Fudan thay đổi kỳ thi cuối kỳ thành hình thức sinh viên ra đề kiểm tra AI.
  • Sinh viên phải thiết kế 10 bài toán có đáp án và quy trình suy luận rõ ràng để đánh đố 3 mô hình AI.
  • Điểm số dựa trên số lượng câu hỏi AI trả lời sai và độ khó của mô hình bị đánh bại.
  • 4 sinh viên đã khiến mô hình AI đạt 0 điểm, cho thấy khả năng tìm ra điểm mù của công nghệ.
  • Giáo sư khẳng định phương pháp này giúp sinh viên hiểu sâu kiến thức thay vì cạnh tranh với AI.

Bài viết được AI dịch và tổng hợp tự động từ www.ithome.com. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.