← Quay lại dòng tin

Nghiên cứu · X:Rohan Paul (@rohanpaul_ai)

Nghiên cứu mới: Gemini 3 Flash dẫn đầu khả năng đánh giá sáng tạo thị giác của LLM

Nghiên cứu "How LLMs See Creativity" cho thấy Gemini 3 Flash vượt trội trong việc đánh giá tính sáng tạo của hình ảnh, dù các mô hình vẫn còn thiên kiến ưu ái ảnh AI chất lượng cao hơn là phác thảo th

Điểm 46Thời gian 15:41
Tóm tắt

Nghiên cứu "How LLMs See Creativity" cho thấy Gemini 3 Flash vượt trội trong việc đánh giá tính sáng tạo của hình ảnh, dù các mô hình vẫn còn thiên kiến ưu ái ảnh AI chất lượng cao hơn là phác thảo thô.

Vì sao đáng chú ý

Nghiên cứu cung cấp cái nhìn thực tế về khả năng đánh giá thẩm mỹ của AI, rất hữu ích cho cộng đồng phát triển và ứng dụng mô hình đa phương thức.

Nội dung dịch chi tiết

Nghiên cứu mới có tiêu đề "How LLMs See Creativity" đã tiến hành thử nghiệm khả năng của các mô hình ngôn ngữ lớn (LLM) trong việc đánh giá tính sáng tạo của hình ảnh theo phương pháp zero-shot, đồng thời đưa ra các lập luận có thể giải thích được.

Kết quả cho thấy phần lớn các mô hình đều có điểm số tương đồng với đánh giá của con người. Trong đó, Gemini 3 Flash nổi lên là mô hình dẫn đầu, đạt kết quả tốt nhất trên cả hai loại hình ảnh được thử nghiệm.

Tuy nhiên, nghiên cứu cũng chỉ ra rằng các mô hình vẫn tồn tại những định kiến rõ rệt. Cụ thể, chúng có xu hướng chấm điểm quá cao cho các hình ảnh được tạo bởi AI một cách tinh xảo, trong khi lại chấm điểm thấp cho các bản phác thảo thô.

Quy trình suy luận của ba mô hình được thử nghiệm chủ yếu tập trung vào các yếu tố: nội dung quan sát được, tính nguyên bản, chất lượng thị giác và điểm số cuối cùng.

Tổng kết lại, nghiên cứu khẳng định việc đánh giá tính sáng tạo thị giác bằng AI có khả năng mở rộng quy mô. Dù vậy, các định kiến hiện có trong mô hình vẫn cần được hiệu chỉnh để đảm bảo tính công bằng và chính xác hơn.

Ý chính từ bài gốc

  • Nghiên cứu "How LLMs See Creativity" đánh giá khả năng chấm điểm sáng tạo hình ảnh của LLM.
  • Gemini 3 Flash đạt hiệu suất dẫn đầu trên cả hai loại hình ảnh được thử nghiệm.
  • Các mô hình có sự tương quan tốt với đánh giá của con người trong việc chấm điểm sáng tạo.
  • Tồn tại định kiến: mô hình ưu tiên hình ảnh AI tinh xảo và đánh giá thấp các bản phác thảo thô.
  • Quy trình suy luận của mô hình dựa trên nội dung, tính nguyên bản và chất lượng thị giác.
  • Đánh giá sáng tạo thị giác bằng AI có tiềm năng mở rộng nhưng cần hiệu chỉnh định kiến.