Nghiên cứu · The Decoder:AI News(RSS)
GPT và Claude thất bại trong bài kiểm tra tài chính của Bridgewater vì thiếu dữ liệu chuyên môn
Quỹ đầu tư Bridgewater và Thinking Machines Lab phát hiện các mô hình AI thương mại hàng đầu không đạt yêu cầu trong việc phân tích tài chính. Thay vào đó, việc tinh chỉnh mô hình mã nguồn mở Qwen3-23
Quỹ đầu tư Bridgewater và Thinking Machines Lab phát hiện các mô hình AI thương mại hàng đầu không đạt yêu cầu trong việc phân tích tài chính. Thay vào đó, việc tinh chỉnh mô hình mã nguồn mở Qwen3-235B bằng dữ liệu độc quyền mang lại độ chính xác cao hơn với chi phí vận hành thấp hơn gấp 14 lần.
Nội dung dịch chi tiết
Quỹ đầu tư Bridgewater và Thinking Machines Lab (startup do cựu CTO OpenAI Mira Murati sáng lập) đã huấn luyện một mô hình AI mã nguồn mở để phân tích tài liệu tài chính. Kết quả cho thấy mô hình này vượt trội hơn các mô hình thương mại hàng đầu hiện nay với độ chính xác gần 85% và chi phí vận hành rẻ hơn 14 lần.
Các nhà đầu tư thường xuyên bị quá tải bởi tin tức, báo cáo và email. Công việc thực sự không chỉ là đọc, mà là đưa ra các đánh giá liên tục về mức độ quan trọng của thông tin. Các nhà nghiên cứu đã cố gắng tự động hóa quy trình này thông qua sáu nhiệm vụ từ thói quen hàng ngày của nhà đầu tư, chẳng hạn như xác định xem một bài báo có liên quan đến lãnh đạo hay một tài liệu ngân hàng trung ương có báo hiệu thay đổi lãi suất hay không.
Trong các bài kiểm tra, các mô hình tiên tiến như Gemini, Claude và GPT chỉ đạt độ chính xác khoảng 50% với câu lệnh cơ bản. Ngay cả khi sử dụng hướng dẫn từ chuyên gia, độ chính xác cũng chỉ đạt mức 70%, thấp hơn ngưỡng 80% cần thiết để triển khai đáng tin cậy. Báo cáo cũng chỉ ra rằng các mô hình mới hơn không mang lại hiệu quả chi phí đáng kể.
Giải pháp nằm ở việc tinh chỉnh mô hình mã nguồn mở Qwen3-235B bằng dữ liệu độc quyền. Để khắc phục vấn đề nhãn dữ liệu sai từ các nhà thầu, nhóm nghiên cứu đã sử dụng mô hình để đối chiếu và chỉ nhờ chuyên gia can thiệp vào các trường hợp gây tranh cãi. Kết quả là mô hình tinh chỉnh đạt độ chính xác 84,7%, vượt xa mức 78,2% của mô hình thương mại tốt nhất.
Dù đây là đánh giá nội bộ, kết quả này cho thấy các phòng thí nghiệm AI lớn chưa khai thác hết nguồn dữ liệu chuyên biệt. Việc tinh chỉnh các mô hình mở giúp doanh nghiệp giữ quyền kiểm soát dữ liệu nhạy cảm và trọng số mô hình, thay vì phải chia sẻ thông tin quý giá cho các nhà cung cấp bên thứ ba.
Ý chính từ bài gốc
- Mô hình Qwen3-235B tinh chỉnh đạt độ chính xác 84,7%, vượt qua các mô hình thương mại hàng đầu.
- Chi phí vận hành của mô hình tinh chỉnh thấp hơn 14 lần so với các mô hình frontier hiện nay.
- Các mô hình AI lớn thất bại do thiếu dữ liệu chuyên môn và khả năng đánh giá bối cảnh tài chính đặc thù.
- Doanh nghiệp có thể tự phát triển AI bằng dữ liệu riêng mà không cần chia sẻ thông tin nhạy cảm cho các nhà cung cấp lớn.
- Phương pháp tinh chỉnh sử dụng quy trình đối chiếu tự động giúp giảm thiểu sai sót từ dữ liệu gắn nhãn thủ công.