← Quay lại dòng tin

Nghiên cứu · : (MiniCPM)

Lần đầu tại Trung Quốc: ModelBest công khai 10 triệu dữ liệu SFT và tập dữ liệu tổng hợp tiếng Trung lớn nhất cho MiniCPM-1B

ModelBest vừa tạo bước ngoặt khi công khai 10 triệu mẫu dữ liệu SFT và tập dữ liệu tổng hợp quy mô lớn, giúp tối ưu hóa hiệu suất cho mô hình MiniCPM-1B và thúc đẩy cộng đồng AI nguồn mở.

Điểm 61Thời gian

Tóm tắt

ModelBest vừa tạo bước ngoặt khi công khai 10 triệu mẫu dữ liệu SFT và tập dữ liệu tổng hợp quy mô lớn, giúp tối ưu hóa hiệu suất cho mô hình MiniCPM-1B và thúc đẩy cộng đồng AI nguồn mở.

Vì sao đáng chú ý

Đây là thông tin quan trọng cho cộng đồng AI, việc công khai dữ liệu huấn luyện chất lượng cao có giá trị thực tiễn rất lớn cho các nhà phát triển mô hình ngôn ngữ nhỏ.

Nội dung dịch chi tiết

Trong khuôn khổ "Tuần lễ nguồn mở mô hình lớn tại thiết bị", Facechain AI phối hợp cùng Đại học Thanh Hoa và cộng đồng OpenBMB đã ra mắt hai bộ dữ liệu mới: Ultra-FineWeb-L3 và UltraData-SFT-2605. Các bộ dữ liệu này đã được kiểm chứng toàn diện trong quy trình huấn luyện mô hình MiniCPM5-1B.

Ultra-FineWeb-L3 là bộ dữ liệu tổng hợp tiền huấn luyện tiếng Trung lớn nhất hiện nay với quy mô hơn 600 tỷ Tokens (trong đó tiếng Trung chiếm hơn 200 tỷ). Dữ liệu này được xây dựng dựa trên hệ thống quản trị phân cấp UltraData, giúp chuyển đổi văn bản web từ dạng "có thể đọc" sang "dễ học" cho mô hình, nâng cao đáng kể hiệu suất so với các tập dữ liệu truyền thống.

UltraData-SFT-2605 là bộ dữ liệu SFT quy mô hàng chục triệu mẫu đầu tiên tại Trung Quốc được công khai toàn bộ. Điểm đặc biệt là nó bao gồm cả dữ liệu "tư duy sâu" (deep thinking) và "không tư duy", hỗ trợ mô hình phát triển khả năng suy luận, lập kế hoạch và kiểm chứng trong các lĩnh vực như toán học, mã nguồn và kiến thức tổng quát.

Quy trình xây dựng UltraData-SFT-2605 được quản trị chặt chẽ từ khâu cấu trúc truy vấn, kiểm soát chất lượng câu trả lời đến khử nhiễu Benchmark. Điều này cho phép các nhà phát triển truy xuất nguồn gốc dữ liệu, hiểu rõ cơ sở của việc giữ lại hoặc tăng cường dữ liệu, từ đó rút ngắn thời gian huấn luyện các mô hình AI tại thiết bị (edge AI) có khả năng suy luận mạnh mẽ.

Việc công khai các bộ dữ liệu này giúp cộng đồng nhà phát triển toàn cầu tiếp cận hạ tầng dữ liệu chất lượng cao mà không cần tốn chi phí lớn để tự làm sạch dữ liệu. Đây là bước tiến quan trọng nhằm thúc đẩy ứng dụng AI trên điện thoại, máy tính và ô tô, đồng thời tạo ra vòng lặp tối ưu hóa giữa dữ liệu và mô hình.

Ý chính từ bài gốc

  • Ra mắt Ultra-FineWeb-L3: Bộ dữ liệu tổng hợp tiền huấn luyện tiếng Trung lớn nhất thế giới với hơn 600 tỷ Tokens.
  • Công bố UltraData-SFT-2605: Bộ dữ liệu SFT hàng chục triệu mẫu đầu tiên tại Trung Quốc bao gồm cả tư duy sâu và không tư duy.
  • Áp dụng hệ thống quản trị dữ liệu phân cấp L0-L4, giúp nâng cao khả năng học tập của mô hình so với phương pháp trộn dữ liệu thông thường.
  • Cung cấp hạ tầng dữ liệu mở, có thể tái lập, giúp các nhà phát triển huấn luyện mô hình 1B tại thiết bị với hiệu suất cao.
  • Toàn bộ dữ liệu đã được công khai miễn phí trên trang web UltraData và HuggingFace cho cộng đồng toàn cầu.

Bài viết được AI dịch và tổng hợp tự động từ Weixin Official Accounts Platform. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.