Nghiên cứu · OpenBMB
OpenBMB ra mắt bộ dữ liệu UltraData: Cột mốc mới cho AI mã nguồn mở
OpenBMB công bố hai bộ dữ liệu UltraData quy mô lớn, bao gồm 600B tokens dữ liệu tổng hợp và 15 triệu mẫu SFT, hỗ trợ đắc lực cho việc huấn luyện mô hình ngôn ngữ lớn với khả năng tư duy chuyên sâu.
Tóm tắt
OpenBMB công bố hai bộ dữ liệu UltraData quy mô lớn, bao gồm 600B tokens dữ liệu tổng hợp và 15 triệu mẫu SFT, hỗ trợ đắc lực cho việc huấn luyện mô hình ngôn ngữ lớn với khả năng tư duy chuyên sâu.
Vì sao đáng chú ý
Đây là bước tiến quan trọng cho cộng đồng AI mã nguồn mở, cung cấp tài nguyên dữ liệu chất lượng cao, quy mô lớn, đặc biệt hữu ích cho các nhà phát triển mô hình tiếng Trung và đa ngôn ngữ.
Nội dung dịch chi tiết
OpenBMB, phối hợp cùng nhóm NLP Đại học Thanh Hoa và Modelbest, vừa chính thức phát hành hai tập dữ liệu mã nguồn mở quan trọng, nhanh chóng vươn lên dẫn đầu bảng xếp hạng xu hướng trên Hugging Face.
Đầu tiên là Ultra-FineWeb-L3, một tập dữ liệu tổng hợp phục vụ tiền huấn luyện với quy mô hơn 600 tỷ tokens. Trong đó bao gồm hơn 400 tỷ tokens tiếng Anh và hơn 200 tỷ tokens tiếng Trung, trở thành tập dữ liệu tổng hợp tiền huấn luyện tiếng Trung mã nguồn mở lớn nhất hiện nay.
Thứ hai là UltraData-SFT-2605, tập dữ liệu phục vụ hậu huấn luyện (SFT) với hơn 15 triệu mẫu. Đây là tập dữ liệu SFT quy mô lớn đầu tiên tại Trung Quốc được công khai mã nguồn, bao gồm các chú thích về quá trình tư duy và phi tư duy, bao phủ đa dạng các lĩnh vực như toán học, lập trình, kiến thức tổng quát và tuân thủ chỉ dẫn.
Cả hai tập dữ liệu này đều được xây dựng dựa trên khung UltraData L0-L4. Hiệu quả của chúng đã được kiểm chứng thực tế thông qua quá trình huấn luyện mô hình MiniCPM5-1B.
Hiện tại, toàn bộ dữ liệu đã được OpenBMB cung cấp miễn phí cho cộng đồng nghiên cứu trên nền tảng Hugging Face.
Ý chính từ bài gốc
- OpenBMB ra mắt hai tập dữ liệu mã nguồn mở Ultra-FineWeb-L3 và UltraData-SFT-2605.
- Ultra-FineWeb-L3 là tập dữ liệu tiền huấn luyện tổng hợp tiếng Trung lớn nhất hiện nay với 600 tỷ tokens.
- UltraData-SFT-2605 là tập dữ liệu SFT quy mô lớn đầu tiên tại Trung Quốc có chú thích về tư duy.
- Dữ liệu được xây dựng trên khung UltraData L0-L4 và đã kiểm chứng qua mô hình MiniCPM5-1B.
- Cả hai bộ dữ liệu hiện đã được cung cấp miễn phí trên Hugging Face.
Bài viết được AI dịch và tổng hợp tự động từ X/Twitter. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.