Nghiên cứu · HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)

WARP: Phân tích không gian trọng số để khôi phục danh mục dữ liệu huấn luyện mô hình

Điểm 45Thời gian 23:35

Tóm tắt

Các mô hình nền tảng thường được công khai nhưng công thức dữ liệu huấn luyện lại hiếm khi được tiết lộ. WARP là khung làm việc mới giúp khôi phục các hỗn hợp dữ liệu huấn luyện trực tiếp từ trọng số của mô hình đã tinh chỉnh, vượt qua hạn chế của các phương pháp suy luận thành viên truyền thống.

Nội dung dịch chi tiết

Các mô hình nền tảng hiện nay thường xuyên được phát hành rộng rãi, tuy nhiên các công thức dữ liệu dùng để huấn luyện chúng—chẳng hạn như trọng số hỗn hợp miền xác định cách lấy mẫu từ các nguồn khác nhau—hiếm khi được công khai. Điều này tạo ra sự bất đối xứng về quyền truy cập: các nhà nghiên cứu có thể nghiên cứu mô hình nhưng thiếu cái nhìn sâu sắc về phân phối dữ liệu huấn luyện tạo ra chúng.

Các nghiên cứu trước đây về suy luận dữ liệu huấn luyện, như suy luận thành viên (membership inference), chỉ phát hiện ở cấp độ mẫu riêng lẻ và không thể mô tả thành phần tổng thể của kho dữ liệu huấn luyện. Để giải quyết vấn đề này, chúng tôi giới thiệu WARP, một khung làm việc khôi phục hỗn hợp huấn luyện của mô hình đã tinh chỉnh trực tiếp từ các trọng số được công bố.

WARP thực hiện nội suy giữa mô hình cơ sở và mô hình đã tinh chỉnh bằng cách sử dụng kỹ thuật hợp nhất mô hình (model merging). Quá trình này tạo ra các điểm kiểm tra giả lập (pseudo-checkpoints) giúp xấp xỉ quỹ đạo huấn luyện bị thiếu và làm lộ dấu vết hình học của dữ liệu huấn luyện trong không gian trọng số.

Từ các dấu vết giả lập này, WARP trích xuất các đặc trưng hình học và ánh xạ chúng sang tỷ lệ miền bằng cách sử dụng phương pháp đọc softmax không tham số hoặc bộ chiếu MLP được huấn luyện trên các hỗn hợp tổng hợp.

Trong các thử nghiệm có kiểm soát với BERT và GPT-2, WARP đã khôi phục các hỗn hợp miền với sai số tuyệt đối trung bình (MAE) thấp lần lượt là 0,046 và 0,104. Kết quả này vượt trội hơn so với phương pháp suy luận thành viên và các biến thể có quyền truy cập vào quỹ đạo huấn luyện thực tế.

Công trình này đã được trình bày tại Hội thảo ICML 2026 về Đối xứng không gian trọng số (WSS). Mã nguồn của dự án hiện đã được công khai để cộng đồng nghiên cứu tham khảo.

Ý chính từ bài gốc

WARP khôi phục hỗn hợp dữ liệu huấn luyện trực tiếp từ trọng số mô hình mà không cần truy cập vào tập dữ liệu gốc.
Sử dụng kỹ thuật hợp nhất mô hình để tạo ra các điểm kiểm tra giả lập, từ đó lộ diện dấu vết hình học của dữ liệu huấn luyện.
Sử dụng bộ chiếu MLP hoặc softmax không tham số để ánh xạ các đặc trưng hình học sang tỷ lệ miền dữ liệu.
Đạt hiệu suất vượt trội so với các phương pháp suy luận thành viên truyền thống trong các thử nghiệm với BERT và GPT-2.
Công trình được công bố tại Hội thảo ICML 2026 về Đối xứng không gian trọng số (WSS).

Mở bài gốc