Nghiên cứu · Hugging Face Daily Papers
GGT-100K: Sử dụng mô hình tạo sinh để tái tạo ảnh thực tế chất lượng cao
Nghiên cứu giới thiệu GGT-100K, phương pháp dùng các mô hình nền tảng đa phương thức để tạo ra dữ liệu huấn luyện chất lượng cao từ ảnh thực tế, giúp khắc phục tình trạng thiếu hụt dữ liệu cặp trong p
Tóm tắt
Nghiên cứu giới thiệu GGT-100K, phương pháp dùng các mô hình nền tảng đa phương thức để tạo ra dữ liệu huấn luyện chất lượng cao từ ảnh thực tế, giúp khắc phục tình trạng thiếu hụt dữ liệu cặp trong phục hồi ảnh.
Vì sao đáng chú ý
Giải quyết bài toán hóc búa về dữ liệu trong phục hồi ảnh bằng cách tận dụng sức mạnh của các mô hình tạo sinh hiện đại, có tính ứng dụng thực tiễn cao cho thị giác máy tính.
Nội dung dịch chi tiết
Lĩnh vực khôi phục ảnh (IR) trong thực tế hiện đang gặp khó khăn do thiếu hụt các cặp dữ liệu đào tạo chất lượng cao. Các bộ dữ liệu tổng hợp thường không mô phỏng chính xác các loại suy giảm chất lượng thực tế, trong khi việc thu thập các cặp ảnh thực tế lại tốn kém và phức tạp. Điều này dẫn đến việc các mô hình IR hiện nay có khả năng tổng quát hóa hạn chế khi đối mặt với các tình huống thực tế.
Trong nghiên cứu này, các tác giả đề xuất phương pháp Generative Ground Truth (GGT), tận dụng các mô hình nền tảng đa phương thức (MFM) để tạo ra các mục tiêu chất lượng cao (HQ) từ những hình ảnh chất lượng thấp (LQ) thực tế. Nhóm đã thực hiện đánh giá hệ thống trên chín mô hình MFM tiên tiến, bao gồm Nano-Banana-2 và GPT-Image-2, trên nhiều bối cảnh và loại suy giảm khác nhau.
Kết quả cho thấy Nano-Banana-2, kết hợp với kỹ thuật gợi ý thích ứng dựa trên VLM, có khả năng vượt trội trong việc tổng hợp các mục tiêu HQ vừa chân thực về mặt thị giác, vừa giữ nguyên nội dung gốc. Đây chính là cơ sở để tạo ra GGT cho các đầu vào LQ.
Nhóm tác giả đã sử dụng Nano-Banana-2 để xây dựng quy trình tổng hợp GGT, bao gồm các bước kiểm soát chất lượng nghiêm ngặt để đảm bảo độ tin cậy của dữ liệu. Kết quả là bộ dữ liệu GGT-100K đã ra đời, bao gồm 103.707 cặp ảnh đào tạo cùng một tập kiểm tra gồm 500 cặp, bao phủ đa dạng các bối cảnh và tình trạng suy giảm ảnh phức tạp.
Các thử nghiệm mở rộng chứng minh rằng GGT-100K giúp cải thiện đáng kể khả năng tổng quát hóa của nhiều mô hình IR khác nhau. Đặc biệt, bộ dữ liệu này mang lại lợi ích lớn khi tinh chỉnh các mô hình tạo sinh cho các tác vụ khôi phục ảnh, khẳng định vai trò của MFM như một công cụ thiết thực trong việc tạo dữ liệu phục vụ khôi phục hình ảnh.
Ý chính từ bài gốc
- Giải quyết tình trạng thiếu hụt dữ liệu đào tạo chất lượng cao cho khôi phục ảnh bằng phương pháp GGT.
- Đánh giá 9 mô hình MFM, xác định Nano-Banana-2 là công cụ hiệu quả nhất để tạo mục tiêu chất lượng cao.
- Xây dựng bộ dữ liệu GGT-100K với hơn 100.000 cặp ảnh LQ-HQ đa dạng và phức tạp.
- GGT-100K giúp cải thiện khả năng tổng quát hóa thực tế cho nhiều mô hình khôi phục ảnh khác nhau.
Bài viết được AI dịch và tổng hợp tự động từ arXiv.org. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.