Nghiên cứu · : Ant Ling (Ling)
Tại sao cần thiết kế lại SwiGLU? Câu chuyện đằng sau sự ra đời của PowLU
Ant Group giới thiệu PowLU, một hàm kích hoạt mới giúp cải thiện tính ổn định và hiệu quả hội tụ khi huấn luyện các mô hình ngôn ngữ lớn (LLM), thay thế cho SwiGLU truyền thống.
Tóm tắt
Ant Group giới thiệu PowLU, một hàm kích hoạt mới giúp cải thiện tính ổn định và hiệu quả hội tụ khi huấn luyện các mô hình ngôn ngữ lớn (LLM), thay thế cho SwiGLU truyền thống.
Vì sao đáng chú ý
Chủ đề chuyên sâu về tối ưu hóa kiến trúc LLM, mang tính thời sự cao cho cộng đồng kỹ thuật và nghiên cứu AI tại Việt Nam.
Nội dung dịch chi tiết
SwiGLU hiện là hàm kích hoạt tiêu chuẩn trong lĩnh vực LLM, được sử dụng rộng rãi từ Llama đến DeepSeek và GPT. Mặc dù cơ chế cổng của nó giúp tăng cường khả năng biểu đạt của mô hình, nhưng chúng tôi phát hiện một điểm yếu tiềm ẩn: khi giá trị đầu vào lớn, đầu ra của SwiGLU tăng trưởng theo hàm bậc hai. Trong các mô hình nghìn tỷ tham số, hiệu ứng khuếch đại này làm trầm trọng hóa các giá trị ngoại lai (outliers), dẫn đến mất ổn định, Loss Spike hoặc thậm chí sụp đổ quá trình huấn luyện, đặc biệt là ở định dạng FP8 hoặc thấp hơn.
Các giải pháp hiện có như SwiGLU-Clip (cắt bỏ giá trị) chỉ giúp trì hoãn Loss Spike và gây mất mát thông tin, đồng thời đòi hỏi kinh nghiệm thực tế để thiết lập ngưỡng cắt phù hợp. Chúng tôi hướng tới một giải pháp thanh lịch hơn: vừa giới hạn phạm vi đầu ra, vừa bảo toàn khả năng biểu đạt phi tuyến tính. Đó là lý do PowLU (Power Linear Unit) ra đời.
Cốt lõi của PowLU là thay thế yếu tố suy giảm mũ bằng một hàm lũy thừa trên trục dương. Khi đầu vào tăng, hàm kích hoạt dần chuyển sang trạng thái tuyến tính nhưng với tốc độ chậm hơn nhiều so với SwiGLU, giúp mô hình tránh được sự bùng nổ giá trị. Việc tích hợp hàm Sigmoid đảm bảo tính phi tuyến tính cần thiết cho khả năng biểu đạt của mô hình.
Kết quả thực nghiệm cho thấy PowLU duy trì đường cong Loss ổn định ở mức 1.32 trong môi trường FP8, trong khi SwiGLU gặp phải tình trạng Loss Spike nghiêm trọng. Các thử nghiệm trên quy mô từ 26M đến 124B tham số xác nhận rằng PowLU không chỉ giải quyết vấn đề ổn định số học mà còn đạt hiệu suất ngang bằng hoặc tốt hơn SwiGLU trên 17 tiêu chuẩn đánh giá.
Phân tích trực quan cho thấy PowLU đã thành công trong việc nén phạm vi động của các giá trị, giảm đáng kể các giá trị ngoại lai cực đoan. Trong kỷ nguyên huấn luyện LLM với độ chính xác thấp (FP8/FP4), sự ổn định số học trở nên quan trọng hơn bao giờ hết. PowLU đại diện cho một hướng đi mới trong thiết kế hàm kích hoạt: kiểm soát phạm vi giá trị mà vẫn giữ được tính phi tuyến tính.
Ý chính từ bài gốc
- SwiGLU gây mất ổn định số học và Loss Spike trong huấn luyện độ chính xác thấp (FP8) do tăng trưởng bậc hai.
- PowLU thay thế đường cong bậc hai bằng hàm lũy thừa phẳng hơn, giúp ổn định quá trình huấn luyện mà không làm giảm hiệu suất.
- Thực nghiệm trên các mô hình từ 26M đến 124B tham số cho thấy PowLU đạt kết quả ngang bằng hoặc tốt hơn SwiGLU.
- PowLU giảm thiểu hiệu quả các giá trị ngoại lai (outliers) bằng cách nén phạm vi động của đầu ra.
- Sự ổn định số học là yếu tố then chốt trong kỷ nguyên huấn luyện LLM với độ chính xác thấp như FP8 và FP4.
Bài viết được AI dịch và tổng hợp tự động từ Weixin Official Accounts Platform. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.