← Quay lại dòng tin

Mô hình · MarkTechPost(RSS)

Interfaze ra mắt diffusion-gemma-asr-small: Mô hình nhận dạng giọng nói đa ngôn ngữ mã nguồn mở

Interfaze vừa giới thiệu diffusion-gemma-asr-small, mô hình nhận dạng giọng nói (ASR) đa ngôn ngữ đầu tiên sử dụng bộ giải mã khuếch tán song song. Mô hình này hỗ trợ 6 ngôn ngữ thông qua một adapter

Điểm 64Thời gian 10:39
Tóm tắt

Interfaze vừa giới thiệu diffusion-gemma-asr-small, mô hình nhận dạng giọng nói (ASR) đa ngôn ngữ đầu tiên sử dụng bộ giải mã khuếch tán song song. Mô hình này hỗ trợ 6 ngôn ngữ thông qua một adapter nhẹ, mang lại hiệu suất vượt trội so với các mô hình khuếch tán cùng loại.

Nội dung dịch chi tiết

Interfaze, một startup trẻ thuộc YC, đã phát hành mã nguồn mở cho diffusion-gemma-asr-small, mô hình nhận dạng giọng nói (ASR) sử dụng bộ giải mã khuếch tán thay vì cơ chế tự hồi quy (autoregressive) truyền thống. Đây được coi là mô hình ASR khuếch tán đa ngôn ngữ đầu tiên, hỗ trợ 6 ngôn ngữ chỉ với một adapter khoảng 42 triệu tham số trên nền tảng DiffusionGemma 26B.

Khác với các mô hình tự hồi quy tạo văn bản từng token một, mô hình này sử dụng phương pháp khuếch tán để tinh chỉnh tất cả các token song song. Thay vì sử dụng cơ chế mặt nạ (mask) thông thường, DiffusionGemma áp dụng kỹ thuật khuếch tán token ngẫu nhiên đồng nhất. Chi phí phiên mã của mô hình phụ thuộc vào số bước khử nhiễu thay vì độ dài của văn bản.

Để xử lý âm thanh, mô hình sử dụng bộ mã hóa whisper-small làm công cụ trích xuất đặc trưng. Các đặc trưng này được nén qua một bộ chiếu (projector) và đưa vào các khe cắm token âm thanh của DiffusionGemma. Nhóm nghiên cứu đã sử dụng hàm mất mát CTC (Connectionist Temporal Classification) để huấn luyện trực tiếp bộ chiếu, giúp mô hình học cách căn chỉnh âm thanh với văn bản hiệu quả hơn.

Trên các bài kiểm tra như LibriSpeech, mô hình đạt tỷ lệ lỗi từ (WER) là 6.6%, vượt qua các mô hình khuếch tán khác như Whisfusion (8.3%). Mặc dù vẫn có khoảng cách về hiệu suất so với các mô hình tự hồi quy như Whisper, nhưng thiết kế này mang lại lợi thế lớn về tốc độ nhờ khả năng giải mã song song.

Người dùng có thể triển khai mô hình thông qua thư viện Hugging Face. Với khoảng 8 đến 16 bước khử nhiễu, mô hình có thể đạt được sự cân bằng tối ưu giữa tốc độ và độ chính xác, phù hợp cho các quy trình phiên mã hàng loạt cần hiệu suất cao.

Ý chính từ bài gốc

  • Mô hình ASR khuếch tán đa ngôn ngữ đầu tiên hỗ trợ 6 ngôn ngữ.
  • Sử dụng bộ giải mã khuếch tán song song thay vì cơ chế tự hồi quy.
  • Hiệu suất vượt trội so với các mô hình khuếch tán cùng loại trên LibriSpeech.
  • Tối ưu hóa tốc độ phiên mã nhờ khả năng giải mã song song không phụ thuộc độ dài clip.
  • Mã nguồn mở, cho phép tích hợp dễ dàng qua Hugging Face.