Tất cả chủ đề
CHỦ ĐỀ

Giọng nói & Âm thanh

Tiến triển âm thanh AI: Tổng hợp giọng nói, trò chuyện thời gian thực, tạo nhạc và mô hình hiểu âm thanh.

02/07

X:Shao Meng (@shao__meng)
Nổi bật⚡️ Đề xuất 79

browser-use ra mắt 'video-use': Công cụ AI mã nguồn mở giúp tự động hóa biên tập video

Đội ngũ browser-use vừa giới thiệu 'video-use', bộ kỹ năng cho phép các AI Agent như Claude Code tự động biên tập video thông qua quy trình xử lý âm thanh, tạo EDL và render bằng ffmpeg với độ chính xác cao.

AI AgentMã nguồn mởBiên tập videoTự động hóaCông nghệ
💡 Lý do đề xuất: Đây là bước tiến quan trọng trong việc kết hợp AI Agent với quy trình hậu kỳ video chuyên nghiệp, có tính ứng dụng thực tế cao cho các nhà phát triển và sáng tạo nội dung.

27/06

IT Home(RSS)
Nổi bật🔥 Nổi bật 73

Alibaba ra mắt bộ gõ Qwen cho macOS: Tốc độ 300 từ/phút, tích hợp AI tự động chỉnh sửa

Bộ gõ Qwen trên macOS hỗ trợ nhập liệu giọng nói AI với tốc độ 300 từ/phút, tự động tinh chỉnh văn bản và hỗ trợ 9 loại phương ngữ. Ứng dụng hiện đã có mặt trên trang chủ, các phiên bản cho iOS, Android và Windows sẽ sớm ra mắt.

AlibabaQwenBộ gõ AImacOSCông cụ văn phòng
💡 Lý do đề xuất: Sản phẩm thực tế, hữu ích cho người dùng văn phòng, mở rộng hệ sinh thái AI của Alibaba sang các nền tảng phổ biến.

26/06

X:AI Notes (@AYi_AInotes)
Nổi bật⚡️ Đề xuất 76

Dự án mã nguồn mở Leaf: Biến KOL 'Phong Ca' thành AI đàm thoại thời gian thực

Dự án Leaf cho phép tạo bản sao AI của KOL với độ trễ dưới 1 giây, kết hợp công nghệ nhận diện giọng nói, mô hình ngôn ngữ MiniMax và sao chép âm sắc chỉ với 15 giây dữ liệu. Người dùng có thể tự thiết lập hệ thống này chỉ trong 30 phút.

Mã nguồn mởAI đàm thoạiNhân bản giọng nóiKOL AICông nghệ AI
💡 Lý do đề xuất: Dự án có tính ứng dụng cao, kỹ thuật tối ưu độ trễ ấn tượng và hướng dẫn chi tiết cho người dùng phổ thông, rất phù hợp với xu hướng AI cá nhân hóa hiện nay.

24/06

IT Home(RSS)
Nổi bật🔥 Nổi bật 74

ChatGPT âm thầm thử nghiệm mô hình giọng nói hai chiều Bidi 1

OpenAI vừa triển khai thử nghiệm mô hình giọng nói Bidi 1 trên ChatGPT, cho phép người dùng ngắt lời và tương tác hai chiều tự nhiên như người thật. Tính năng này hiện đang được mở rộng dần cho người dùng trên cả nền tảng web và ứng dụng.

OpenAIChatGPTAI giọng nóiCông nghệ mớiĐa phương thức
💡 Lý do đề xuất: Đây là bước tiến quan trọng trong trải nghiệm hội thoại AI, mang tính ứng dụng cao và được cộng đồng công nghệ đặc biệt quan tâm.

23/06

IT Home(RSS)
Nổi bật🔥 Nổi bật 72

NetEase Youdao ra mắt Confucius4-TTS: Mô hình AI nhân bản giọng nói đa ngôn ngữ không cần văn bản mẫu

NetEase Youdao giới thiệu Confucius4-TTS, mô hình mã nguồn mở hỗ trợ 14 ngôn ngữ với khả năng nhân bản giọng nói chỉ từ 3 giây âm thanh mà không cần văn bản tham chiếu, đạt độ chính xác 97%.

AITTSNhân bản giọng nóiMã nguồn mởNetEase
💡 Lý do đề xuất: Đây là bước tiến lớn trong công nghệ TTS với khả năng đa ngôn ngữ và mã nguồn mở, rất hữu ích cho cộng đồng phát triển AI tại Việt Nam.

16/06

X:Testing Catalog (@testingcatalog)
Nổi bật🔥 Nổi bật 75

Cartesia ra mắt bộ đôi mô hình Sonic 3.5 và Ink 2: Đỉnh cao mới trong xử lý giọng nói thời gian thực

Cartesia vừa giới thiệu Sonic 3.5 (chuyển văn bản thành giọng nói) và Ink 2 (chuyển giọng nói thành văn bản), thiết lập kỷ lục mới về tốc độ phản hồi chỉ 82ms và dẫn đầu bảng xếp hạng Artificial Analysis.

AI giọng nóiMô hình AICartesiaCông nghệ thời gian thựcTTS
💡 Lý do đề xuất: Đây là bước tiến quan trọng trong công nghệ tương tác giọng nói thời gian thực, có tính ứng dụng cao cho các trợ lý AI và tác nhân tự động.

14/06

X:Suno (@suno)
Nổi bật🔥 Nổi bật 70

Suno nâng cấp tính năng tách track: Tạo âm thanh sạch, chuyên nghiệp từ con số 0

Suno vừa cập nhật công nghệ tách track bằng cách tái tạo âm thanh từ đầu thay vì chỉ lọc tần số, mang lại chất lượng sạch, không nhiễu, sẵn sàng để đưa vào các phần mềm sản xuất âm nhạc (DAW).

SunoTách âm thanhSản xuất nhạcAI âm nhạcCập nhật sản phẩm
💡 Lý do đề xuất: Đây là bước tiến quan trọng cho người làm nhạc AI, giúp nâng cao chất lượng hậu kỳ đáng kể và giải quyết vấn đề nhiễu âm thường gặp trong tách track.

09/06

Google DeepMind
Nổi bật🔥 Nổi bật 69

Chào đón Gemini 3.5 Live Translate: Mô hình âm thanh mới hỗ trợ dịch thuật đa ngôn ngữ siêu tốc

Google DeepMind vừa ra mắt Gemini 3.5 Live Translate, mô hình âm thanh chuyên dụng được thiết kế để xóa bỏ rào cản ngôn ngữ thông qua khả năng giao tiếp thời gian thực.

GoogleMô hìnhGiọng nói
💡 Lý do đề xuất: Đây là bản cập nhật quan trọng từ Google về công nghệ dịch thuật thời gian thực, có tính ứng dụng cao và thu hút sự quan tâm lớn từ cộng đồng công nghệ.

03/06

Chubby♨️
Nổi bật🔥 Nổi bật 75

Miso One: Mô hình TTS 8B mã nguồn mở với khả năng giả lập giọng nói người thật cực nhanh

Miso One là mô hình chuyển văn bản thành giọng nói (TTS) 8B tham số, hỗ trợ nhân bản giọng nói chỉ với mẫu ngắn, độ trễ 110ms và cho phép tự lưu trữ dữ liệu cục bộ.

Mã nguồn mởMô hìnhGiọng nói
💡 Lý do đề xuất: Công nghệ TTS mã nguồn mở có độ trễ thấp và khả năng bảo mật dữ liệu cục bộ là bước tiến lớn cho các nhà phát triển ứng dụng AI cá nhân.
OpenRouter
Nổi bật🔥 Nổi bật 68

Microsoft ra mắt 3 mô hình AI mới trên OpenRouter: MAI-Image, Transcribe và Voice

OpenRouter vừa tích hợp bộ ba mô hình AI mới từ Microsoft bao gồm MAI-Image-2.5, MAI-Transcribe-1.5 và MAI-Voice-2, mở rộng khả năng xử lý đa phương thức cho người dùng.

MicrosoftCập nhật sản phẩmTạo hình ảnh
💡 Lý do đề xuất: Cập nhật quan trọng về hạ tầng mô hình AI từ Microsoft, giúp người dùng dễ dàng tiếp cận qua API của OpenRouter.

30/05

Greg Brockman
Nổi bật⚡️ Đề xuất 76

OpenAI ra mắt tính năng dịch thuật thời gian thực trên kính thông minh

OpenAI giới thiệu công cụ dịch thuật giọng nói thời gian thực, hỗ trợ hơn 70 ngôn ngữ đầu vào và 13 ngôn ngữ đầu ra, hiện đang được thử nghiệm trên kính thông minh.

OpenAIMô hìnhGiọng nói
💡 Lý do đề xuất: Đây là bước tiến đột phá về ứng dụng AI đa phương thức trong đời sống thực tế, cho thấy khả năng tối ưu hóa mô hình chuyên biệt trên thiết bị đeo.

04/06

Hugging Face Daily Papers
Nổi bật⚡️ Đề xuất 85

OpenSTBench: Khung đánh giá toàn diện cho hệ thống dịch thuật giọng nói

OpenSTBench là khung đánh giá thống nhất giúp đo lường đồng bộ chất lượng dịch thuật, âm thanh, cảm xúc và thời gian cho cả hệ thống dịch giọng nói sang văn bản (S2TT) và giọng nói sang giọng nói (S2ST).

Dịch thuật giọng nóiĐánh giá AIS2STNghiên cứu AIXử lý ngôn ngữ
💡 Lý do đề xuất: Đây là nghiên cứu quan trọng giúp chuẩn hóa cách đánh giá các hệ thống dịch thuật giọng nói vốn đang bị phân mảnh, rất hữu ích cho các nhà phát triển AI.