Khả năng xử lý ngoài văn bản: Hiểu thị giác, đồ họa, âm thanh và video của các mô hình thế hệ mới.
Tin tinh chọn
🔥 Tiêu điểm:Wan Video ra mắt tính năng 'Nhảy theo nhạc': Biến nhân vật thành vũ công chuyên nghiệp16:12
03/07
Hacker News Nổi bật(buzzing.cc bản dịch tiếng Trung)
Nổi bật⚡️ Đề xuất 81
Claude-real-video: Công cụ giúp mọi LLM 'xem' và hiểu nội dung video
Claude-real-video là công cụ mã nguồn mở cho phép các mô hình ngôn ngữ lớn phân tích video thông qua hình ảnh và âm thanh thay vì chỉ dựa vào phụ đề. Toàn bộ quá trình xử lý diễn ra cục bộ, đảm bảo tính riêng tư và hỗ trợ cả YouTube lẫn tệp tin nội bộ.
Đa phương thứcMã nguồn mởCông cụ AIXử lý videoLLM
💡 Lý do đề xuất: Giải pháp thực tế, hữu ích cho việc khai thác đa phương thức trên các LLM hiện có, đặc biệt là khả năng xử lý cục bộ giúp bảo mật dữ liệu.
02/07
Apple Machine Learning Research(RSS)
Nổi bật🔥 Nổi bật 62
Nghiên cứu về độ bền vững và tính nhất quán trong chuỗi suy luận (CoT) khi tinh chỉnh VLM bằng RL
Nghiên cứu từ Apple chỉ ra rằng việc tinh chỉnh VLM bằng RL giúp tăng độ chính xác nhưng lại làm giảm tính trung thực của chuỗi suy luận. Các mô hình dễ bị đánh lừa bởi thông tin nhiễu, đòi hỏi sự cân bằng giữa hiệu suất và khả năng suy luận tin cậy.
VLMHọc tăng cườngSuy luậnĐa phương thứcNghiên cứu AI
💡 Lý do đề xuất: Nghiên cứu chuyên sâu từ Apple về lỗ hổng của VLM khi dùng RL, cung cấp góc nhìn quan trọng cho các kỹ sư AI về sự đánh đổi giữa độ chính xác và tính logic.
Apple Machine Learning Research(RSS)
Nổi bật🔥 Nổi bật 56
VideoFlexTok: Bước đột phá trong nén và biểu diễn video với cấu trúc token linh hoạt
VideoFlexTok giới thiệu phương pháp biểu diễn video bằng chuỗi token có độ dài tùy biến theo cấu trúc từ thô đến tinh, giúp tối ưu hóa tài nguyên tính toán và cho phép xử lý video dài hơn gấp 8 lần so với các phương pháp truyền thống mà vẫn giữ nguyên chất lượng.
Video AINghiên cứu AINén dữ liệuApple ResearchGenerative AI
💡 Lý do đề xuất: Đây là nghiên cứu quan trọng từ Apple giúp giải quyết bài toán hiệu suất trong tạo video AI, có tính ứng dụng cao cho các mô hình thế hệ mới.
IT Home(RSS)
Nổi bật🔥 Nổi bật 71
Kuaishou huy động 2 tỷ USD cho Kling AI, định giá công ty đạt 18 tỷ USD
Kuaishou vừa huy động thành công 2,028 tỷ USD từ các nhà đầu tư cho dự án Kling AI, nâng định giá công ty lên 18 tỷ USD. Hãng dự kiến sẽ đưa Kling AI lên sàn chứng khoán Hồng Kông trong 12 tháng tới để mở rộng hạ tầng tính toán và dữ liệu.
Kling AIKuaishouĐầu tư AIVideo AIKỳ lân công nghệ
💡 Lý do đề xuất: Tin tức quan trọng về dòng vốn lớn trong ngành AI tạo video, phản ánh xu hướng thương mại hóa mạnh mẽ của các mô hình AI Trung Quốc.
X:Shao Meng (@shao__meng)
Nổi bật⚡️ Đề xuất 79
browser-use ra mắt 'video-use': Công cụ AI mã nguồn mở giúp tự động hóa biên tập video
Đội ngũ browser-use vừa giới thiệu 'video-use', bộ kỹ năng cho phép các AI Agent như Claude Code tự động biên tập video thông qua quy trình xử lý âm thanh, tạo EDL và render bằng ffmpeg với độ chính xác cao.
AI AgentMã nguồn mởBiên tập videoTự động hóaCông nghệ
💡 Lý do đề xuất: Đây là bước tiến quan trọng trong việc kết hợp AI Agent với quy trình hậu kỳ video chuyên nghiệp, có tính ứng dụng thực tế cao cho các nhà phát triển và sáng tạo nội dung.
01/07
X:NotebookLM (@NotebookLM)
Nổi bật🔥 Nổi bật 68
NotebookLM ra mắt tính năng tạo video tóm tắt 60 giây cho người dùng web
Google chính thức cập nhật tính năng Short Video Overviews trên nền tảng web của NotebookLM, cho phép tự động chuyển đổi tài liệu phức tạp thành video dọc 60 giây để giải thích khái niệm.
GoogleNotebookLMAIVideoCập nhật sản phẩm
💡 Lý do đề xuất: Tính năng này giúp tối ưu hóa cách tiếp cận thông tin, rất hữu ích cho người dùng phổ thông và sáng tạo nội dung, đánh dấu bước tiến mới trong ứng dụng AI của Google.
30/06
Simon Willison Blog
Nổi bật🔥 Nổi bật 73
Tự động hóa quay video demo sản phẩm bằng AI Agent với shot-scraper
Phiên bản shot-scraper 1.10 bổ sung tính năng quay video thao tác trình duyệt thông qua file cấu hình, giúp các AI Agent dễ dàng tạo video demo sản phẩm một cách chuyên nghiệp và chính xác.
Công cụ AITự động hóaPhát triển phần mềmAgentSản phẩm mới
💡 Lý do đề xuất: Công cụ hữu ích cho nhà phát triển muốn tự động hóa quy trình làm video demo, đặc biệt tối ưu cho việc tích hợp với AI Agent.
28/06
X:Berry Xia (@berryxia)
Nổi bật⚡️ Đề xuất 76
Sếp mảng Vision của Apple đầu quân cho OpenAI, MacBook màn hình cảm ứng OLED dự kiến dùng chip M5
Phó chủ tịch mảng Vision của Apple rời công ty để gia nhập bộ phận phần cứng của OpenAI. Đồng thời, Apple đang phát triển MacBook màn hình cảm ứng OLED chạy chip M5, dự kiến ra mắt vào cuối năm 2026 hoặc đầu năm 2027.
AppleOpenAIPhần cứng AIMacBookNhân sự công nghệ
💡 Lý do đề xuất: Tin tức quan trọng về nhân sự cấp cao giữa Apple và OpenAI, kết hợp với lộ trình sản phẩm phần cứng mới, có tác động lớn đến thị trường công nghệ.
24/06
X: OpenBMB (@OpenBMB)
Nổi bật🔥 Nổi bật 65
MiniCPM-V 4.6 vận hành siêu tốc trên Apple Core AI
Mô hình đa phương thức MiniCPM-V 4.6 gây ấn tượng mạnh khi đạt tốc độ xử lý vượt trội trên Apple Core AI dù sở hữu dưới 2 tỷ tham số. Đây là bước tiến lớn cho khả năng chạy AI hiệu suất cao ngay trên thiết bị.
Đa phương thứcAI trên thiết bịMô hình ngôn ngữApple Core AIMiniCPM
💡 Lý do đề xuất: Tin tức cập nhật về tối ưu hóa mô hình AI trên thiết bị di động, có ý nghĩa thực tiễn cao cho cộng đồng phát triển ứng dụng AI tại Việt Nam.
IT Home(RSS)
Nổi bật🔥 Nổi bật 74
ChatGPT âm thầm thử nghiệm mô hình giọng nói hai chiều Bidi 1
OpenAI vừa triển khai thử nghiệm mô hình giọng nói Bidi 1 trên ChatGPT, cho phép người dùng ngắt lời và tương tác hai chiều tự nhiên như người thật. Tính năng này hiện đang được mở rộng dần cho người dùng trên cả nền tảng web và ứng dụng.
OpenAIChatGPTAI giọng nóiCông nghệ mớiĐa phương thức
💡 Lý do đề xuất: Đây là bước tiến quan trọng trong trải nghiệm hội thoại AI, mang tính ứng dụng cao và được cộng đồng công nghệ đặc biệt quan tâm.
HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)
Nổi bật🔥 Nổi bật 70
Causal-rCM: Bước đột phá trong chưng cất mô hình khuếch tán video tự hồi quy
Causal-rCM giới thiệu phương pháp huấn luyện kết hợp giữa ép buộc giáo viên (TF) và tự ép buộc (SF), giúp tăng tốc độ hội tụ gấp 10 lần. Công nghệ này cho phép tạo video chất lượng cao chỉ với 1-2 bước lấy mẫu, thiết lập chuẩn mực mới cho mô hình thế giới tương tác.
AI tạo videoMô hình khuếch tánNghiên cứu AITối ưu hóa mô hìnhWan2.1
💡 Lý do đề xuất: Đây là nghiên cứu quan trọng giúp tối ưu hóa đáng kể hiệu suất tạo video thời gian thực, có tính ứng dụng cao trong các mô hình thế giới và video AI thế hệ mới.
X:Runway (@runwayml)
Nổi bật🔥 Nổi bật 72
Runway ra mắt bộ ba mô hình AI mới: Seedance 4K, Seedance Mini và Kling 3.0 Turbo
Runway vừa chính thức trình làng ba mô hình AI đột phá gồm Seedance 4K, Seedance Mini và Kling 3.0 Turbo. Người dùng có thể trải nghiệm ngay với ưu đãi giảm giá 30% trong 3 tháng đầu tiên khi sử dụng mã 30RUNWAY.
RunwayAI VideoCập nhật sản phẩmSeedanceKling
💡 Lý do đề xuất: Đây là bản cập nhật quan trọng từ một trong những đơn vị dẫn đầu ngành video AI, mang tính ứng dụng cao và có ưu đãi trực tiếp cho người dùng.
X:Sky Computing Lab (@haoailab)
Nổi bật🔥 Nổi bật 73
FastWan-QAD: Tạo video 5 giây chỉ trong 1.8 giây trên card đồ họa RTX 5090
Sky Computing Lab ra mắt FastWan-QAD, mô hình tạo video sử dụng kỹ thuật chưng cất nhận thức lượng tử, cho phép tạo video 480P siêu tốc trên phần cứng tiêu dùng.
Tạo videoFastWanMã nguồn mởRTX 5090AI tạo sinh
💡 Lý do đề xuất: Bước tiến đột phá về tốc độ tạo video trên phần cứng cá nhân, có tính ứng dụng thực tiễn cao và đã mở mã nguồn cho cộng đồng.
23/06
Hacker News Nổi bật(buzzing.cc bản dịch tiếng Trung)
Nổi bật🔥 Nổi bật 70
Unlimited OCR: Giải pháp phân tích văn bản dài trong một lần xử lý
Unlimited OCR là dự án mã nguồn mở từ Baidu, cho phép xử lý OCR trên các tài liệu có thời lượng hoặc độ dài lớn chỉ trong một lần phân tích duy nhất.
OCRĐa phương thứcMã nguồn mởBaiduXử lý tài liệu
💡 Lý do đề xuất: Đây là công cụ hữu ích cho việc xử lý tài liệu dài, giải quyết bài toán hiệu suất trong OCR. Dự án từ Baidu có tính ứng dụng cao cho cộng đồng lập trình viên.
19/06
X:Elvis Saravia (@omarsar0, DAIR.AI)
Nổi bật🔥 Nổi bật 75
Biến video YouTube thành tài liệu Artifacts với công cụ /youtube-notetaker
Khám phá cách sử dụng kỹ năng /youtube-notetaker để tự động trích xuất slide, ghi chú và nội dung chuyển ngữ từ video YouTube thành định dạng Artifacts tiện lợi.
YouTubeGhi chúNăng suấtCông cụ AITự động hóa
💡 Lý do đề xuất: Công cụ cực kỳ hữu ích cho người học và làm việc, giúp tiết kiệm thời gian tóm tắt nội dung video dài một cách trực quan và hiệu quả.
18/06
The Decoder:AI News(RSS)
Nổi bật🔥 Nổi bật 72
Adobe tích hợp AI Agent vào Photoshop, Premiere và hệ sinh thái Creative Cloud
Adobe ra mắt AI Assistant dưới dạng thử nghiệm, cho phép tự động hóa các tác vụ phức tạp như biên tập video, xử lý ảnh và dàn trang. Công cụ này cũng mở rộng khả năng tích hợp sâu với các nền tảng như ChatGPT, Claude và Microsoft 365.
AdobeAI AgentSáng tạoTự động hóaCreative Cloud
💡 Lý do đề xuất: Tin tức quan trọng về việc ứng dụng AI Agent vào quy trình làm việc chuyên nghiệp, tác động trực tiếp đến cộng đồng sáng tạo và người dùng Adobe.
HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)
Nổi bật🔥 Nổi bật 75
HumanScale: Dùng video góc nhìn thứ nhất của con người để huấn luyện robot hiệu quả hơn dữ liệu thực tế
Nghiên cứu chứng minh việc tận dụng video góc nhìn thứ nhất của con người giúp mô hình robot cải thiện 52.5% tỷ lệ thành công trong các tác vụ quen thuộc và 90% với tác vụ mới, mở ra hướng đi mới cho việc mở rộng quy mô dữ liệu huấn luyện robot.
Robot hiện thânRobotHọc máyDữ liệu huấn luyệnAI
17/06
X:Baoyu (@dotey)
Nổi bật🔥 Nổi bật 75
Baoyu-design cập nhật tính năng xuất video hoạt họa chất lượng cao
Công cụ baoyu-design vừa bổ sung tính năng xuất video hoạt họa dựa trên cơ chế render từng khung hình qua Chromium và ffmpeg, đảm bảo độ chính xác tuyệt đối cho các chuyển động phức tạp.
Công cụ thiết kếMã nguồn mởVideoTự động hóa
💡 Lý do đề xuất: Giải pháp kỹ thuật thông minh cho việc xuất video từ web-based design, có tính ứng dụng cao cho người dùng chuyên nghiệp và cộng đồng mã nguồn mở.
16/06
IT Home(RSS)
Nổi bật🔥 Nổi bật 70
ByteDance ra mắt Seedance 2.0 Mini: Tạo video AI nhanh gấp đôi với chi phí giảm một nửa
ByteDance vừa giới thiệu mô hình tạo video Seedance 2.0 Mini với tốc độ nhanh gấp đôi và chi phí vận hành giảm 50% so với bản tiêu chuẩn, hướng tới các tác vụ sản xuất nội dung thương mại điện tử và marketing quy mô lớn.
ByteDanceAI tạo videoSeedanceTối ưu chi phíCông nghệ AI
💡 Lý do đề xuất: Tin tức quan trọng về tối ưu hóa chi phí trong AI tạo video, có tính ứng dụng cao cho doanh nghiệp và người sáng tạo nội dung tại Việt Nam.
IT Home(RSS)
Nổi bật🔥 Nổi bật 73
Lý do Apple trì hoãn AI Siri: Quyết định đập đi xây lại từ đầu
Giám đốc dự án tiết lộ Apple từng có phiên bản Siri nâng cấp nhẹ, nhưng đã quyết định hủy bỏ để tái cấu trúc hoàn toàn dựa trên mô hình ngôn ngữ lớn, nhằm đảm bảo trải nghiệm đa phương thức đồng nhất trên toàn bộ hệ sinh thái.
AppleSiriAICông nghệPhát triển sản phẩm
💡 Lý do đề xuất: Thông tin nội bộ từ Apple về quá trình phát triển Siri mới rất có giá trị, giải thích rõ lý do chậm trễ và tầm nhìn chiến lược của hãng trong cuộc đua AI.
TechCrunch:AI(RSS)
Nổi bật🔥 Nổi bật 71
Meta ra mắt 'AI Mode' trên Facebook: Tổng hợp thông tin từ bài đăng công khai
Meta tích hợp 'AI Mode' vào Facebook, cho phép người dùng truy vấn thông tin từ các bài đăng công khai, đồng thời bổ sung loạt tính năng chỉnh sửa ảnh và video bằng AI đầy thú vị.
MetaFacebookAISáng tạo nội dungCông nghệ
💡 Lý do đề xuất: Tính năng mới giúp tối ưu hóa trải nghiệm tìm kiếm và sáng tạo nội dung trên mạng xã hội, có tính ứng dụng cao cho người dùng phổ thông.
12/06
X:MiniMax (@MiniMax_AI)
Nổi bật⚡️ Đề xuất 81
MiniMax ra mắt mô hình mã nguồn mở M3: 428B tham số, hỗ trợ cửa sổ ngữ cảnh 1 triệu token
MiniMax vừa công bố mô hình M3 với 428 tỷ tham số (23 tỷ kích hoạt), tích hợp khả năng đa phương thức và xử lý ngữ cảnh lên tới 1 triệu token. Đây là bước tiến lớn trong lĩnh vực lập trình và tác vụ thông minh, với bộ trọng số và báo cáo kỹ thuật sẽ sớm được công khai.
MiniMaxMô hình ngôn ngữMã nguồn mởĐa phương thứcAI
💡 Lý do đề xuất: Đây là tin tức quan trọng về một mô hình mã nguồn mở quy mô lớn từ đơn vị hàng đầu, có tác động trực tiếp đến cộng đồng phát triển AI và khả năng xử lý ngữ cảnh dài.
X:Logan Kilpatrick (@OfficialLoganK)
Nổi bật⚡️ Đề xuất 81
Gemini Omni Flash đạt chuẩn SATA trong tạo video và chỉnh sửa video
Logan Kilpatrick từ Google xác nhận Gemini Omni Flash đã đạt hiệu suất SATA trong các tác vụ chuyển đổi hình ảnh/văn bản sang video và chỉnh sửa video, chuẩn bị ra mắt API cho nhà phát triển.
GoogleGeminiTạo videoĐa phương thứcAPI
💡 Lý do đề xuất: Đây là bước tiến quan trọng về khả năng đa phương thức của Google, mở ra tiềm năng lớn cho các nhà phát triển ứng dụng sáng tạo nội dung.
11/06
HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)
Nổi bật🔥 Nổi bật 73
HYDRA-X: Mô hình đa phương thức hợp nhất với bộ phân tách hình ảnh toàn diện
HYDRA-X là mô hình đầu tiên hợp nhất quá trình xử lý ảnh và video trong một Vision Transformer duy nhất, giúp tối ưu hóa khả năng hiểu và tạo nội dung đa phương thức với hiệu suất vượt trội.
Đa phương thứcThị giác máy tínhNghiên cứu AIVideo AIMô hình ngôn ngữ
💡 Lý do đề xuất: Đây là bước tiến quan trọng trong kiến trúc đa phương thức, giải quyết bài toán hợp nhất xử lý ảnh và video hiệu quả, rất đáng chú ý cho giới nghiên cứu AI.
10/06
HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)
Nổi bật🔥 Nổi bật 70
Kwai Keye-VL-2.0: Mô hình đa phương thức mã nguồn mở xử lý video dài 256K
Kwai Keye-VL-2.0 là mô hình MoE đa phương thức mới, ứng dụng DeepSeek Sparse Attention để xử lý video dài hàng giờ với ngữ cảnh 256K mà không mất dữ liệu, tối ưu hóa hiệu suất cho các tác vụ thông minh.
AIVideoAIMoEDeepSeekMultimodal
💡 Lý do đề xuất: Đây là bước tiến kỹ thuật quan trọng trong xử lý video dài (long-video) bằng kiến trúc MoE và DSA, có tính ứng dụng cao cho các hệ thống AI phân tích video quy mô lớn.
HuggingFace Daily Papers (Nổi bậtBài nghiên cứu)
Nổi bật🔥 Nổi bật 73
Flow-DPPO: Tối ưu hóa mô hình Flow Matching bằng ràng buộc phân kỳ thay vì cắt tỉa tỷ lệ
Flow-DPPO cải tiến việc huấn luyện mô hình sinh ảnh/video bằng cách thay thế kỹ thuật cắt tỉa tỷ lệ (ratio clipping) bằng ràng buộc phân kỳ KL, giúp ổn định quá trình học tăng cường cho các mô hình Flow Matching.
Flow MatchingHọc tăng cườngGenerative AINghiên cứu AITối ưu hóa
💡 Lý do đề xuất: Giải quyết vấn đề kỹ thuật quan trọng trong huấn luyện mô hình sinh (generative models). Phương pháp mới có cơ sở toán học rõ ràng, hữu ích cho cộng đồng nghiên cứu AI tại Việt Nam.
09/06
Luma
Nổi bật⚡️ Đề xuất 78
Luma AI ra mắt Ray 3.2 API: Đưa công nghệ render chuẩn điện ảnh vào ứng dụng của bạn
Luma AI vừa phát hành Ray 3.2 API, cho phép các nhà phát triển và doanh nghiệp tích hợp khả năng render video chất lượng điện ảnh trực tiếp vào sản phẩm của mình.
Cập nhật sản phẩmVideo
💡 Lý do đề xuất: Đây là bản cập nhật quan trọng cho các nhà phát triển muốn ứng dụng AI tạo video chất lượng cao vào quy trình sản xuất thực tế, có tính ứng dụng thương mại rất cao.
Tencent Hy
Nổi bật🔥 Nổi bật 67
Tencent Hunyuan ra mắt UniRL: Hạ tầng học tăng cường thống nhất cho mô hình đa phương thức
Tencent giới thiệu UniRL, hạ tầng học tăng cường (RL) hỗ trợ đa dạng mô hình từ LLM, VLM đến mô hình khuếch tán. Với hai thuật toán mới DRPO và Flow-DPPO, UniRL giúp tối ưu hóa quy trình huấn luyện hậu kỳ thông qua kiến trúc linh hoạt và mã nguồn mở.
Bài nghiên cứu/Nghiên cứuTriển khai và kỹ thuật
💡 Lý do đề xuất: Đây là bước tiến kỹ thuật quan trọng giúp chuẩn hóa quy trình huấn luyện RL cho nhiều loại mô hình khác nhau, có giá trị thực tiễn cao cho cộng đồng nghiên cứu AI.
06/06
Michael Truell
Nổi bật⚡️ Đề xuất 80
Tương tác với AI Agent nên tự nhiên như làm việc cùng đồng nghiệp
Michael Truell cho rằng tương tác với AI không nên chỉ dừng lại ở văn bản, mà cần tiến tới giao tiếp đa phương thức như trò chuyện trực tiếp và thao tác chung trên màn hình.
Tác tử AICập nhật sản phẩmLập trình
💡 Lý do đề xuất: Tầm nhìn về tương lai của AI Agent rất thực tế, tập trung vào trải nghiệm người dùng và tính cộng tác, phù hợp với xu hướng phát triển đa phương thức hiện nay.