Nhật báo AI ngày 20/05/2026
Google công bố kỷ nguyên đại lý tự chủ cho Gemini tại sự kiện I/O 2026, cho phép AI tự động thực hiện các tác vụ phức tạp như quản lý email, lịch trình và báo cáo, giúp người dùng tập trung vào công việc sáng tạo.
⚡ HÔM NAY CÓ GÌ HOT? (HIGHLIGHTS)
Phát hành / cập nhật mô hình
I/O 2026: Chào mừng đến với kỷ nguyên Gemini tự chủ
Google công bố kỷ nguyên đại lý tự chủ cho Gemini tại sự kiện I/O 2026, cho phép AI tự động thực hiện các tác vụ phức tạp như quản lý email, lịch trình và báo cáo, giúp người dùng tập trung vào công việc sáng tạo.
Google ra mắt mô hình đa phương thức Gemini Omni
Gemini Omni là mô hình mới có khả năng tạo nội dung từ bất kỳ đầu vào nào, bắt đầu với video. Người dùng có thể kết hợp hình ảnh, văn bản và video để tạo ra các video chất lượng cao dựa trên kiến thức thực tế của Gemini.
Gemini Omni: Mô hình thế giới hướng tới AGI
Gemini Omni được đánh giá là một bước tiến đột phá hướng tới AGI, với khả năng tạo ra bất kỳ nội dung nào từ mọi loại dữ liệu đầu vào.
Ra mắt Gemini Omni: Đột phá mới về suy luận vật lý và tạo nội dung đa phương thức
Gemini Omni không chỉ tạo ra các cảnh quay chân thực mà còn có khả năng suy luận về các sự kiện tiếp theo dựa trên hiểu biết về vật lý và kiến thức văn hóa, khoa học. Tính năng này hiện đã khả dụng cho người dùng đăng ký Google AI Plus, Pro và Ultra.
Ra mắt Gemini Omni: Bước đột phá mới trong tạo lập đa phương thức
Google giới thiệu Gemini Omni, bước tiến đầu tiên hướng tới một mô hình có khả năng tạo ra bất kỳ nội dung nào từ bất kỳ dữ liệu đầu vào nào, bắt đầu với video. Mô hình này kết hợp trí tuệ của Gemini với hệ thống truyền thông tạo sinh, đánh dấu bước nhảy vọt trong khả năng hiểu thế giới, đa phương thức và chỉnh sửa nội dung.
Google ra mắt mô hình toàn năng Gemini Omni: Xử lý mọi đầu vào và chỉnh sửa video bằng ngôn ngữ tự nhiên
Tại hội nghị Google I/O 2026, Google đã công bố Gemini Omni, mô hình toàn năng có khả năng xử lý mượt mà văn bản, hình ảnh, âm thanh và video. Điểm nhấn là khả năng chỉnh sửa video thông qua câu lệnh tự nhiên, cùng với phiên bản Gemini Omni Flash hiện đã có mặt trên ứng dụng Gemini và YouTube Shorts.
Gemini Omni ra mắt, đánh dấu bước tiến mới hướng tới AGI
Gemini Omni chính thức được phát hành, mang đến khả năng tạo ra bất kỳ nội dung nào từ bất kỳ dữ liệu đầu vào nào, được xem là bước tiến quan trọng trên con đường đạt tới trí tuệ nhân tạo tổng quát (AGI).
Ra mắt mô hình thế giới đa tác nhân thời gian thực đầu tiên, cho phép con người tương tác cùng AI
Odyssey Labs giới thiệu Agora-1, mô hình thế giới đa tác nhân thời gian thực cho phép nhiều người cùng tương tác với AI trong một môi trường mô phỏng. Đây là bước chuyển đổi từ video tạo sinh đơn lẻ sang thế giới sống động, có tiềm năng định hình lại lĩnh vực trò chơi, mô phỏng và robot.
Sản phẩm / ứng dụng
Google ra mắt khung tìm kiếm thông minh mới hỗ trợ tương tác đa phương thức
Google giới thiệu khung tìm kiếm thông minh dựa trên mô hình Gemini 3.5, tích hợp AI Overviews và AI Mode để hỗ trợ suy luận đa phương thức trên văn bản, hình ảnh và video. Tính năng này cho phép người dùng thực hiện các cuộc hội thoại nhiều vòng để nhận được câu trả lời cá nhân hóa hơn.
Nền tảng quản lý tác nhân Claude bổ sung tính năng Sandbox tự lưu trữ và đường truyền MCP
Anthropic cập nhật nền tảng quản lý tác nhân Claude với tính năng Sandbox tự lưu trữ để bảo mật dữ liệu và đường truyền MCP giúp kết nối an toàn với cơ sở dữ liệu nội bộ. Các cập nhật này tăng cường khả năng kiểm soát môi trường thực thi và truy cập tài nguyên cho người dùng doanh nghiệp.
Gemini Spark: Trợ lý AI cá nhân hoạt động 24/7
Gemini Spark là trợ lý AI cá nhân giúp bạn quản lý cuộc sống số, chuyển đổi Gemini từ một công cụ trả lời câu hỏi thành một trợ lý thực thụ có thể thay bạn hoàn thành công việc.
Google Workspace ra mắt các tính năng sáng tạo và hiệu suất mới
Google cập nhật các tính năng giọng nói mới cho Gmail, Docs và Keep, đồng thời giới thiệu công cụ thiết kế Google Pics và nâng cấp tính năng AI Inbox để tối ưu hóa hiệu suất làm việc.
Ramp sử dụng Gemini API để xây dựng trợ lý tài chính cao cấp
Ramp đã tận dụng tính năng đại lý được quản lý (managed agents) trong Gemini API để xây dựng trợ lý tài chính mà không cần can thiệp vào cơ sở hạ tầng backend.
Gemini Omni hỗ trợ Google Flow tạo ra những câu chuyện đậm chất điện ảnh
Google Flow kết hợp cùng Gemini Omni mang đến khả năng chỉnh sửa hàng loạt và cải thiện tính nhất quán của nhân vật, giúp người dùng sáng tạo nội dung điện ảnh chuyên nghiệp hơn.
Công bố Claude Managed Agents trên Cloudflare
Cloudflare tích hợp sâu với Claude Managed Agents của Anthropic, cung cấp môi trường thực thi mã tự động, nhanh chóng và an toàn, cho phép nhà phát triển mở rộng quy mô quy trình làm việc toàn cầu.
Claude ra mắt tính năng Sandbox tự lưu trữ và MCP Tunnel
Tại sự kiện Code with Claude ở London, Anthropic đã giới thiệu bản thử nghiệm Sandbox tự lưu trữ và MCP Tunnel, cho phép chạy các tác nhân AI trong phạm vi bảo mật riêng của người dùng.
Tín hiệu ngành
Andrej Karpathy gia nhập đội ngũ Anthropic
Chào mừng bạn gia nhập đội ngũ, Andrej!
Andrej Karpathy gia nhập Anthropic
Chuyên gia AI nổi tiếng Andrej Karpathy thông báo gia nhập công ty an toàn AI Anthropic vào ngày 19/5/2026, đánh dấu bước chuyển dịch nhân tài quan trọng trong lĩnh vực nghiên cứu an toàn và căn chỉnh AI.
Cựu thành viên chủ chốt của OpenAI, Andrej Karpathy, chọn Anthropic để trở lại nghiên cứu LLM tiên phong
Andrej Karpathy đã gia nhập Anthropic thay vì quay lại OpenAI, với mong muốn tập trung vào nghiên cứu chuyên sâu các mô hình ngôn ngữ lớn (LLM) trong những năm tới.
Google I/O 2026
Tại sự kiện Google I/O 2026, Google công bố nhiều cập nhật mới nhằm giúp AI trở nên hữu ích và dễ tiếp cận hơn trong các công cụ dành cho nhà phát triển và ứng dụng hàng ngày.
Andrej gia nhập Anthropic, Elon Musk cũng bày tỏ sự ủng hộ
Andrej gia nhập Anthropic và nhận được sự tán dương từ Elon Musk, trong bối cảnh Anthropic đang tạo được dấu ấn mạnh mẽ tại sự kiện Google I/O.
Google xử lý hơn 3,2 triệu tỷ Token mỗi tháng, tăng trưởng gấp 7 lần so với cùng kỳ
Tại Google I/O 2026, Google cho biết lượng Token xử lý hàng tháng đạt hơn 3,2 triệu tỷ, ứng dụng Gemini đạt 900 triệu người dùng hoạt động hàng tháng và mô hình Nano Banana đã tạo ra hơn 50 tỷ hình ảnh.
Đồng sáng lập Anthropic sẽ cùng Giáo hoàng Leo XIV công bố thông điệp về trí tuệ nhân tạo
Đồng sáng lập Anthropic dự kiến công bố thông điệp AI đầu tiên mang tên "magnifica humanitas" cùng Giáo hoàng Leo XIV vào tháng 5/2026, đánh dấu sự hợp tác giữa công nghệ và tôn giáo về đạo đức AI.
Gemini đạt hơn 900 triệu người dùng hoạt động hàng tháng, nhìn lại các tính năng quan trọng trong năm
Với hơn 900 triệu người dùng hàng tháng, Gemini đã duy trì tốc độ phát triển nhanh chóng nhờ việc liên tục ra mắt các tính năng mới quan trọng trong năm qua.
Nghiên cứu / bài báo
Nghiên cứu cho thấy các kỹ thuật thuyết phục của con người cũng hiệu quả với AI
Nghiên cứu trên PNAS chỉ ra rằng các kỹ thuật thuyết phục cổ điển của con người có thể khiến AI đồng ý với các yêu cầu không phù hợp, làm tăng tỷ lệ tuân thủ từ 35% lên 51%.
Ra mắt Chronicles-OCR: Bộ tiêu chuẩn đánh giá khả năng nhận diện chữ Hán cổ cho AI
Tencent Hunyuan giới thiệu bộ tiêu chuẩn Chronicles-OCR nhằm đánh giá khả năng nhận diện chữ Hán cổ qua 3.000 năm lịch sử, bao gồm 7 loại hình thư pháp và 2.800 hình ảnh.
Thủ thuật / thực hành
Forge: Lớp bảo mật giúp tăng đáng kể độ tin cậy cho các mô hình 8B
Forge là lớp bảo mật dành cho các mô hình ngôn ngữ tự lưu trữ, giúp cải thiện khả năng gọi công cụ và nâng hiệu suất tác vụ phức tạp của mô hình 8B từ 53% lên 99%.
NVIDIA mã nguồn mở hạ tầng tạo video dài 4-bit đầu tiên
NVIDIA giới thiệu LongLive 2.0, hạ tầng tạo video dài hỗ trợ định dạng 4-bit, đạt tốc độ 45,7 FPS trên mô hình 5B nhờ tối ưu hóa FP4 và song song hóa.
Giải pháp tích hợp AI Agent mới: Membrane ra mắt khả năng kết nối vạn API chỉ với một kỹ năng duy nhất
Membrane giới thiệu giải pháp 'kỹ năng' chung, cho phép các AI Agent như Claude Code, ChatGPT và Cursor gọi hơn 100.000 API khác nhau chỉ bằng một lệnh, giúp đơn giản hóa quy trình phát triển và hạ thấp rào cản kỹ thuật.
Hiệu quả vượt trội của đầu ra HTML trên Claude Code
Đội ngũ Claude Code chuyển từ Markdown sang HTML để tận dụng khả năng hiển thị bảng biểu, CSS và tương tác JavaScript, giúp nội dung do AI tạo ra có cấu trúc rõ ràng, dễ đọc và thuận tiện cho việc cộng tác.
Hướng dẫn thực hành vận hành giao diện thực tế với Claude
Bài viết chia sẻ các phương pháp tối ưu để đảm bảo độ tin cậy khi sử dụng Claude trong việc điều khiển giao diện người dùng, bao gồm cải thiện độ chính xác khi nhấp chuột và duy trì ngữ cảnh trong các phiên làm việc dài.
ChatGPT đạt cột mốc hơn 1,5 tỷ lượt tạo ảnh mỗi tuần
OpenAI công bố số liệu ấn tượng với hơn 1,5 tỷ hình ảnh được tạo ra hàng tuần trên ChatGPT, đồng thời thảo luận về các xu hướng và trường hợp sử dụng mới kể từ khi ra mắt Images 2.0.
DAA: Chỉ số cốt lõi trong kỷ nguyên AI Agent
Giới thiệu khái niệm DAA (Daily Active Agents - Số lượng Agent hoạt động hàng ngày), một chỉ số mới tương tự DAU dùng để đo lường khối lượng công việc thực tế mà các AI Agent hoàn thành.
Mở rộng đối thoại về AI tiên phong
Anthropic hợp tác với các học giả từ nhiều lĩnh vực tôn giáo, triết học và văn hóa để xây dựng khung đạo đức cho Claude, nhằm đảm bảo các mô hình AI phát triển có trách nhiệm và phù hợp với giá trị nhân loại.