Mô hình · NVIDIA Technical Blog (Blog - RSS)

NVIDIA DGX Spark: Giải pháp chạy AI Agent cục bộ với hiệu suất cao và cụm đa nút

NVIDIA ra mắt DGX Spark, cho phép nhà phát triển vận hành các AI Agent cục bộ trên phần cứng riêng, loại bỏ phụ thuộc vào đám mây. Giải pháp này hỗ trợ các mô hình nhanh hơn và cụm đa nút, giúp tối ưu

Điểm 50Thời gian 05:01 · 02/06/2026

Tóm tắt

Vì sao đáng chú ý

Thông tin quan trọng từ NVIDIA về hạ tầng cho AI Agent, giải quyết trực tiếp nhu cầu về quyền riêng tư và hiệu suất cho các nhà phát triển chuyên nghiệp.

Nội dung dịch chi tiết

Sự trỗi dậy của các tác nhân AI tự chủ đòi hỏi khả năng xử lý cục bộ để đảm bảo quyền riêng tư và bảo mật. NVIDIA DGX Spark hiện cung cấp quy trình cài đặt NemoClaw mới, cho phép người dùng thiết lập môi trường chạy tác nhân AI chỉ trong vài phút. NemoClaw tích hợp sẵn các mô hình mở, khung tác nhân (như OpenClaw) và môi trường thực thi an toàn OpenShell.

Quy trình cài đặt được tối ưu hóa giúp người dùng nhanh chóng tiếp cận giao diện WebUI để tùy chỉnh tác nhân. Sau khi cài đặt, người dùng có thể triển khai ngay các tác nhân mẫu như: tóm tắt tin tức, hỗ trợ lập trình, đánh giá tài liệu hoặc quản lý lịch trình. Các tác nhân này hoạt động hoàn toàn cục bộ, giúp loại bỏ chi phí theo token và giữ dữ liệu nhạy cảm trên thiết bị.

Về hiệu suất, việc tối ưu hóa vLLM với các checkpoint định lượng NVFP4 và kỹ thuật MTP giúp mô hình Qwen3.6-35B đạt tốc độ suy luận nhanh hơn tới 2,6 lần. Đây là bước tiến quan trọng cho các ứng dụng đòi hỏi phản hồi thời gian thực.

Đối với nhu cầu mở rộng, NVIDIA Sync cung cấp trợ lý cụm tự động hóa việc kết nối từ 2 đến 4 thiết bị DGX Spark. Việc kết nối này cho phép tăng bộ nhớ hợp nhất lên tới 512 GB, hỗ trợ chạy các mô hình MoE lớn hoặc các quy trình tác nhân phức tạp. Trợ lý này tự động hóa các cấu hình mạng phức tạp như ConnectX-7, kiểm tra độ trễ và thiết lập SSH giữa các nút.

Ý chính từ bài gốc

Quy trình cài đặt NemoClaw mới giúp thiết lập tác nhân AI cục bộ trên DGX Spark chỉ trong vài phút.
Môi trường OpenShell cung cấp lớp bảo mật, quyền riêng tư và kiểm soát truy cập cho các tác nhân tự chủ.
Hiệu suất suy luận mô hình Qwen3.6-35B tăng 2,6 lần nhờ tối ưu hóa vLLM và kỹ thuật MTP.
Trợ lý cụm trong NVIDIA Sync tự động hóa cấu hình mạng để kết nối nhiều thiết bị DGX Spark.
Cụm đa nút cung cấp bộ nhớ hợp nhất lên tới 512 GB, hỗ trợ các mô hình AI quy mô lớn.

Mở bài gốc

Bài viết được AI dịch và tổng hợp tự động từ NVIDIA Technical Blog. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.

Tóm tắt

Vì sao đáng chú ý

Nội dung dịch chi tiết

Ý chính từ bài gốc

Bài liên quan