Mô hình · NVIDIA Technical Blog (Blog - RSS)
NVIDIA DSX: Hệ điều hành mở, mô-đun hóa giúp vận hành các 'nhà máy AI' quy mô lớn
NVIDIA DSX cung cấp giải pháp phần mềm toàn diện giúp tối ưu hóa từ hạ tầng, chip đến ứng dụng, hỗ trợ các doanh nghiệp mở rộng quy mô và giảm chi phí vận hành cho các nhà máy AI.
Tóm tắt
NVIDIA DSX cung cấp giải pháp phần mềm toàn diện giúp tối ưu hóa từ hạ tầng, chip đến ứng dụng, hỗ trợ các doanh nghiệp mở rộng quy mô và giảm chi phí vận hành cho các nhà máy AI.
Vì sao đáng chú ý
Đây là thông tin quan trọng về hạ tầng AI từ NVIDIA, ảnh hưởng trực tiếp đến cách các doanh nghiệp lớn xây dựng và quản lý trung tâm dữ liệu AI hiện nay.
Nội dung dịch chi tiết
AI hiện đã trở thành cơ sở hạ tầng thiết yếu, được vận hành bởi các 'nhà máy AI' tạo ra trí tuệ dưới dạng token. Để đáp ứng nhu cầu ngày càng tăng, các nhà máy này cần mở rộng nhanh hơn, vận hành hiệu quả hơn và giảm chi phí trên toàn bộ hệ thống từ năng lượng, chip, cơ sở hạ tầng đến mô hình và ứng dụng.
Nền tảng NVIDIA DSX cung cấp giải pháp toàn diện để thiết kế, mô phỏng và vận hành các nhà máy AI. Mới đây, NVIDIA đã bổ sung DSX OS, bộ phần mềm nguồn mở và mô-đun hóa được thiết kế riêng để quản lý các nhà máy AI đa người thuê (multi-tenant). DSX OS giúp cải thiện hiệu suất token trên mỗi watt, giảm chi phí và tăng cường độ tin cậy cho toàn bộ hệ sinh thái.
DSX OS giải quyết các thách thức vận hành phức tạp bằng cách phối hợp nhịp nhàng giữa chip, hệ thống, cơ sở hạ tầng cơ sở vật chất (làm mát, điện) và các nền tảng AI. Nhờ đó, các nhà máy AI có thể đạt được ba mục tiêu chính: rút ngắn thời gian tạo doanh thu, tối ưu hóa năng lượng (giúp chạy thêm tới 40% GPU trong cùng ngân sách điện năng) và tăng cường độ tin cậy thông qua tự động hóa thay vì cảnh báo thủ công.
Các thành phần cốt lõi của DSX OS bao gồm: DSX Exchange (cầu nối giao tiếp IT/OT dựa trên MQTT), DSX MaxLPS (quản lý năng lượng lập trình được), NVIDIA Infra Controller (quản lý vòng đời phần cứng), và NVIDIA NVSentinel (phát hiện lỗi GPU tự động). Các công cụ này cho phép các tác nhân AI (AI agents) khám phá toàn bộ bề mặt vận hành của nhà máy như một danh mục công cụ thống nhất.
Ngoài ra, DSX OS còn hỗ trợ lập lịch công việc thông minh thông qua KAI Scheduler và NVIDIA Run:ai, cùng các API suy luận phân tán như NVIDIA Dynamo và NVIDIA Cloud Functions. Các thành phần này hiện đã có sẵn trên GitHub, cho phép các đối tác và doanh nghiệp tích hợp dần dần vào hệ thống hiện có để tăng tốc triển khai nhà máy AI mà không cần xây dựng lại từ đầu.
Ý chính từ bài gốc
- DSX OS cung cấp bộ phần mềm nguồn mở, mô-đun hóa để vận hành và mở rộng các nhà máy AI quy mô gigawatt.
- Giúp tăng tới 40% số lượng GPU hoạt động trong cùng một ngân sách năng lượng nhờ tối ưu hóa quản lý điện năng.
- Chuyển đổi vận hành từ cảnh báo thủ công sang tự động hóa, giúp tăng độ tin cậy và khả năng phục hồi của hệ thống.
- Cung cấp giao tiếp IT/OT chuẩn hóa, cho phép các tác nhân AI phối hợp nhịp nhàng giữa phần cứng và cơ sở hạ tầng.
- Các thành phần của DSX OS đã có sẵn trên GitHub, hỗ trợ tích hợp linh hoạt vào các nền tảng hiện có.
Bài viết được AI dịch và tổng hợp tự động từ NVIDIA Technical Blog. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.