← Quay lại dòng tin

Mô hình · Hacker News Nổi bật (buzzing.cc bản dịch tiếng Trung)

Fable ra mắt Splat4D: Định dạng đột phá cho video 3D Gaussian Splatting

Splat4D là định dạng 3D động cho phép truyền tải video Gaussian Splatting qua HTTP với độ trễ cực thấp. Công nghệ này tối ưu hóa lưu trữ và hỗ trợ phát trực tuyến 60fps trên trình duyệt mà không cần m

Điểm 68Thời gian

Lý do đề xuất

Công nghệ đột phá giúp giải quyết bài toán truyền tải nội dung 3D thời gian thực, có tính ứng dụng cao trong phát triển web và thực tế ảo.

Tóm tắt

Splat4D là định dạng 3D động cho phép truyền tải video Gaussian Splatting qua HTTP với độ trễ cực thấp. Công nghệ này tối ưu hóa lưu trữ và hỗ trợ phát trực tuyến 60fps trên trình duyệt mà không cần máy chủ phức tạp.

Bản dịch AI

.splat4d là một định dạng tối ưu cho dữ liệu Gaussian Splat 4D, cho phép truyền phát và tìm kiếm nội dung trực tiếp qua các yêu cầu HTTP Range tiêu chuẩn. Định dạng này nhỏ hơn 16–58 lần so với dữ liệu thô và 14–20 lần so với nén gzip, với tốc độ mã hóa đạt khoảng 640 MB/s.

Cơ chế hoạt động dựa trên việc phân loại các splat tĩnh và động. Các splat tĩnh (phần nền không thay đổi) chỉ được lưu trữ một lần, giúp tiết kiệm đáng kể dung lượng. Đối với các splat động, hệ thống sử dụng cơ chế "deadband hold" để chỉ cập nhật giá trị khi sai số vượt quá ngưỡng cho phép, giúp loại bỏ hiện tượng nhấp nháy do lượng tử hóa.

Cấu trúc tệp bao gồm phần tiêu đề chứa thông tin về giới hạn sai số và chỉ mục, phần dữ liệu tĩnh (static) để hiển thị khung hình đầu tiên, và các khối GOP (Group of Pictures) chứa dữ liệu động. Mỗi khối GOP có thể giải mã độc lập, cho phép người dùng tìm kiếm vị trí phát mà không cần tải toàn bộ tệp.

Độ chính xác được đảm bảo thông qua kỹ thuật lượng tử hóa có giới hạn sai số (tương tự SZ/ZFP). Mọi thuộc tính như vị trí, màu sắc, độ mờ và tỷ lệ đều nằm trong ngưỡng sai số do người dùng thiết lập. Điều này giúp các bộ giải mã Rust và JavaScript tái tạo các giá trị giống hệt nhau về mặt bit.

Định dạng này được thiết kế để hoạt động trực tiếp trên các dịch vụ lưu trữ đối tượng như S3, GCS hoặc R2 mà không cần logic máy chủ phức tạp. Chỉ cần cấu hình CORS cho phép tiêu đề Range, trình duyệt có thể tải dữ liệu theo từng phần, giúp hiển thị khung hình chính chỉ trong khoảng 100–150 ms.

Ý chính từ bài gốc

  • Giảm dung lượng từ 16–58 lần so với dữ liệu thô, hỗ trợ truyền phát trực tiếp qua HTTP Range.
  • Cơ chế lượng tử hóa có giới hạn sai số đảm bảo độ chính xác hình ảnh đồng nhất và xác định.
  • Cấu trúc tệp chia thành các khối GOP độc lập, cho phép tìm kiếm vị trí phát tức thì.
  • Tối ưu cho lưu trữ đối tượng (S3, GCS, R2) mà không cần máy chủ hoặc tệp manifest.
  • Sử dụng WebGPU để giải mã và hiển thị hiệu quả trên trình duyệt hiện đại.

Bài viết được AI dịch và tổng hợp tự động từ adamraudonis.github.io. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.