← Quay lại dòng tin

Nghiên cứu · MarkTechPost

TinyFish ra mắt BigSet: Hệ thống đa tác tử mã nguồn mở tự động tạo dữ liệu từ mô tả văn bản

BigSet cho phép người dùng mô tả yêu cầu bằng ngôn ngữ tự nhiên, sau đó hệ thống sẽ điều phối các tác tử AI tìm kiếm web và tổng hợp thành bảng dữ liệu có cấu trúc theo thời gian thực.

Điểm 64Thời gian

Tóm tắt

BigSet cho phép người dùng mô tả yêu cầu bằng ngôn ngữ tự nhiên, sau đó hệ thống sẽ điều phối các tác tử AI tìm kiếm web và tổng hợp thành bảng dữ liệu có cấu trúc theo thời gian thực.

Vì sao đáng chú ý

Công cụ hữu ích cho việc thu thập dữ liệu, giải quyết bài toán tốn thời gian trong nghiên cứu và phân tích, tính ứng dụng thực tế cao.

Nội dung dịch chi tiết

Việc xây dựng tập dữ liệu từ web thường là một quy trình phức tạp, đòi hỏi phải thiết lập trình thu thập dữ liệu (scraper), thiết kế lược đồ và xử lý các thay đổi từ trang web nguồn. BigSet ra đời để giải quyết trực tiếp quy trình này bằng cách đóng vai trò là lớp trung gian giữa yêu cầu dữ liệu và bảng kết quả cuối cùng.

Người dùng chỉ cần nhập một câu mô tả, ví dụ: "Các công ty YC đang tuyển kỹ sư, kèm theo giai đoạn gọi vốn, địa điểm và số lượng vị trí tuyển dụng". Hệ thống sẽ tự động suy luận các cột cần thiết, điều phối các tác nhân để tìm kiếm thông tin trên web, loại bỏ dữ liệu trùng lặp và tạo ra tệp CSV hoặc XLSX có thể tải xuống. Quá trình này thường mất từ 2 đến 5 phút.

Kiến trúc của BigSet bao gồm hai tầng tác nhân thông minh. Đầu tiên, mô hình Claude Sonnet sẽ suy luận lược đồ dữ liệu. Sau đó, một tác nhân điều phối sử dụng TinyFish Search để xác định các thực thể phù hợp. Cuối cùng, các tác nhân con sẽ được triển khai song song để thu thập chi tiết cho từng hàng dữ liệu, với ngân sách giới hạn cho mỗi tác nhân để đảm bảo hiệu quả.

BigSet được thiết kế để tự lưu trữ (self-hosted) thông qua Docker. Hệ thống yêu cầu API từ TinyFish (để tìm kiếm và thu thập dữ liệu), OpenRouter (để chạy các mô hình LLM) và Clerk (để quản lý xác thực người dùng). Người dùng có thể thiết lập lịch làm mới tự động cho các tập dữ liệu, giúp bảng thông tin luôn được cập nhật mà không cần thao tác thủ công.

Công nghệ cốt lõi của BigSet bao gồm Next.js 16, Fastify, TypeScript và Convex. Hệ thống cũng cung cấp các tập dữ liệu mẫu như giá bán lẻ GPU hoặc giá của các mô hình AI tiên phong để người dùng có thể bắt đầu trải nghiệm ngay lập tức sau khi cài đặt.

Ý chính từ bài gốc

  • BigSet là hệ thống đa tác nhân mã nguồn mở giúp tạo tập dữ liệu có cấu trúc từ mô tả văn bản tự nhiên.
  • Hệ thống tự động suy luận lược đồ, tìm kiếm web, thu thập dữ liệu và xuất tệp CSV/XLSX.
  • Kiến trúc gồm các tác nhân chuyên biệt: suy luận lược đồ, điều phối tìm kiếm và các tác nhân con thu thập dữ liệu song song.
  • Hỗ trợ tính năng làm mới dữ liệu tự động theo lịch trình (từ 30 phút đến hàng tuần).
  • Yêu cầu tự lưu trữ thông qua Docker với các API từ TinyFish, OpenRouter và Clerk.

Bài viết được AI dịch và tổng hợp tự động từ MarkTechPost. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.