Nghiên cứu · meng shao
Xây dựng đồ thị tri thức tài chính từ tài liệu PDF: Quy trình thực tế
Dự án ArthaNethra ứng dụng quy trình tự động hóa từ trích xuất dữ liệu PDF, chuẩn hóa bằng LLM và lưu trữ vào Neo4j/Weaviate để xây dựng đồ thị tri thức tài chính, hỗ trợ phát hiện rủi ro hiệu quả.
Tóm tắt
Dự án ArthaNethra ứng dụng quy trình tự động hóa từ trích xuất dữ liệu PDF, chuẩn hóa bằng LLM và lưu trữ vào Neo4j/Weaviate để xây dựng đồ thị tri thức tài chính, hỗ trợ phát hiện rủi ro hiệu quả.
Vì sao đáng chú ý
Bài viết cung cấp quy trình kỹ thuật thực tế, rõ ràng cho bài toán RAG nâng cao và đồ thị tri thức, rất hữu ích cho các kỹ sư AI và chuyên gia dữ liệu.
Nội dung dịch chi tiết
Dự án ArthaNethra từ hackathon của LandingAI đã trình bày quy trình chuyển đổi tài liệu PDF thành đồ thị tri thức tài chính chuyên sâu. Sau khi tải lên, tài liệu được chuyển đổi thành định dạng Markdown có cấu trúc thông qua ADE. Đối với các tệp có dung lượng trên 15MB, hệ thống sẽ thực hiện xử lý bất đồng bộ.
Sau khi trích xuất, dữ liệu được định tuyến và chuẩn hóa dựa trên loại tài liệu. Đối với hóa đơn, khoản vay và hợp đồng, hệ thống sử dụng phương pháp phân tích xác định (không dùng LLM). Đối với các báo cáo 10-K hoặc MD&A, hệ thống kết hợp mô hình Claude Haiku với các biểu thức chính quy (regex).
Các thực thể và mối quan hệ được lưu trữ lần lượt trong Weaviate và Neo4j. Dữ liệu được chia nhỏ thành các đoạn 500 từ với độ chồng lấp 100 từ, sau đó được vector hóa bằng mô hình all-mpnet-base-v2.
Đồ thị tri thức này bao gồm 10 loại thực thể và 26 mối quan hệ chuẩn hóa. Hệ thống cũng thực hiện chuẩn hóa từ đồng nghĩa thông qua ánh xạ bí danh. Cuối cùng, quy trình kết hợp giữa các quy tắc logic và LLM để thực hiện kiểm tra và phát hiện rủi ro tài chính.
Ý chính từ bài gốc
- Sử dụng ADE để chuyển đổi PDF sang Markdown có cấu trúc.
- Phân loại xử lý: dùng phương pháp xác định cho hợp đồng và LLM cho báo cáo tài chính.
- Lưu trữ thực thể và quan hệ trong Weaviate và Neo4j.
- Áp dụng kỹ thuật chia nhỏ văn bản (chunking) và vector hóa để tối ưu hóa dữ liệu.
- Chuẩn hóa thực thể thông qua ánh xạ bí danh và phát hiện rủi ro bằng quy tắc kết hợp LLM.
Bài viết được AI dịch và tổng hợp tự động từ X/Twitter. Liên kết bài gốc ở phía trên. AIHOT.vn luôn dẫn nguồn đầy đủ — nếu bạn thấy điểm cần chỉnh sửa, hãy gửi ý kiến tại trang phản hồi.