Pipeline trích xuất
TKHQ kết hợp OCR + LLM + rule-based validator để đọc chứng từ hải quan. Pipeline gồm 4 bước:
- Pre-process — auto-rotate, deskew, denoise PDF/ảnh scan
- OCR layout-aware — nhận biết bảng, multi-column
- LLM extract — parse field tên hàng, HS code, trị giá, đơn vị tính
- Validator — cross-check tổng số lượng, đơn giá, trị giá khớp
Độ chính xác trên dataset thực tế
Trên 50.000 chứng từ thật từ pilot:
- Invoice chuẩn (digital PDF): 98.2% accuracy
- Packing list: 96.5% accuracy
- B/L bản scan: 93.1% accuracy
- CO form D/E/AK: 94.7% accuracy
Xử lý chứng từ kém chất lượng
Trường hợp scan mờ hoặc chữ viết tay, hệ thống highlight ô cần review thay vì auto-fill sai. Khai báo viên kiểm tra thủ công trong giao diện side-by-side với ảnh gốc.
Bảo mật dữ liệu
Mọi chứng từ được mã hoá AES-256, lưu trữ trên cloud Vietnam, không dùng để train mô hình global. Chỉ dữ liệu đã anonymize được dùng cho fine-tuning nội bộ.