Chatbot RAG nghiệp vụ hải quan — Kiến trúc và độ tin cậy

TKHQ dùng kiến trúc RAG (Retrieval-Augmented Generation) cho chatbot nghiệp vụ hải quan — thay vì pure LLM — để mọi câu trả lời về HS code, thuế suất, và điều kiện C/O FTA đều có nguồn trích dẫn và cập nhật theo Thông tư hiện hành. LLM thuần (như GPT-4, Claude) trả lời tốt câu hỏi nghiệp vụ chung nhưng không đáng tin với các con số cụ thể — vì hai lý do: dữ liệu training cắt cut-off date không có Thông tư mới nhất, và mô hình có thể “hallucinate” số liệu. Đó là lý do kiến trúc RAG được chọn.

Vấn đề cần giải quyết

Khai báo viên thường có 3 nhóm câu hỏi:

HS code & thuế suất: “Máy lọc nước RO công suất 100L/giờ thuế nhập khẩu bao nhiêu từ Hàn Quốc?”
Chính sách FTA: “EVFTA áp dụng cho mã 8418.69 không? Điều kiện xuất xứ ra sao?”
Thủ tục: “Hàng nhập có nguồn gốc thực vật cần giấy phép gì theo TT 39?”

Trả lời sai một con số = doanh nghiệp truy thu, mất ưu đãi, hoặc bị phạt vi phạm. Yêu cầu: mọi câu trả lời phải có nguồn, kiểm chứng được, và cập nhật theo Thông tư mới nhất.

Kiến trúc RAG của TKHQ

User query
   |
   v
[Query rewrite] -> [Embed query] -> [Vector search]
                                          |
                              +-----------+-----------+
                              v           v           v
                       Biểu thuế    Thông tư      Tờ khai
                       (14K+ HS)    (TT 39, ...)  lịch sử
                              \           |           /
                               +----------+----------+
                                          v
                              [Re-rank by relevance]
                                          v
                              [LLM compose answer]
                                          v
                              [Trích nguồn + confidence]

Knowledge base

3 nguồn dữ liệu chính:

Biểu thuế nhập khẩu Việt Nam — 14.000+ dòng mã HS (4/6/8 số), thuế MFN + thuế ưu đãi hơn 15 FTA
Văn bản pháp lý — Thông tư 39/2018/TT-BTC, Nghị định 128/2020/NĐ-CP, công văn Tổng cục Hải quan
Tờ khai lịch sử anonymize — pattern phân loại HS code từ 50.000+ tờ khai thực tế

Mỗi chunk được embed bằng mô hình embedding tiếng Việt fine-tuned trên corpus pháp lý + thương mại.

Retrieval pipeline

Khi user hỏi, hệ thống:

Query rewrite — LLM mở rộng câu hỏi với từ khoá đồng nghĩa (ví dụ “máy lọc nước” → “máy lọc nước, máy lọc RO, water purifier, HS 8421”)
Hybrid search — kết hợp vector search (BM25 + semantic) để bắt cả khớp keyword và ý nghĩa
Re-rank — mô hình cross-encoder xếp lại top 20 → top 5 theo độ liên quan
Diversity filter — đảm bảo nguồn đa dạng (biểu thuế + thông tư + tiền lệ)

Generation với trích nguồn

LLM nhận top 5 chunk + câu hỏi gốc, sinh câu trả lời theo schema:

{
  "answer": "Máy lọc nước RO thuộc HS 8421.21, thuế MFN 5%...",
  "citations": [
    {
      "type": "tariff",
      "code": "8421.21",
      "source": "Biểu thuế 2026 - Chương 84"
    },
    { "type": "policy", "doc": "TT 39/2018", "article": "Điều 18" }
  ],
  "confidence": 0.92
}

UI render câu trả lời kèm inline citation — click để xem trực tiếp văn bản gốc. Khai báo viên verify trong 5 giây thay vì mở biểu thuế PDF.

Vì sao không dùng pure LLM

Three tests đo được trên dataset 500 câu hỏi nghiệp vụ:

Metric	Pure GPT-4	RAG TKHQ
Thuế suất chính xác	61%	94%
HS code chính xác	58%	89%
Trích dẫn văn bản đúng	12%	96%
Cập nhật theo TT mới	Không	Có

Pure LLM thường hallucinate số (đặc biệt thuế ưu đãi FTA), không trích được nguồn cụ thể, và không biết Thông tư sửa đổi sau cut-off.

Xử lý khi knowledge base không đủ

Trường hợp câu hỏi quá đặc thù (ví dụ tham vấn HS code cho lô hàng phức hợp), chatbot:

Không bịa — trả lời “Câu hỏi cần tham vấn cơ quan hải quan trực tiếp”
Đề xuất mẫu công văn tham vấn HS code
Connect to human — escalate sang đội nghiệp vụ TKHQ qua hotline

Nguyên tắc thiết kế: thà nói “tôi không chắc” còn hơn trả lời sai.

Cập nhật knowledge base

Đội nghiệp vụ TKHQ cập nhật trong 48 giờ khi có:

Công văn Tổng cục Hải quan
Thông tư sửa đổi biểu thuế / form C/O
Tiền lệ phân loại HS code từ tờ khai thực tế

Pipeline ingestion tự động re-index, không cần redeploy.

Bảo mật và privacy

Mọi conversation lưu theo organization, không lẫn giữa khách hàng. Câu hỏi không được dùng để train mô hình global. Bản Enterprise cho phép deploy LLM on-premise (Llama 3 70B fine-tuned) — dữ liệu không rời khỏi datacenter doanh nghiệp.

Tổng kết

RAG không phải kỹ thuật mới, nhưng áp dụng đúng vào nghiệp vụ hải quan Việt Nam đòi hỏi knowledge base sạch + pipeline retrieval phù hợp tiếng Việt + UX trích nguồn rõ ràng. TKHQ là kết quả 18 tháng iteration — từ pure LLM (sai 40%) đến RAG có trích nguồn (sai dưới 10%).

Trải nghiệm chatbot trong bản dùng thử miễn phí.