Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 65 trang
Dung lượng: 1 MB

Giới thiệu nội dung

Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu

Tác giả: Phí Mạnh Kiên

Lĩnh vực: Khoa học máy tính

Nội dung tài liệu:

Luận văn tập trung vào bài toán tìm kiếm thông tin, đặc biệt là trong lĩnh vực văn bản pháp quy. Nghiên cứu đề xuất và ứng dụng các kỹ thuật học sâu để biểu diễn văn bản, nhằm nâng cao hiệu quả tìm kiếm thông tin pháp luật. Luận văn trình bày tổng quan về bài toán tìm kiếm thông tin, các phương pháp biểu diễn văn bản truyền thống như TF-IDF, BM25, và các mô hình dựa trên chủ đề ẩn. Sau đó, đi sâu vào các kỹ thuật biểu diễn văn bản bằng mạng nơ-ron sâu, bao gồm mạng nơ-ron nhân tạo, mạng nơ-ron nhân chập (CNN), và cơ chế Attention. Chương thử nghiệm và đánh giá sẽ mô tả quá trình xây dựng bộ dữ liệu, triển khai hệ thống tìm kiếm sử dụng các phương pháp đã đề xuất, và so sánh hiệu quả với các phương pháp khác thông qua các chỉ số đánh giá như Recall và NDCG. Kết quả nghiên cứu đã được công bố tại hội nghị COLING 2020.

Mục lục chi tiết:

  • Lời cảm ơn
  • Mục lục
  • Danh mục bảng
  • Danh mục hình ảnh
  • Danh mục ký hiệu các chữ viết tắt
  • Mở đầu
  • Chương 1: Bài toán tìm kiếm thông tin và các phương pháp biểu diễn văn bản
    • 1.1. Bài toán tìm kiếm thông tin
      • 1.1.1. Tìm kiếm văn bản quy phạm pháp luật
      • 1.1.2. Hệ thống tìm kiếm và tìm kiếm thông tin
    • 1.2. Biểu diễn văn bản sử dụng từ khóa
      • 1.2.1. TF-IDF
      • 1.2.2. BM25
    • 1.3. Biểu diễn văn bản sử dụng chủ đề ẩn
      • 1.3.1. Khái niệm mô hình Latent Dirichlet Allocation (LDA)
      • 1.3.2. Tổng quan về mô hình sinh trong LDA
      • 1.3.3. Suy luận
    • 1.4. Biểu diễn văn bản sử dụng véc-tơ từ
      • 1.4.1. Giới thiệu
      • 1.4.2. Các bước thực hiện
    • 1.5. Biểu diễn văn bản sử dụng mạng nơ-ron sâu
      • 1.5.1. Giới thiệu về mạng nơ-ron nhân tạo
      • 1.5.2. Cấu trúc và mô hình của một nơ-ron nhân tạo
      • 1.5.3. Cấu tạo và phương thức làm việc của mạng nơ-ron
      • 1.5.4. Phân loại mạng nơ-ron
      • 1.5.5. Các mạng nơ-ron sâu
      • 1.5.6. Biểu diễn văn bản sử dụng mạng nơ-ron
    • 1.6. Kết luận chương
  • Chương 2: Ứng dụng biểu diễn văn bản bằng mạng nơ-ron sâu trong tìm kiếm văn bản pháp quy
    • 2.1. Ý tưởng
    • 2.2. Mô-đun Biểu diễn truy vấn
    • 2.3. Mô-đun Biểu diễn điều luật
    • 2.4. So khớp, tính độ liên quan
    • 2.5. Kết luận chương
  • Chương 3: Thử nghiệm và đánh giá
    • 3.1. Xây dựng tập dữ liệu văn bản pháp quy và câu hỏi
      • 3.1.1. Xây dựng tập dữ liệu văn bản pháp quy tiếng Việt
      • 3.1.2. Xây dựng tập câu hỏi và câu trả lời chuẩn
    • 3.2. Xây dựng hệ thống
      • 3.2.1. Tiền xử lý dữ liệu
      • 3.2.2. Xây dựng hệ thống tìm kiếm sử dụng phương pháp TF-IDF và BM25
      • 3.2.3. Xây dựng hệ thống tìm kiếm sử dụng phương pháp biểu diễn văn bản bằng mạng CNN kết hợp với cơ chế Attention
    • 3.3. Phương pháp đánh giá
      • 3.3.1. Recall
      • 3.3.2. NDCG
    • 3.4. Kết quả thực nghiệm
      • 3.4.1. Thực nghiệm so sánh hiệu quả của các phương pháp
      • 3.4.2. Thực nghiệm hiệu quả khi thay đổi các tham số
      • 3.4.3. Thực nghiệm kết hợp điểm của BM25 và NATR
      • 3.4.4. Hình ảnh hóa trọng số Attention
    • 3.5. Kết luận chương
  • Kết luận
  • Tài liệu tham khảo