Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 79 trang
Dung lượng: 743 KB

Giới thiệu nội dung

Sử Dụng Mô Hình Ngôn Ngữ Bloom Filter Trong Cải Tiến Dịch Máy Thống Kê

Tác giả: Trần Tiến Thành

Lĩnh vực: Khoa học máy tính

Nội dung tài liệu:

Luận văn này tập trung nghiên cứu về mô hình ngôn ngữ (Language Model – LM) và ứng dụng của nó trong lĩnh vực xử lý ngôn ngữ tự nhiên, đặc biệt là trong dịch máy thống kê. Nghiên cứu đề cập đến các phương pháp xây dựng mô hình ngôn ngữ truyền thống như N-gram, cũng như các thuật toán làm mịn và các thước đo đánh giá hiệu quả của mô hình. Điểm nhấn của luận văn là việc nghiên cứu sâu về cấu trúc dữ liệu Bloom Filter và cách nó có thể được sử dụng để xây dựng mô hình ngôn ngữ hiệu quả hơn, đặc biệt là trong việc tiết kiệm không gian lưu trữ so với các mô hình truyền thống. Luận văn cũng trình bày về hệ thống dịch máy thống kê mã nguồn mở Moses và cách tích hợp mô hình ngôn ngữ Bloom Filter vào hệ thống này, cùng với các thử nghiệm và đánh giá kết quả.

Mục lục chi tiết:

  • MỞ ĐẦU
    • 1. Đặt vấn đề
    • 2. Đối tượng và phạm vi nghiên cứu
    • 3. Nhiệm vụ nghiên cứu
    • 4. Những nội dung nghiên cứu chính
  • NỘI DUNG
    • CHƯƠNG I: TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ VÀ MÔ HÌNH NGÔN NGỮ
      • 1.1 Dịch máy thống kê dựa trên cụm từ
        • 1.1.1 Dịch máy và dịch máy thống kê
        • 1.1.2 Dịch máy thống kê dựa trên cụm
      • 1.2 Mô hình ngôn ngữ
        • 1.2.1 N-gram
        • 1.2.2 Mô hình ngôn ngữ
        • 1.2.3 Huấn luyện mô hình ngôn ngữ
          • 1.2.3.1 Ước lượng cực đại hóa khả năng (Maximium Likelihood Estimation – MLE)
          • 1.2.3.2 Các phương pháp làm mịn
          • 1.2.3.2.1 Kneser-Ney
          • 1.2.3.2.2 Kneser-Ney cải tiến (Modified Kneser-Ney – MKN)
          • 1.2.3.2.3 Stupid Backoff
        • 1.3 Đánh giá mô hình ngôn ngữ
          • 1.3.1 Entropy – Độ đo thông tin
          • 1.3.2 Độ hỗn loạn thông tin (Perplexity)
          • 1.3.3 Tỉ lệ lỗi (Error rate)
        • 1.4 Đánh giá chất lượng dịch tự động dựa trên điểm BLEU
    • CHƯƠNG 2: MÔ HÌNH NGÔN NGỮ BLOOM FILTER
      • 2.1 Các cấu trúc dữ liệu xác suất (PDS)
      • 2.2 Hàm băm (Hash function)
      • 2.3 Bloom Filter cơ bản
      • 2.4 Mô hình ngôn ngữ Bloom Filter
        • 2.4.1 Bloom Filter tần số log (Log-frequency Bloom Filter)
        • 2.4.2 Bộ lọc dựa vào chuỗi con (sub-sequence filtering)
    • CHƯƠNG 3: ỨNG DỤNG BLOOM FILTER CHO HỆ DỊCH MÁY THỐNG KÊ DỰA VÀO CỤM TỪ
      • 3.1 Hệ dịch máy thống kê mã nguồn mở Moses
      • 3.2 Tích hợp Mô hình ngôn ngữ Bloom Filter vào hệ thống Moses
        • 3.2.1 Xây dựng LM với RandLM và SRILM
          • 3.2.1.1 Ngữ liệu
          • 3.2.1.2 Thuật toán làm mịn
          • 3.2.1.3. Xây dựng LM với SRILM và RandLM
      • 3.3 Thử nghiệm và đánh giá
    • KẾT LUẬN
    • TÀI LIỆU THAM KHẢO