Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 164 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Gán nhãn phân tích cú pháp quan hệ cho song ngữ Anh-Việt thông qua liên kết ngữ

Tác giả: Nguyễn Thống Nhất – Lê Minh Sơn

Lĩnh vực: Cử nhân Tin học

Nội dung tài liệu:

Tài liệu này trình bày một phương pháp để ánh xạ kết quả phân tích cú pháp từ tiếng Anh sang tiếng Việt. Quá trình này bao gồm ba bước chính: phân tích cú pháp ngôn ngữ nguồn (tiếng Anh), liên kết từ/ngữ, và cuối cùng là chiếu sang ngôn ngữ đích (tiếng Việt). Nghiên cứu tập trung vào việc phân tích cú pháp quan hệ và liên kết từ/ngữ, với mục tiêu là tạo ngữ liệu phục vụ cho việc học, giám sát và rút ra các luật chuyển đổi cú pháp song ngữ Anh-Việt, hỗ trợ chương trình dịch tự động. Tài liệu giới thiệu các cách tiếp cận trong phân tích cú pháp và liên kết từ/ngữ, sau đó đi sâu vào mô hình thuật toán chi tiết và cài đặt thực nghiệm. Cuối cùng, tài liệu trình bày kết quả, đánh giá và hướng phát triển.

Mục lục chi tiết:

  • Lời nói đầu
  • Chương 1: Tổng quan
    • 1.1. Phân tích cú pháp quan hệ
    • 1.2. Liên kết từ/ngữ
    • 1.3. Chiếu quan hệ cú pháp
      • 1.3.1. Chiếu nhãn từ loại
      • 1.3.2. Chiếu quan hệ cú pháp
  • Chương 2: Các cách tiếp cận
    • 2.1. Phân tích cú pháp
      • 2.1.1. Các phương pháp tiếp cận dùng luật phi ngữ cảnh (CFG)
        • 2.1.1.1. Cách tiếp cận từ trên xuống (Top-Down)
        • 2.1.1.2. Thuật toán phân tích cú pháp từ trên xuống (Top-Down)
        • 2.1.1.3. Cách tiếp cận Từ dưới lên (Bottom-Up)
        • 2.1.1.4. Thuật toán phân tích cú pháp Earley
        • 2.1.1.5. Mạng ngữ pháp lan truyền
      • 2.1.2. Phương pháp TBL (Transformation-Based Error-Driven Learning)
      • 2.1.3. Phương pháp phân tích cú pháp dựa trên văn phạm TAG
        • 2.1.3.1. Văn phạm TAGs
          • 2.1.3.1.1. Cây sơ cấp
          • 2.1.3.1.2. Cây phụ trợ
        • 2.1.3.2. Các tác tố trong TAGs
          • 2.1.3.2.1. Tác tố thêm vào
          • 2.1.3.2.2. Tác tố thay thế
        • 2.1.3.3. Những điều kiện kết hợp trên cây
        • 2.1.3.4. Cây rỗng
      • 2.1.4. Phương pháp phân tích cú pháp dựa trên nguyên tắc
        • 2.1.4.1. Thuyết X-Bar (X)
        • 2.1.4.2. Nguyên lý Theta
        • 2.1.4.3. Thuyết lọc vai (Case-filter)
        • 2.1.4.4. Thuyết kết hợp
        • 2.1.4.5. Thuyết về tính cục bộ và trường rỗng
        • 2.1.4.6. Thuyết dịch chuyển
    • 2.2. Các cách tiếp cận trong việc liên kết từ/ngữ
      • 2.2.1. Char-Align – Hệ thống Termight
      • 2.2.2. Phương pháp K-vec
      • 2.2.3. Phương pháp DK-vec
      • 2.2.4. Ánh xạ song ngữ với SIMR
      • 2.2.5. Mô hình xác suất với thuật toán IPFP
      • 2.2.6. Mô hình dựa vào sự phân lớp (Class-based)
      • 2.2.7. Mô hình liên kết dựa vào cách tiếp cận dịch máy thống kê (SMT)
    • 2.3. Các phương pháp chiếu
      • 2.3.1. Chiếu nhãn từ loại
        • 2.3.1.1. Phương pháp trực tiếp
        • 2.3.1.2. Phương pháp Noise-robust
        • 2.3.1.3. Phương pháp sử dụng luật tương tác
      • 2.3.2. Chiếu quan hệ
        • 2.3.2.1. Mô hình xác suất
        • 2.3.2.2. Phương pháp DCA (Direct Correspondence Assumption)
        • 2.3.2.3. Các phương pháp khác
  • Chương 3: Mô hình thuật toán
    • 3.1. Phân tích cú pháp dựa trên nguyên tắc
      • 3.1.1. Khái quát
      • 3.1.2. Ý tưởng cơ bản của phương pháp phân tích dựa trên nguyên tắc
      • 3.1.3. Một số ít những nguyên tắc thay thế cho rất nhiều luật
        • 3.1.3.1. Những thành phần cơ bản
        • 3.1.3.2. Tham số
      • 3.1.4. Câu hỏi đặt ra
      • 3.1.5. Các nguyên tắc
        • 3.1.5.1. Thuyết Xbar (X theory)
        • 3.1.5.2. Tiêu chuẩn Theta (Theta Criterion)
        • 3.1.5.3. Bộ lọc vai (Case-Filter)
        • 3.1.5.4. Thuyết kết hợp(Binding Theory)
        • 3.1.5.5. Thuyết về tính cục bộ và trường rỗng
        • 3.1.5.6. Thuyết dịch chuyển
      • 3.1.6. Trật tự kết hợp các nguyên tắc
        • 3.1.6.1. Dự đoán lỗi trước
        • 3.1.6.2. Mô hình động
      • 3.1.7. Các bước phân tích cú pháp
        • 3.1.7.1. Phân tích từ vựng
        • 3.1.7.2. Phân tích và tìm ra các cây cú pháp thích hợp
        • 3.1.7.3. Chọn cây cú pháp thích hợp nhất
        • 3.1.7.4. Trọng số
        • 3.1.7.5. Chọn cây
    • 3.2. Mô hình liên kết từ ngữ trong song ngữ Anh-Việt
      • 3.2.1. Giới thiệu mô hình dịch máy thống kê
      • 3.2.2. Định nghĩa liên kết từ/ngữ
      • 3.2.3. Mô hình ngôn ngữ
      • 3.2.4. Mô hình dịch
        • 3.2.4.1. Mô hình 1
        • 3.2.4.2. Mô hình 2
        • 3.2.4.3. Một cách đặt vấn đề khác
        • 3.2.4.4. Mô hình 3
        • 3.2.4.5. Mô hình 4
        • 3.2.4.6. Mô hình 5
      • 3.2.5. Thuật toán Ước lượng-Cực đại (Estimation-Maximization Algorithm – viết tắt là thuật toán EM)
      • 3.2.6. Cải tiến thuật toán EM trong mô hình 3, 4 và 5
      • 3.2.7. Tìm liên kết từ tối ưu nhất
      • 3.2.8. Cải tiến mô hình liên kết từ để liên kết ngữ
    • 3.3. Chiếu kết quả phân tích cú pháp sang Tiếng Việt
      • 3.3.1. Chiếu nhãn từ loại
      • 3.3.2. Chiếu quan hệ
      • 3.3.3. Sử dụng luật tương tác
  • Chương 4: Cài đặt thực nghiệm
    • 4.1. Chương trình phân tích cú pháp quan hệ
      • 4.1.1. Phân tích từ vựng
        • 4.1.1.1. Từ điển
          • 4.1.1.1.1. Cấu trúc
          • 4.1.1.1.2. Sự phân loại động từ
          • 4.1.1.1.3. Mục từ tham chiếu
      • 4.1.2. Phân tích cú pháp quan hệ
        • 4.1.2.1. Từ điển chủ ngữ của động từ
        • 4.1.2.2. Mạng cú pháp
        • 4.1.2.3. Sơ đồ lớp
        • 4.1.2.4. Kết quả đầu ra
      • 4.1.3. Các thuộc tính
    • 4.2. Chương trình liên kết từ/ngữ
      • 4.2.1. Phân tích
        • 4.2.1.1. Phân tích tổng quát
        • 4.2.1.2. Phân tích chi tiết
          • 4.2.1.2.1. Lưu đồ của mô hình huấn luyện dịch thống kê P(v|e)
          • 4.2.1.2.2. Lưu đồ của mô hình liên kết ngữ
      • 4.2.2. Thiết kế
        • 4.2.2.1. Sơ đồ lớp
        • 4.2.2.2. Danh sách các thuộc tính của từng lớp
        • 4.2.2.3. Danh sách các phương thức của từng lớp
        • 4.2.2.4. Sơ đồ hoạt động tổng thể của các lớp cho quá trình huấn luyện
      • 4.2.3. Cài đặt các hàm xử lý chính
        • 4.2.3.1. Hàm khởi gán thông số t trong lớp Modell
        • 4.2.3.2. Hàm khởi gán thông số a trong lớp Model2
        • 4.2.3.3. Vòng lặp EM trong lớp Modell
        • 4.2.3.4. Vòng lặp EM trong lớp Model2
        • 4.2.3.5. Vòng lặp EM trong lớp Model3
        • 4.2.3.6. Tìm liên kết tối ưu nhất trong mô hình 1
        • 4.2.3.7. Tìm liên kết tối ưu nhất trong mô hình 2
        • 4.2.3.8. Tìm liên kết tối ưu nhất trong mô hình 3
    • 4.3. Chiếu kết quả phân tích cú pháp sang Tiếng Việt
      • 4.3.1. Chiếu nhãn từ loại
      • 4.3.2. Chiếu quan hệ
      • 4.3.3. Sử dụng luật tương tác
  • Chương 5: Kết quả – Đánh giá – Kết luận – Hướng phát triển
    • 5.1. Chương trình liên kết từ
      • 5.1.1. Một số kết quả
      • 5.1.2. Giao diện của chương trình thử nghiệm liên kết
      • 5.1.3. Đánh giá
    • 5.2. Chương trình phân tích quan hệ cú pháp
      • 5.2.1. Kết quả
      • 5.2.2. Đánh giá
        • 5.2.2.1. Ngữ liệu mẫu
        • 5.2.2.2. Kết quả đánh giá
    • 5.3. Chương trình chiếu kết quả phân tích cú pháp
      • 5.3.1. Chiếu kết quả từ loại
      • 5.3.2. Chiếu kết quả phân tích quan hệ
    • 5.4. Kết luận
    • 5.5. Hướng phát triển
  • Phụ lục A: Bảng qui ước các ký hiệu của mô hình dịch máy thống kê
  • Phụ lục B: Các thuộc tính trong phân tích cú pháp quan hệ
  • Phụ lục C: Bộ nhãn từ loại tiếng Anh
  • Phụ lục D: Các mối quan hệ trong tiếng Anh
  • Tài liệu tham khảo