Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 9 trang
Dung lượng: 172 KB

Giới thiệu nội dung

Data Cleaning for Word Alignment

Tên đề tài:

Data Cleaning for Word Alignment

Tác giả:

Tsuyoshi Okita

Lĩnh vực:

CNGL / School of Computing, Dublin City University

Nội dung tài liệu:

Tài liệu này trình bày một phương pháp tiền xử lý nhằm phát hiện các cặp câu không mong muốn trong tập dữ liệu song ngữ. Các cặp câu này, bao gồm các bản dịch diễn giải, dịch không theo nghĩa đen, và các cụm từ đa từ, có thể làm giảm hiệu suất của hệ thống dịch máy. Phương pháp này giả định rằng tần suất của các mục không mong muốn này thấp, dưới 5%. Kết quả cho thấy sự cải thiện điểm BLEU từ 28.0 lên 31.4 đối với cặp tiếng Anh-Tây Ban Nha và từ 16.9 lên 22.1 đối với cặp tiếng Đức-Anh.

Mục lục chi tiết:

  • Abstract
  • 1 Introduction
  • 2 1 : n Word Alignment
  • 3 Phrase Extraction and Atomic Unit of Phrases
  • 4 Our Approach: Good Points Approach
  • 5 Results
  • 6 Discussion
  • 7 Conclusions and Further Work
  • 8 Acknowledgements
  • References