Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 14 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Enhancing the Quality of Machine Translation System Using Cross-Lingual Word Embedding Models

Tác giả: NGUYEN MINH THUAN

Lĩnh vực: Computer Science

Nội dung tài liệu:

Nghiên cứu này đề xuất hai mô hình nhằm nâng cao chất lượng của hệ thống dịch máy bằng cách sử dụng các mô hình nhúng từ đa ngôn ngữ. Mô hình thứ nhất tập trung vào việc làm giàu bảng cụm từ (phrase-table) trong hệ thống dịch máy thống kê dựa trên cụm từ (PBSMT) thông qua việc tính toán lại trọng số cụm từ và tạo ra các cặp cụm từ mới. Mô hình thứ hai giải quyết vấn đề từ chưa biết trong hệ thống dịch máy thần kinh (NMT) bằng cách thay thế các từ này bằng những từ trong từ vựng có ngữ nghĩa tương đồng nhất. Các phân tích và kết quả thực nghiệm chỉ ra rằng các mô hình được đề xuất giúp hệ thống dịch máy khắc phục được vấn đề thiếu dữ liệu cho các ngôn ngữ ít phổ biến và có tài nguyên hạn chế. Đặc biệt, trong hệ thống PBSMT, việc tính toán lại trọng số cụm từ và tích hợp các cặp cụm từ mới đã cải thiện đáng kể chất lượng bảng cụm từ, dẫn đến điểm BLEU tăng lên. Tương tự, trong hệ thống NMT, mô hình đề xuất để xử lý từ chưa biết cũng cải thiện điểm BLEU. Tuy nhiên, phương pháp này vẫn còn một số hạn chế như có thể tạo ra các mục không chính xác trong bảng cụm từ và bản dịch kém cho các từ chưa biết.

Mục lục chi tiết:

Chapter 1: Introduction
Chapter 2: Literature review
Chapter 3: Using Cross-Lingual Word Embedding Models for Machine Translation Systems
Chapter 4: Experiments and Results
Chapter 5: Conclusion