Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 51 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

XÂY DỰNG MÔ HÌNH NGÔN NGỮ CHO TIẾNG VIỆT

Tác giả:

Cao Văn Việt

Lĩnh vực:

Khoa học máy tính

Nội dung tài liệu:

Luận văn này tập trung nghiên cứu và xây dựng mô hình ngôn ngữ cho tiếng Việt, một lĩnh vực còn mới mẻ và đối mặt nhiều khó khăn tại Việt Nam. Mô hình ngôn ngữ, một bộ phận thiết yếu của xử lý ngôn ngữ tự nhiên, được ứng dụng trong nhiều lĩnh vực như kiểm lỗi chính tả, dịch máy và phân đoạn từ. Luận văn đề cập đến các khó khăn tồn tại, các phương pháp khắc phục, đặc biệt là các phương pháp làm mịn. Nghiên cứu sử dụng bộ công cụ mã nguồn mở SRILIM để xây dựng mô hình ngôn ngữ tiếng Việt, sau đó áp dụng để tính toán độ hỗn loạn thông tin và dịch máy thống kê, nhằm xác định phương pháp làm mịn tối ưu.

Mục lục chi tiết:

Chương 1: Giới thiệu vấn đề
1.1 Đặt vấn đề
1.2 Mục tiêu
1.3 Cấu trúc của luận văn
Chương 2: Mô hình ngôn ngữ Ngram
2.1 Khái quát
2.2 Công thức tính “xác suất thô”
2.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram
2.3.1 Phân bố không đều
2.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ
2.4 Các phương pháp làm mịn
2.4.1 Các thuật toán chiết khấu (discounting)
2.4.2 Phương pháp truy hồi
2.4.3 Phương pháp nội suy
2.4.4 Phương pháp làm mịn Kneser – Ney
2.4.5 Phương pháp làm mịn Kneser – Ney cải tiến bởi Chen – GoodMan
2.5 Kỹ thuật làm giảm kích thước dữ liệu
2.5.1 Loại bỏ (pruning)
2.5.2 Đồng hóa (Quantization)
2.5.3 Nén (Compression)
2.6 Độ đo
2.6.1 Entropy – Độ đo thông tin
2.6.2 Perplexity – Độ hỗn loạn thông tin
2.6.3 Error rate – Tỉ lệ lỗi
Chương 3: Ứng dụng của mô hình ngôn ngữ trong mô hình dịch máy thống kê
3.1 Dịch máy
3.2 Dịch máy thống kê
3.3 Các phương pháp đánh giá bản dịch
Chương 4: Thực nghiệm
4.1 Công cụ
4.2 Dữ liệu huấn luyện
4.3 Kết quả
Chương 5: Kết luận
Tài liệu tham khảo