Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 12 trang
Dung lượng: 211 KB

Giới thiệu nội dung

Nghiên Cứu Phương Pháp Thu Thập Tập Dữ Liệu Song Song (Parallel Corpus) Việt – Anh, Việt – Pháp Từ Các Nguồn Tài Liệu Đa Ngữ

Tác giả: LÊ CÔNG VÕ

Lĩnh vực: KHOA HỌC MÁY TÍNH

Nội dung tài liệu: Luận văn này tập trung nghiên cứu các phương pháp thu thập tập dữ liệu song song (Parallel Corpus) cho các cặp ngôn ngữ Việt – Anh và Việt – Pháp từ các nguồn tài liệu đa ngữ trên Internet. Đề tài đề xuất các phương pháp và xây dựng công cụ để trích lọc các cặp câu song song, đồng thời phát triển hệ thống quản lý kho ngữ liệu song song nhằm hỗ trợ việc phát triển các hệ thống dịch tự động.

Mục lục chi tiết:

  • MỞ ĐẦU
  • 1. Lý do chọn đề tài
  • 2. Mục đích nghiên cứu
  • 3. Đối tượng và phạm vi nghiên cứu
  • 4. Phương pháp nghiên cứu
  • 5. Ý nghĩa khoa học và thực tiễn của đề tài
  • 6. Bố cục của luận văn
  • CHƯƠNG 1 – CƠ SỞ LÝ THUYẾT
  • 1.1. HỆ THỐNG DỊCH TỰ ĐỘNG
  • 1.1.1. Các hệ thống dịch tự động
  • 1.1.2. Sự cần thiết của việc xây dựng các hệ thống dịch tự động có hỗ trợ tiếng Việt
  • 1.2. MỘT SỐ KHÁI NIỆM VỀ KHO NGỮ LIỆU
  • 1.2.1. Kho ngữ liệu (Corpus)
  • 1.2.2. Kho ngữ liệu đa ngữ (Multilingual Corpora)
  • 1.2.3. Kho ngữ liệu so sánh (Comparable Corpus)
  • 1.2.4. Kho ngữ liệu song song (Parallel Corpus)
  • 1.2.5. Sự liên kết (Alignment)
  • 1.3. TỔNG QUAN VỀ MỘT SỐ KHO NGỮ LIỆU SONG NGỮ
  • 1.3.1. Lịch sử hình thành và phát triển của kho ngữ liệu song song
  • 1.3.2. Một số kho ngữ liệu song song trên thế giới
  • 1.3.3. Nội dung của các kho ngữ liệu
  • 1.3.4. Cấu trúc của các kho ngữ liệu
  • 1.3.5. Các công trình nghiên cứu trong nước về kho ngữ liệu song song
  • 1.4. TÌM HIỂU MỘT SỐ BƯỚC QUAN TRỌNG TRONG QUY TRÌNH XÂY DỰNG KHO NGỮ LIỆU SONG SONG
  • 1.4.1. Xác định nguồn tài nguyên phục vụ việc xây dựng kho ngữ liệu song song
  • 1.4.2. Liên kết dữ liệu đã thu thập
  • 1.5. TỔNG KẾT CHƯƠNG 1
  • CHƯƠNG 2 – ĐỀ XUẤT PHƯƠNG PHÁP XÂY DỰNG VÀ QUẢN LÝ KHO NGỮ LIỆU SONG SONG
  • 2.1. HIỆN TRẠNG NGHIÊN CỨU VỀ KHO NGỮ LIỆU SONG SONG
  • 2.1.1. Tầm quan trọng của kho ngữ liệu song song
  • 2.1.2. Hiện trạng nghiên cứu về kho ngữ liệu song song hiện nay
  • 2.2. PHƯƠNG PHÁP TIẾP CẬN
  • 2.3. PHÁT HIỆN CÁC WEBSITE ĐA NGỮ VIỆT – ANH, VIỆT – PHÁP
  • 2.3.1. Dựa vào nội dung liên kết (link) trong các Website
  • 2.3.1.1. Website tiếng Anh có liên kết đến trang tiếng Việt
  • 2.3.1.2. Website tiếng Pháp có liên kết đến trang tiếng Việt
  • 2.3.1.3. Website tiếng Việt có liên kết đến trang tiếng Anh hoặc tiếng Pháp
  • 2.3.1.4. Website tiếng Việt có liên kết đến trang tiếng Anh và tiếng Pháp
  • 2.3.2. Dựa vào URL của trang
  • 2.4. BÀI TOÁN KHAI THÁC DỮ LIỆU SONG SONG TỪ CÁC WEBSITE ĐA NGỮ
  • 2.4.1. Lọc theo cấu trúc
  • 2.4.2. Lọc theo nội dung
  • 2.4.3. Lọc theo các đặc điểm khác
  • 2.4.4. Thuật toán qui hoạch động
  • 2.5. XÂY DỰNG KHO DỮ LIỆU SONG SONG
  • 2.5.1. Liên kết ở mức tài liệu: Phát hiện các cặp tài liệu song ngữ
  • 2.5.1.1. Tải tài liệu
  • 2.5.1.2. Tiền xử lý
  • 2.5.1.3. Tìm các cặp tài liệu là dịch của nhau
  • 2.5.2. Xây dựng kho ngữ liệu song song
  • 2.6. TỔNG KẾT CHƯƠNG 2
  • CHƯƠNG 3 – XÂY DỰNG VÀ PHÁT TRIỂN ỨNG DỤNG
  • 3.1. XÂY DỰNG CÁC MODULE THÀNH PHẦN
  • 3.1.1. Kiến trúc hệ thống
  • 3.1.2. Thiết kế các thành phần hệ thống
  • 3.1.2.1. Xây dựng Module tìm kiếm và xác định các Website đa ngữ
  • 3.1.2.2. Tải các Website đa ngữ
  • 3.1.2.3. Tiền xử lý
  • 3.1.2.4. Xác định các cặp tài liệu là dịch của nhau
  • 3.1.2.5. Tách câu
  • 3.1.2.6. Liên kết câu
  • 3.2. XÂY DỰNG HỆ THỐNG QUẢN LÝ KHO NGỮ LIỆU SONG SONG
  • 3.2.1. Thực trạng và yêu cầu của hệ thống
  • 3.2.1.1. Phân tích thực trạng
  • 3.2.1.2. Yêu cầu hệ thống
  • 3.2.2. Phân tích thiết kế hệ thống
  • 3.2.2.1. Xác định tác nhân và ca sử dụng
  • 3.2.2.2. Chức năng của hệ thống
  • 3.2.2.3. Mô tả các ca sử dụng
  • 3.2.2.4. Sơ đồ hoạt động
  • 3.2.3. Thiết kế cơ sở dữ liệu hệ thống
  • 3.3. KẾT QUẢ
  • 3.3.1. Màn hình trang chủ
  • 3.3.2. Đăng ký thành viên
  • 3.3.3. Đăng nhập
  • 3.3.4. Truy vấn xem dữ liệu
  • 3.3.5. Cập nhật câu song song và đăng bình luận
  • 3.3.6. Chức năng quản trị
  • 3.4. TỔNG KẾT CHƯƠNG 3
  • KẾT LUẬN
  • 1. KẾT QUẢ ĐẠT ĐƯỢC
  • 2. HẠN CHẾ
  • 3. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI