Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 89 trang
Dung lượng: 803 KB

Giới thiệu nội dung

Xử lý nhập nhằng nghĩa của từ sử dụng học máy không giám sát

Tác giả: Trần Thị Hiền

Lĩnh vực: Công nghệ thông tin

Nội dung tài liệu:
Luận văn này tập trung vào bài toán xử lý nhập nhằng nghĩa của từ (Word Sense Induction – WSI) bằng phương pháp học máy không giám sát. WSI được xem là một hướng tiếp cận không giám sát, có khả năng khắc phục nhược điểm của các phương pháp học có giám sát, đặc biệt là trong các trường hợp dữ liệu huấn luyện không có sẵn hoặc đòi hỏi sự tùy biến cao. Luận văn đề xuất áp dụng mô hình Bayes phi tham số Hierarchical Dirichlet Process (HDP) cho bài toán WSI, khai thác khả năng phân cụm ngữ cảnh để xác định nghĩa của từ một cách tự động.

Mục lục chi tiết:

  • Lời cảm ơn
  • Lời cam đoan
  • Mục lục
  • Danh mục các ký hiệu, từ viết tắt
  • Danh mục các hình vẽ
  • Danh mục các bảng biểu
  • Mở đầu
  • Chương I: Giới thiệu
    • 1.1. WSI và WSD
    • 1.2. Phương pháp tiếp cận cho WSD
    • 1.3. Phương pháp tiếp cận cho WSI
      • 1.3.1. Phương pháp phân cụm
      • 1.3.2. Đồ thị xuất hiện đồng thời (Co-occurrence graphs)
      • 1.3.3. Mục tiêu đề tài
      • 1.3.4. Ứng dụng của đề tài
  • Chương II: Bài toán mô hình chủ đề và các tiếp cận điển hình
    • 2.1. Tổng quan về mô hình chủ đề
    • 2.2. LDA
    • 2.3. CTM
    • 2.4. HDP
    • 2.5. Ứng dụng của mô hình chủ đề
    • 2.6. Sử dụng mô hình chủ đề trong WSI
      • 2.6.1. Ngữ cảnh địa phương và ngữ cảnh toàn cục
      • 2.6.2. Xem bài toán WSI như một bài toán mô hình chủ đề
  • Chương III: Sử dụng phương pháp HDP cho WSI
    • 3.1. Tổng quan về HDP
      • 3.1.1. Thiết lập
      • 3.1.2. Dirichlet Process
      • 3.1.3. HDP
    • 3.2. Sử dụng phương pháp HDP cho WSI
      • 3.2.1. Giới thiệu
      • 3.2.2. WSI dựa vào phương pháp Bayes
    • 3.3. So sánh phương pháp HDP với LDA và CTM
  • Chương IV: Đánh giá và kết quả thực nghiệm
    • 4.1. Mô tả dữ liệu
      • 4.1.1. Tập dữ liệu huấn luyện
      • 4.1.2. Tập dữ liệu thử nghiệm
    • 4.2. Phương pháp đánh giá
      • 4.2.1. Đánh giá không giám sát
      • 4.2.2. Đánh giá giám sát
    • 4.3. Thực nghiệm
      • 4.3.1. Tiền xử lý dữ liệu
      • 4.3.2. Phương pháp huấn luyện và thử nghiệm
      • 4.3.3. Xử lý dữ liệu đầu ra
    • 4.4. Kết quả và so sánh
      • 4.4.1. Hiệu suất của hệ thống
      • 4.4.2. Kết quả đánh giá không giám sát
      • 4.4.3. Kết quả đánh giá giám sát
  • Kết luận và hướng phát triển
  • Tài liệu tham khảo
  • Phụ lục