Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 97 trang
Dung lượng: 1 MB

Giới thiệu nội dung


Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động

Tác giả: Lưu Tuấn Thành

Lĩnh vực: Hệ thống Thông tin

Nội dung tài liệu:
Luận văn tập trung nghiên cứu về phương pháp học bán giám sát cho bài toán trích chọn thông tin, đặc biệt là ứng dụng vào việc trích chọn thực thể tên điện thoại di động. Đề tài đề xuất và phát triển một hệ thống nhận diện tên riêng tiếng Việt (ViNER) bằng cách kết hợp đặc trưng cú pháp tự động với từ nhúng (word embeddings) dựa trên kiến trúc mạng nơ-ron BiLSTM. Dữ liệu thu thập từ nhiều nguồn khác nhau được sử dụng để huấn luyện, kiểm tra và đánh giá hiệu quả của hệ thống. Ngoài ra, luận văn còn xây dựng một ứng dụng web để trực quan hóa kết quả trích xuất thông tin.

Mục lục chi tiết:

  • Lời cam đoan
  • Lời cảm ơn
  • Tóm tắt luận văn
  • Danh mục viết tắt
  • Danh mục các bảng
  • Danh mục hình vẽ, đồ thị
  • Chương I: Giới thiệu chung
    • 1.1. Lý do thực hiện đề tài
    • 1.2. Mục tiêu nghiên cứu
    • 1.3. Đối tượng, phạm vi nghiên cứu
    • 1.4. Phương pháp nghiên cứu
    • 1.5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài
      • 1.5.1. Ý nghĩa khoa học
      • 1.5.2. Ý nghĩa thực tiễn
    • 1.6. Bố cục luận văn
  • Chương II: Cơ sở lý thuyết
    • 2.1. Xử lý ngôn ngữ tự nhiên
      • 2.1.1. Tách từ (ViTokenizer)
      • 2.1.2. Xác định loại từ trong câu (Part-of-Speech tagging – POS tagging)
      • 2.1.3. Xác định cụm từ (Chunking)
      • 2.1.4. Phân tích cú pháp (Parsing)
    • 2.2. Các phương pháp biểu diễn từ dưới dạng vector
      • 2.2.1. Biểu diễn túi từ – Bag of words
      • 2.2.2. Biểu diễn One-hot-vector
      • 2.2.3. Túi từ liên tục – CBOW
      • 2.2.4. Skip gram
    • 2.3. Học sâu – Deep Learning
      • 2.3.1. Mạng nơ ron nhân tạo (ANN)
      • 2.3.2. Mạng nơ-ron hồi quy RNN (Recurrent Neural Network)
      • 2.3.3. Bộ nhớ dài-ngắn LSTM (Long-short term memory)
      • 2.3.4. Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term memory)
    • 2.4. Phương pháp học bán giám sát
    • 2.5. Học có giám sát
    • 2.6. Học không giám sát
    • 2.7. Xác định thực thể tên điện thoại di động
      • 2.7.1. Tổng quan về bài toán Trích chọn thực thể tên điện thoại di động
      • 2.7.2. Hướng tiếp cận nghiên cứu
      • 2.7.3. Các nghiên cứu gần đây
      • 2.7.4. Đề xuất hướng nghiên cứu
  • Chương III: Mô hình đề xuất
    • 3.1. Tổng quan mô hình đề xuất
    • 3.2. Các đặc trưng của mô hình đề xuất
      • 3.2.1. Từ nhúng – Word embeddings
      • 3.2.2. Các đặc trưng cú pháp
    • 3.3. Trích chọn tên thực thể điện thoại di động
      • 3.3.1. Mô hình học sâu trong bài toán trích chọn tên điện thoại di động
      • 3.3.2. Trích chọn tên điện thoại di động
    • 3.4. Cách đánh giá
  • Chương IV: Thực nghiệm
    • 4.1. Môi trường thực nghiệm
    • 4.2. Dữ liệu thực nghiệm
      • 4.2.1. Thu thập dữ liệu
      • 4.2.2. Xử lý dữ liệu
    • 4.3. Kết quả Thực nghiệm
      • 4.3.1. Trích xuất đặc trưng
      • 4.3.2. Thực nghiệm giữa phương pháp LSTM và BiLSTM với đặc trưng từ
      • 4.3.3. Thực nghiệm BiLSTM với đặc trưng từ và số vòng huấn luyện khác nhau
      • 4.3.4. Thực nghiệm phương pháp sử dụng các lớp BiLSTM với đặc trưng từ
      • 4.3.5. Thực nghiệm phương pháp BiLSTM với đặc trưng từ và tỉ lệ Dropout khác nhau
    • 4.4. Xây dựng ứng dụng Web trực quan hóa kết quả
      • 4.4.1. Thiết kế Xây dựng Web
  • Chương V: Kết luận và hướng phát triển
    • 5.1. Kết quả đạt được
    • 5.2. Hướng phát triển
  • Tài liệu tham khảo