Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 74 trang
Dung lượng: 1 MB

Giới thiệu nội dung

Nhận Diện Tên Riêng Tiếng Việt Bằng Phương Pháp Học Sâu

Tác giả: Nguyễn Anh Dũng

Lĩnh vực: Hệ thống Thông tin

Nội dung tài liệu:
Luận văn này tập trung vào việc xây dựng một hệ thống nhận diện tên riêng tiếng Việt (ViNER) bằng cách ứng dụng phương pháp học sâu, cụ thể là mạng nơ ron ngắn dài song song BiLSTM. Hệ thống sử dụng đầu vào là các đặc trưng cú pháp tự động kết hợp với các từ nhúng được huấn luyện sẵn. Nghiên cứu này cũng đề xuất xây dựng một ứng dụng web để hỗ trợ trực quan hóa việc phân tích dữ liệu và nhận diện tên riêng cho các đoạn văn bản nhập vào. Kết quả thực nghiệm cho thấy phương pháp kết hợp các đặc trưng cú pháp và từ nhúng với BiLSTM đạt độ chính xác cao nhất là 92,06%.

Mục lục chi tiết:

  • TÓM TẮT LUẬN VĂN
  • DANH MỤC TỪ VIẾT TẮT
  • DANH MỤC CÁC BẢNG
  • DANH MỤC HÌNH VẼ, ĐỒ THỊ
  • CHƯƠNG I. GIỚI THIỆU CHUNG

    • 1.1. LÍ DO THỰC HIỆN ĐỀ TÀI
    • 1.2. MỤC TIÊU NGHIÊN CỨU
    • 1.3. ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU
    • 1.4. PHƯƠNG PHÁP NGHIÊN CỨU
    • 1.5. Ý NGHĨA KHOA HỌC VÀ Ý NGHĨA THỰC TIỄN CỦA ĐỀ TÀI

      • 1.5.1. Ý nghĩa khoa học
      • 1.5.2. Ý nghĩa thực tiễn
    • 1.6. BỐ CỤC LUẬN VĂN
  • CHƯƠNG II. CƠ SỞ LÝ THUYẾT

    • 2.1. XỬ LÝ NGÔN NGỮ TỰ NHIÊN

      • 2.1.1. Tách từ (Tokenizer)
      • 2.1.2. Xác định loại từ trong câu (Part-of-Speech tagging – POS tagging)
      • 2.1.3. Xác định cụm từ (Chunking)
      • 2.1.4. Phân tích cú pháp (Parsing)
    • 2.2. CÁC PHƯƠNG PHÁP BIỂU DIỄN TỪ DƯỚI DẠNG VÉC TƠ

      • 2.2.1. Biểu diễn túi từ – Bag of words
      • 2.2.2 Biểu diễn One-hot-vector
      • 2.2.3. Túi từ liên tục – CBOW
      • 2.2.4. Skip gram
    • 2.3. HỌC SÂU – DEEP LEARNING

      • 2.3.1. Mạng nơ ron nhân tạo (ANN)
      • 2.3.2. Mạng nơ-ron hồi quy RNN (Recurrent Neural Network)
      • 2.3.3. Bộ nhớ dài-ngắn LSTM (Long-short term memory)
      • 2.3.4. Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term memory)
    • 2.4. NHẬN DIỆN TÊN RIÊNG (NAME ENTITY RECOGNITION – NER)

      • 2.4.1. Tổng quan về bài toán Nhận diện tên riêng
      • 2.4.2. Hướng tiếp cận nghiên cứu
      • 2.4.3. Các nghiên cứu gần đây
      • 2.4.4. Đề xuất hướng nghiên cứu
  • CHƯƠNG III. MÔ HÌNH ĐỀ XUẤT

    • 3.1. TỔNG QUAN MÔ HÌNH ĐỀ XUẤT
    • 3.2. CÁC ĐẶC TRƯNG CỦA MÔ HÌNH ĐỀ XUẤT

      • 3.2.1. Từ nhúng – Word embeddings
      • 3.2.2. Các đặc trưng cú pháp
    • 3.3. NHẬN DIỆN TÊN RIÊNG TIẾNG VIỆT

      • 3.3.1 Mô hình học sâu trong bài toán nhận diện tên riêng tiếng Việt
      • 3.3.2. Nhận diện tên riêng
  • CHƯƠNG IV. THỰC NGHIỆM

    • 4.1. KHO DỮ LIỆU VLSP
    • 4.2. PHƯƠNG PHÁP ĐÁNH GIÁ MÔ HÌNH
    • 4.3. Thực nghiệm

      • 4.3.1 Thực nghiệm giữa phương pháp LSTM và BiLSTM với đặc trưng từ
      • 4.3.2 Thực nghiệm BiLSTM với đặc trưng từ và số vòng huấn luyện khác nhau
      • 4.3.3 Thực nghiệm phương pháp sử dụng các lớp BiLSTM với đặc trưng từ
      • 4.3.4 Thực nghiệm phương pháp BiLSTM với đặc trưng từ và tỉ lệ Dropout khác nhau
    • 4.4. XÂY DỰNG ỨNG DỤNG WEB TRỰC QUAN HÓA KẾT QUẢ
  • CHƯƠNG V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

    • 5.1. KẾT QUẢ ĐẠT ĐƯỢC
    • 5.2. HƯỚNG PHÁT TRIỂN
  • TÀI LIỆU THAM KHẢO