Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 58 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ

Tác giả: Nguyễn Cẩm Tú

Lĩnh vực: Công nghệ thông tin

Nội dung tài liệu:

Khóa luận tốt nghiệp này tập trung vào bài toán nhận biết các loại thực thể trong văn bản tiếng Việt, một bước quan trọng trong trích chọn thông tin và xử lý ngôn ngữ tự nhiên. Bài toán này có ứng dụng rộng rãi trong nhiều lĩnh vực như dịch tự động, tóm tắt văn bản, hiểu ngôn ngữ tự nhiên, đặc biệt là hỗ trợ xây dựng Web ngữ nghĩa và máy tìm kiếm hướng thực thể. Khóa luận đề xuất một giải pháp nhận biết loại thực thể cho văn bản tiếng Việt trên môi trường Web, sử dụng phương pháp học máy với mô hình Conditional Random Fields (CRF). Mô hình CRF được lựa chọn nhờ khả năng xử lý dữ liệu chuỗi và tích hợp hiệu quả nhiều đặc điểm. Nghiên cứu cũng xem xét các hướng tiếp cận khác như mô hình Markov ẩn (HMM) và mô hình Markov cực đại hóa Entropy (MEMM), phân tích ưu nhược điểm của chúng, đặc biệt là vấn đề “label bias” mà MEMM gặp phải.

Mục lục chi tiết:

  • Lời cảm ơn
  • Tóm tắt
  • Mục lục
  • Bảng từ viết tắt
  • Mở đầu
  • Chương 1. Bài toán nhận diện loại thực thể
  • Chương 2. Các hướng tiếp cận giải quyết bài toán nhận biết các loại thực thể
  • Chương 3. Conditional Random Field (CRF)
  • Chương 4. Ước lượng tham số cho các mô hình CRF
  • Chương 5. Hệ thống nhận biết các loại thực thể trong tiếng Việt
  • Kết luận
  • Phụ lục: Output của hệ thống nhận diện loại thực thể tiếng Việt
  • Tài liệu tham khảo