Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 52 trang
Dung lượng: 751 KB

Giới thiệu nội dung

Phân Đoạn Từ Tiếng Việt Sử Dụng Mô Hình CRFs

Tác giả: Nguyễn Trung Kiên

Lĩnh vực: Công nghệ thông tin

Nội dung tài liệu:

Khóa luận này tập trung vào bài toán phân đoạn từ tiếng Việt, một bước cơ bản trong xử lý ngôn ngữ tự nhiên. Nghiên cứu trình bày các đặc điểm của tiếng Việt liên quan đến phân đoạn từ, khảo sát các phương pháp phân đoạn từ hiện có, và đề xuất sử dụng mô hình Conditional Random Fields (CRFs) làm phương pháp tiếp cận chính. Mô hình CRFs được lựa chọn vì khả năng xử lý dữ liệu chuỗi mạnh mẽ và tích hợp nhiều đặc điểm, phù hợp với tính chất phức tạp của tiếng Việt. Khóa luận cũng mô tả quá trình xây dựng hệ thống, lựa chọn thuộc tính, và đánh giá kết quả thử nghiệm, nhằm mục tiêu xây dựng một hệ thống phân đoạn từ tiếng Việt có độ chính xác cao, hỗ trợ các ứng dụng xử lý ngôn ngữ tự nhiên.

Mục lục chi tiết:

  • Lời cảm ơn
  • Tóm tắt
  • Mục lục
  • Bảng từ viết tắt
  • Lời nói đầu
  • Bài toán phân đoạn từ tiếng Việt
  • Mục tiêu của khóa luận
  • Ý nghĩa và đóng góp của khóa luận
  • Cấu trúc của khóa luận
  • Chương 1. Phân đoạn từ tiếng Việt
    • 1.1 Từ vựng tiếng Việt
      • 1.1.1 Tiếng – đơn vị cấu tạo lên từ
        • 1.1.1.1 Khái niệm
        • 1.1.1.2 Phân loại
        • 1.1.1.3 Mô hình tiếng trong tiếng Việt và các thành tố của nó
      • 1.1.2 Cấu tạo từ
        • 1.1.2.1 Từ đơn
        • 1.1.2.2 Từ ghép
        • 1.1.2.3 Từ láy
      • 1.1.3 Nhập nhằng
    • 1.2 Phân đoạn từ tiếng Việt bằng máy tính
      • 1.2.1 Phương pháp Maximum Matching
      • 1.2.2 Phương pháp TBL
      • 1.2.3 Phương pháp WFST
    • 1.3 Phương pháp tiếp cận của khóa luận
    • 1.4 Tổng kết chương
  • Chương 2. Conditional Random Field
    • 2.1 Định nghĩa CRF
    • 2.2 Huấn luyện CRF
    • 2.3 Suy diễn CRF
    • 2.4 Tổng kết chương
  • Chương 3. Phân đoạn từ tiếng Việt với mô hình CRF
    • 3.1 Mô tả bài toán phận đoạn từ tiếng Việt
      • 3.1.1 Thu thập dữ liệu
      • 3.1.2 Chuẩn bị dữ liệu
      • 3.1.3 Đầu vào và đầu ra của mô hình CRFs
    • 3.2 Lựa chọn thuộc tính
      • 3.2.1 Mẫu ngữ cảnh từ điển
      • 3.2.2 Mẫu ngữ cảnh từ vựng
      • 3.2.3 Mẫu ngữ cảnh phát hiện tên thực thể
      • 3.2.4 Mẫu ngữ cảnh phát hiện từ láy
      • 3.2.5 Mẫu ngữ cảnh âm tiết tiếng Việt
      • 3.2.6 Mẫu ngữ cảnh dạng regular expression
    • 3.3 Cách đánh giá
      • 3.3.1 Phương pháp đánh giá
      • 3.3.2 Các đại lượng đo độ chính xác
    • 3.4 Tổng kết chương
  • Chương 4. Thử nghiệm và đánh giá
    • 4.1 Môi trường thử nghiệm
      • 4.1.1 Phần cứng
      • 4.1.2 Phần mềm
    • 4.2 Mô tả thử nghiệm
      • 4.2.1 Thiết lập tham số
      • 4.2.2 Mô tả thử nghiệm
    • 4.3 Kết quả thử nghiệm
      • 4.3.1 Thử nghiệm 1
      • 4.3.2 Thử nghiệm 2
      • 4.3.2.1 Kết quả 5 lần thử nghiệm
      • 4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
      • 4.3.2.3 Trung bình 5 lần thực nghiệm
      • 4.3.3 Thử nghiệm 3
      • 4.3.2.1 Kết quả 5 lần thử nghiệm
      • 4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
      • 4.3.2.3 Trung bình 5 lần thực nghiệm
      • 4.3.4 Thử nghiệm 4
      • 4.3.2.1 Kết quả 5 lần thử nghiệm
      • 4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
      • 4.3.2.3 Trung bình 5 lần thực nghiệm
      • 4.3.5 Thử nghiệm 5
      • 4.3.2.1 Kết quả 5 lần thử nghiệm
      • 4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
      • 4.3.2.3 Trung bình 5 lần thực nghiệm
    • 4.4 Phân tích và thảo luận kết quả thử nghiệm
    • 4.5 Tổng kết chương
  • Phần kết luận
    • Tổng kết công việc đã làm và đóng góp của luận văn
    • Hướng nghiên cứu tiếp theo
  • Tài liệu tham khảo