Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 142 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng Việt

Tác giả: Võ Duy Thanh

Lĩnh vực: Khoa học máy tính

Nội dung tài liệu:

Luận án tập trung nghiên cứu các phương pháp mới nhằm phân loại văn bản tiếng Việt hiệu quả hơn dựa trên kỹ thuật học bán giám sát. Đề tài nhấn mạnh vai trò quan trọng của kho dữ liệu trong việc huấn luyện hệ thống học máy và đề xuất giải pháp sử dụng phương pháp học bán giám sát để giảm thiểu yêu cầu về lượng dữ liệu đã xác định nhãn.

Luận án đề xuất một giải pháp mới trong phân loại văn bản dựa trên mô hình trắc địa và lý thuyết đồ thị, khắc phục hạn chế của khoảng cách Euclid trong việc đo lường mức độ gần nhau giữa các văn bản. Đồng thời, luận án cũng đề xuất giải pháp rút gọn số chiều của véc tơ biểu diễn văn bản dựa trên đồ thị Dendrogram, giúp giảm thời gian xử lý và tiết kiệm chi phí.

Ngoài ra, luận án còn xây dựng kho dữ liệu phục vụ phân loại văn bản tiếng Việt, bao gồm 5027 văn bản đã được tiền xử lý và gán nhãn với 5 chủ đề khác nhau, đóng góp vào việc phát triển nghiên cứu xử lý ngôn ngữ tại Việt Nam.

Mục lục chi tiết:

  • Lời cam đoan
  • Mục lục
  • Danh mục các từ viết tắt
  • Danh mục hình vẽ
  • Danh mục bảng
  • Mở đầu
  • Chương 1: Nghiên cứu tổng quan
  • Chương 2: Xây dựng kho dữ liệu
  • Chương 3: Phân loại dựa trên mô hình cự ly đường trắc địa
  • Chương 4: Rút gọn số chiều véc tơ dựa trên đồ thị Dendrogram
  • Kết luận
  • Các công trình khoa học đã công bố
  • Tài liệu tham khảo