Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 27 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng

Tác giả: PHẠM THỊ NGÂN

Lĩnh vực: Công nghệ thông tin

Nội dung tài liệu:

Luận án tập trung nghiên cứu về bài toán phân lớp đa nhãn văn bản, đặc biệt là phân lớp văn bản tiếng Việt. Đề tài đề xuất thuật toán phân lớp đa nhãn khai thác đặc trưng riêng biệt dựa trên phân cụm bán giám sát, kết hợp hai thuật toán LIFT và TESC. Đồng thời, luận án cũng giới thiệu hai mô hình biểu diễn dữ liệu cho phân lớp đa nhãn: mô hình biểu diễn dữ liệu đồ thị khoảng cách và mô hình biểu diễn dữ liệu chủ đề ẩn. Ngoài ra, luận án còn đề xuất hai mô hình phân lớp đơn nhãn cho văn bản tiếng Việt trong hai bài toán ứng dụng thực tiễn là gán nhãn thực thể có tên và hệ tư vấn xã hội. Các phương pháp được thực nghiệm trên dữ liệu thu thập từ các trang web tiếng Việt.

Mục lục chi tiết:

  • Chương 1: Từ phân lớp đơn nhãn tới phân lớp đa nhãn
  • Chương 2: Hai mô hình phân lớp đơn nhãn văn bản tiếng Việt
  • Chương 3: Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn
  • Chương 4: Phân lớp đa nhãn bán giám sát dựa trên đặc trưng riêng biệt