Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 27 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Nghiên Cứu Cải Tiến Phân Lớp Đa Nhãn Văn Bản Và Ứng Dụng

Tác giả: PHẠM THỊ NGÂN

Lĩnh vực: Công nghệ thông tin

Nội dung tài liệu:

Luận án này tập trung nghiên cứu sâu về bài toán phân lớp đa nhãn, một lĩnh vực quan trọng trong khai phá dữ liệu, với mục tiêu cải tiến các phương pháp hiện có và ứng dụng vào thực tiễn, đặc biệt là phân lớp văn bản tiếng Việt.

Nghiên cứu đề xuất một thuật toán phân lớp đa nhãn khai thác đặc trưng riêng biệt thông qua kỹ thuật phân cụm bán giám sát, kết hợp hai thuật toán LIFT và TESC. Bên cạnh đó, luận án còn đưa ra hai mô hình biểu diễn dữ liệu mới cho bài toán phân lớp đa nhãn: mô hình biểu diễn dữ liệu đồ thị khoảng cách, khai thác thông tin bậc cao về trật tự và khoảng cách đặc trưng; và mô hình biểu diễn dữ liệu chủ đề ẩn, tập trung vào ngữ nghĩa ẩn trong văn bản. Đồng thời, luận án cũng phát triển hai mô hình phân lớp đơn nhãn cho văn bản tiếng Việt, áp dụng vào bài toán nhận diện thực thể có tên và bài toán xây dựng hệ tư vấn xã hội.

Các thực nghiệm được tiến hành trên dữ liệu thu thập từ các trang web tiếng Việt, nhằm kiểm chứng hiệu quả của các thuật toán và mô hình đề xuất.

Mục lục chi tiết:

  • Chương 1: Từ phân lớp đơn nhãn tới phân lớp đa nhãn
  • Chương 2: Hai mô hình phân lớp đơn nhãn văn bản tiếng Việt
  • Chương 3: Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn
  • Chương 4: Phân lớp đa nhãn văn bản dựa trên kỹ thuật phân cụm bán giám sát