Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 34 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Nghiên cứu Phương Pháp Phân Cụm Từ Sử Dụng Phương Pháp Phân Tích Nhóm Dựa Trên Đồ Thị Dendrogram – Ứng Dụng Nâng Cao Hiệu Quả Phân Loại Văn Bản Tiếng Việt Tự Động

Tác giả: TS. Phạm Minh Tuấn

Lĩnh vực: Khoa học và Công nghệ

Nội dung tài liệu:

Nghiên cứu này tập trung vào việc nâng cao hiệu quả phân loại văn bản tiếng Việt tự động. Đề tài đề xuất phương pháp phân cụm từ dựa trên phân tích nhóm và đồ thị dendrogram. Phương pháp này giúp rút gọn vector thuộc tính của văn bản, từ đó cải thiện hiệu quả phân loại, đặc biệt giải quyết các vấn đề về từ đồng nghĩa và các nhóm từ thường xuất hiện cùng nhau trong tiếng Việt. Đề tài cũng đề cập đến việc sử dụng máy vector hỗ trợ (SVM) kết hợp với kết quả phân cụm để xây dựng mô hình phân loại văn bản tiếng Việt.

Mục lục chi tiết:

Chương 1: Nghiên cứu tổng quan

  • 1.1. Bối cảnh đề tài
  • 1.2. Các phương pháp học máy
  • 1.3. Phương pháp phân cụm Dendrogram
  • 1.4. Các phương pháp phân loại

Chương 2: Xây dựng hệ thống nhận dạng văn bản

  • 2.1. Mô tả bài toán
  • 2.2. Cấu trúc hệ thống
  • 2.3. Các chức năng chính
  • 2.4. Phân tích thiết kế chương trình
  • 2.5. Các thuật toán đề xuất chính

Chương 3: Triển khai và đánh giá kết quả

  • 3.1. Triển khai thực nghiệm