Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 61 trang
Dung lượng: 517 KB

Giới thiệu nội dung

Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp

Nội dung tài liệu:

Tiểu luận này trình bày tổng quan về lĩnh vực khai phá dữ liệu văn bản (Text Mining) và các ứng dụng của nó trong việc thu thập và phân loại thông tin từ dữ liệu văn bản. Đặc biệt, đề tài tập trung vào việc phân tích các đặc trưng của văn bản tiếng Việt và đề xuất hướng giải quyết bài toán phân loại văn bản tiếng Việt. Các kết quả nghiên cứu trong tiểu luận này là bước tiền đề cho các nghiên cứu sâu hơn, hướng tới phát triển công cụ phân loại văn bản tiếng Việt.

Mục lục chi tiết:

  • I. Đặt vấn đề
  • II. Cơ sở lý thuyết
    • 1. Khái niệm Text Mining
      • a. Khai phá dữ liệu (Data Mining)
      • b. Khai phá dữ liệu văn bản (Text Mining)
    • 2. Bài toán phân loại văn bản (Text categorization)
      • a. Khái niệm phân loại văn bản
      • b. Các phương pháp phân loại văn bản
        • b.1. Sử dụng từ điển phân cấp chủ đề
          • b.1.1. Giải thuật phân lớp và phân cấp chủ đề
          • b.1.2. Sự phù hợp và sự phân biệt của các trọng số
        • b.2. Phương pháp cây quyết định (Decision tree)
    • 3. Bài toán thu thập thông tin (Information retrieval – IR)
      • a. Khái niệm thu thập thông tin
      • b. Các phương pháp thu thập thông tin