Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 55 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Sử dụng phương pháp xếp hạng trong bài toán phân cụm tiếng Việt

Tác giả:

Phạm Thị Tâm

Lĩnh vực:

Công nghệ thông tin

Nội dung tài liệu:

Khóa luận này tập trung nghiên cứu bài toán phân cụm Web, đặc biệt là phân cụm trên tài liệu tiếng Việt bằng phương pháp xếp hạng. Nghiên cứu đề cập đến các khái niệm cơ bản về phân cụm Web, các thuật toán phân cụm phổ biến, các đặc trưng của tiếng Việt và các phương pháp tách từ. Khóa luận cũng trình bày chi tiết về phương pháp xếp hạng các cụm từ quan trọng để phân cụm tài liệu, các đặc trưng sử dụng trong việc xếp hạng như TFIDF, độ dài, tương tự nội tại, entropy nội tại và đặc trưng độc lập cụm từ. Các kết quả thực nghiệm và đánh giá về ảnh hưởng của các đặc trưng TFIDF và LEN đối với bài toán phân cụm tài liệu tiếng Việt cũng được đề cập.

Mục lục chi tiết:

Chương 1: Khái quát về phân cụm Web

Chương 2: Phân cụm văn bản tiếng Việt

Chương 3: Phân cụm văn bản sử dụng phương pháp xếp hạng cụm từ quan trọng

Chương 4: Thực nghiệm và đánh giá