Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 11 trang
Dung lượng: 204 KB

Giới thiệu nội dung

Phuong phap loc thu rac tieng viet dua tren tu ghep va theo vet nguoi su dung

Tác giả: Phan Hữu Tiếp, Vũ Đức Lung, Cao Nguyễn Thủy Tiên, Lâm Thành Hiển

Lĩnh vực: Công nghệ thông tin và truyền thông

Nội dung tài liệu: Bài báo này trình bày một phương pháp lọc thư rác (spam) cho tiếng Việt, tập trung vào việc phân tích từ ghép và theo dõi hành vi người dùng. Khác với các phương pháp truyền thống thường dựa trên từ đơn, bài báo đề xuất một mô hình áp dụng thuật toán Naïve Bayes để xử lý ngôn ngữ tiếng Việt, đặc biệt chú trọng đến cấu trúc từ ghép. Phương pháp này bao gồm các bước tiền xử lý, tách từ đơn và từ ghép, sau đó áp dụng thuật toán Naïve Bayes để phân loại thư. Một điểm nhấn của nghiên cứu là việc đề xuất cơ chế học từ vựng và cập nhật dữ liệu huấn luyện một cách tự động để nâng cao độ chính xác của hệ thống lọc thư rác tiếng Việt.

Mục lục chi tiết:

  • Tóm tắt báo cáo
  • Từ khóa
  • 1. Giới thiệu
  • 2. Phương pháp tiếp cận
  • 2.1. Mục tiêu chính
  • 2.2. Tiền xử lý và tách câu tiếng Việt
  • 2.3. Phân tích từ đơn
  • 2.4. Phân tích từ ghép
  • 2.5. Quy trình cập nhật từ vựng tiếng Việt
  • 3. Quy trình lọc thư rác tiếng Việt
  • 3.1. Áp dụng thuật toán Naïve Bayes
  • 3.2. Kết quả thực nghiệm
  • 4. Kết luận
  • Tài liệu tham khảo (References)