Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 17 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Tiếp cận khai phá dữ liệu văn bản và ứng dụng phương pháp Naive Bayes trong bộ lọc thư rác tự động

Tác giả: Nguyễn Thị Thanh Tâm

Lĩnh vực: Truyền dữ liệu và mạng máy tính

Nội dung tài liệu:

Luận văn này tập trung vào việc khai phá dữ liệu văn bản, một lĩnh vực khoa học liên ngành mới nổi nhằm giải quyết vấn đề “ngập lụt thông tin” do sự phát triển mạnh mẽ của công nghệ thông tin và Internet. Nghiên cứu đi sâu vào việc ứng dụng phương pháp Naive Bayes để xây dựng bộ lọc thư rác tự động, giải quyết vấn đề thư rác (spam) ngày càng gia tăng trên thư điện tử.

Luận văn đã trình bày các kiến thức cơ bản về khai phá dữ liệu văn bản, các bài toán liên quan như phân loại văn bản, tìm kiếm văn bản. Đặc biệt, nghiên cứu tập trung vào thuật toán Naive Bayes, bao gồm cơ sở lý thuyết, cách thức hoạt động và các bước xây dựng bộ lọc thư rác sử dụng thuật toán này.

Ngoài ra, luận văn còn giới thiệu một số công nghệ lọc thư rác hiện nay và tiến hành thử nghiệm ứng dụng Naive Bayes trên kho dữ liệu PU, cũng như giới thiệu phần mềm lọc thư rác Spam Reader 3.0. Các kết quả thử nghiệm đã cho thấy hiệu quả của phương pháp Naive Bayes trong việc phân loại thư rác.

Luận văn cũng đề cập đến hướng phát triển tiếp theo, bao gồm việc xây dựng Email Client có khả năng lọc thư rác tự động và nghiên cứu các phương pháp xử lý dữ liệu lớn trong khai phá dữ liệu văn bản.

Mục lục chi tiết:

  • Chương 1: Tổng quan về khai phá dữ liệu văn bản
  • Chương 2: Một số cơ sở lý thuyết và phương pháp phân loại văn bản
  • Chương 3: Ứng dụng phương pháp Naive Bayes trong bộ lọc thư rác tự động
  • Kết luận và hướng phát triển