Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 150 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Đánh giá Mức độ Giống nhau của Văn bản Tiếng Việt

Tác giả: Hồ Phan Hiếu

Lĩnh vực: Khoa học Máy tính

Nội dung tài liệu:

Luận án tập trung nghiên cứu việc đánh giá mức độ tương tự giữa các văn bản tiếng Việt. Xuất phát từ nhu cầu thực tiễn về việc phát hiện nội dung sao chép, đặc biệt trong bối cảnh các tài liệu được số hóa và phổ biến rộng rãi trên Internet. Nghiên cứu đề xuất các phương pháp và thuật toán để phân tích, so sánh, đánh giá sự giống nhau của văn bản tiếng Việt, nhằm góp phần nâng cao hiệu quả trong việc phát hiện sao chép.

Luận án đi sâu vào phân tích các mô hình biểu diễn văn bản, đặc biệt là mô hình vector, cũng như các phương pháp tính toán độ tương tự. Đồng thời, đề xuất các giải pháp mới dựa trên việc ứng dụng phương pháp biến đổi Wavelet rời rạc (DWT) và bộ lọc Haar để chuyển đổi văn bản thành chuỗi số DNA, từ đó thực hiện so sánh và phát hiện sự giống nhau. Luận án cũng đề cập đến việc xây dựng kho dữ liệu văn bản tiếng Việt và phát triển hệ thống phát hiện sao chép, có tính đến khả năng xử lý dữ liệu lớn.

Mục lục chi tiết:

  • Lời cam đoan
  • Mục lục
  • Danh mục các từ viết tắt
  • Danh mục bảng biểu
  • Danh mục hình vẽ
  • Danh mục thuật toán
  • Lời mở đầu (Đặt vấn đề, Mục tiêu nghiên cứu, Đối tượng và phạm vi nghiên cứu, Phương pháp nghiên cứu, Nhiệm vụ nghiên cứu và kết quả đạt được, Bố cục của luận án)
  • Chương 1: Tổng quan tình hình nghiên cứu
  • Chương 2: So sánh văn bản dựa trên mô hình vector
  • Chương 3: Phát hiện sao chép văn bản dựa trên biến đổi Wavelet rời rạc
  • Chương 4: Phát triển hệ thống phát hiện sao chép văn bản tiếng Việt
  • Kết luận và hướng phát triển
  • Danh mục các công trình khoa học đã công bố
  • Tài liệu tham khảo