Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 50 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ

Tác giả: Nguyễn Thị Thuỳ Linh

Lĩnh vực: Công nghệ thông tin

Nội dung tài liệu:

Khóa luận này tập trung xây dựng một bộ phân lớp tài liệu web độc lập ngôn ngữ, áp dụng nguyên lý entropy cực đại. Phương pháp này cho phép tích hợp các ngôn ngữ mới vào bộ phân lớp và giải quyết vấn đề bùng nổ đặc trưng bằng cách sử dụng hướng tiếp cận entropy cực đại và tối ưu hóa hàm nhiều biến. Kết quả thực nghiệm trên 12.000 trang web bao gồm tiếng Anh và tiếng Việt cho thấy hiệu quả khả quan, với độ chính xác đạt xấp xỉ 95% khi kết hợp hai ngôn ngữ. Bên cạnh đó, luận văn cũng phân tích các vấn đề về nhập nhằng ngôn ngữ và bùng nổ đặc trưng, đề xuất các phương pháp khắc phục hiệu quả, bao gồm cả việc xây dựng mô hình dựa trên cây phân lớp thông minh, một đề xuất mới cho các ứng dụng cần phân loại văn bản và nhận diện ngôn ngữ.

Mục lục chi tiết:

  • Lời cảm ơn
  • Tóm tắt nội dung
  • Mục lục
  • Bảng kí hiệu viết tắt
  • Danh mục bảng số liệu
  • Danh mục hình ảnh
  • Mở đầu
  • Chương 1: Khái quát về phân lớp văn bản độc lập ngôn ngữ
  • Chương 2: Các mô hình và thuật toán phân lớp văn bản
  • Chương 3: Phân lớp tài liệu web độc lập ngôn ngữ với mô hình entropy cực đại
  • Chương 4: Kết quả thử nghiệm và đánh giá
  • Kết luận
  • Phụ lục. Danh sách Stop-word
  • Tài liệu tham khảo