Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 63 trang
Dung lượng: 715 KB

Giới thiệu nội dung

Xác định Tỷ Lệ Tin Xấu Trên Báo Điện Tử Tiếng Việt Bằng Phương Pháp Học Sâu

Tác giả: Đặng Đình Quân

Lĩnh vực: Khoa học Máy tính

Nội dung tài liệu:

Luận văn này tập trung nghiên cứu một phương pháp hiệu quả để tự động đánh giá tỷ lệ thông tin tiêu cực (tin xấu) trên báo điện tử tiếng Việt. Với sự phổ biến của Internet và khối lượng thông tin khổng lồ được đăng tải hàng ngày, việc xác định tỷ lệ tin xấu trở nên cấp thiết để phản ánh đúng thực trạng xã hội và duy trì niềm tin của người đọc. Luận văn đề xuất sử dụng các phương pháp học sâu, một kỹ thuật học máy mạnh mẽ, có khả năng tự động học đặc trưng của dữ liệu văn bản, để giải quyết bài toán phân loại văn bản này. Nghiên cứu bao gồm việc giới thiệu sơ lược về học máy, học sâu, bài toán xác định tỷ lệ tin xấu, các phương pháp phân loại văn bản bằng học sâu, và đánh giá hiệu quả của các phương pháp đã đề xuất thông qua thực nghiệm.

Mục lục chi tiết:

  • Lời cam đoan
  • Lời cảm ơn
  • Danh mục các thuật ngữ, chữ viết tắt
  • Danh mục các hình vẽ và bảng
  • Mở đầu
  • Chương 1 – Sơ lược về học máy, học sâu và bài toán xác định tỷ lệ tin xấu
    • 1.1. Giới thiệu bài toán xác định tỷ lệ tin xấu
      • 1.1.1. Định nghĩa về tin xấu
      • 1.1.2. Phân loại văn bản
      • 1.1.3. Phân tích cảm xúc
    • 1.2. Sơ lược về học máy
      • 1.2.1. Học máy có giám sát
      • 1.2.2. Học máy không giám sát
      • 1.2.3. Học máy bán giám sát
      • 1.2.4. Hàm mục tiêu, hàm tổn thất, hàm chi phí
      • 1.2.5. Overfitting
    • 1.3. Sơ lược về học sâu
      • 1.3.1. Mạng nơ-ron
        • 1.3.1.1. Perceptron
        • 1.3.1.2. Mạng nơ-ron truyền thẳng nhiều lớp
      • 1.3.2. Hàm kích hoạt
        • 1.3.2.1. Softmax
        • 1.3.2.2. Sigmoid
        • 1.3.2.3. Hàm tanh
      • 1.3.3. Huấn luyện mạng nơ-ron
        • 1.3.3.1. SGD
        • 1.3.3.2. Backpropagation
        • 1.3.3.3. Hàm kích hoạt ReLU
        • 1.3.3.4. Adam
      • 1.3.4. Một số hàm chi phí
        • 1.3.4.1. MSE
        • 1.3.4.2. Categorical Cross Entropy
  • Chương 2 – Phương pháp xác định tỷ lệ bài viết nói về cái xấu trên báo điện tử tiếng Việt
    • 2.1. Biểu diễn thuộc tính
      • 2.1.1. Character-level, word-level
      • 2.1.2. One-hot encoding
      • 2.1.3. Word Embedding
      • 2.1.4. Word2Vec
    • 2.2. Các cấu trúc mạng nơ-ron sâu
      • 2.2.1. CNN
        • 2.2.1.1. Lớp tích chập
        • 2.2.1.2. Pooling
      • 2.2.2. RNN
      • 2.2.3. Dropout
    • 2.3. Một số phương pháp phân loại văn bản bằng học sâu
    • 2.4. Phương pháp MLP
    • 2.5. Phương pháp LSTM
    • 2.6. Phương pháp Bi-LSTM-CNN
  • Chương 3 – Đánh giá phương pháp xác định tỷ lệ tin xấu trên báo điện tử tiếng Việt
    • 3.1. Tập dữ liệu
      • 3.1.1. Phạm vi dữ liệu thử nghiệm
      • 3.1.2. Thu thập dữ liệu
      • 3.1.3. Xử lý & gán nhãn dữ liệu
    • 3.2. Thiết kế thí nghiệm
      • 3.2.1. Thí nghiệm 1
      • 3.2.2. Thí nghiệm 2
      • 3.2.3. Các độ đo để đánh giá kết quả
      • 3.2.4. Kiểm chứng chéo
    • 3.3. Kết quả thí nghiệm
      • 3.3.1. Thí nghiệm 1
      • 3.3.2. Thí nghiệm 2
  • Kết luận
  • Danh mục tài liệu tham khảo