Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 54 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Mô Hình Ngôn Ngữ Sử Dụng Mapreduce

Tác giả: Vũ Thị Thanh

Lĩnh vực: Công nghệ thông tin

Nội dung tài liệu:

Luận văn “Mô hình ngôn ngữ sử dụng Mapreduce” tập trung nghiên cứu việc ứng dụng Hadoop và MapReduce nhằm cải thiện tốc độ xây dựng và ước lượng mô hình ngôn ngữ, đặc biệt là xử lý hiệu quả với lượng dữ liệu lớn để đưa ra mô hình chính xác hơn. Luận văn đề cập đến các khái niệm cơ bản về mô hình ngôn ngữ, mô hình N-gram, các phương pháp làm mịn (như Good-Turing, Add-one, Kneser-Ney) và các phương pháp đánh giá mô hình. Đồng thời, luận văn cũng giới thiệu tổng quan về kiến trúc và cơ chế hoạt động của Hadoop và MapReduce. Phần ứng dụng cụ thể sử dụng phương pháp làm mịn Good-Turing để xây dựng mô hình ngôn ngữ với MapReduce. Cuối cùng, luận văn trình bày các phương pháp thực nghiệm và đánh giá kết quả đạt được.

Mục lục chi tiết:

  • Lời cảm ơn
  • Lời cam đoan
  • Danh mục thuật ngữ viết tắt
  • Danh mục hình vẽ
  • Danh mục bảng
  • Giới thiệu
  • Chương 1: Mô hình ngôn ngữ
    • 1.1 Giới thiệu
    • 1.2 Mô hình ngôn ngữ N-gram
    • 1.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram
      • 1.3.1 Phân bố không đều
      • 1.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ
    • 1.4 Các phương pháp làm mịn
      • 1.4.1 Phương pháp Add-one
      • 1.4.2 Phương pháp Good – Turing
      • 1.4.3 Phương pháp truy hồi back-off
      • 1.4.4 Phương pháp nội suy
      • 1.4.5 Phương pháp Kneser – Ney
    • 1.5 Đánh giá mô hình ngôn ngữ
      • 1.5.1 Entropy – Độ đo thông tin
      • 1.5.2 Perplexity – Độ hỗn loạn thông tin
      • 1.5.3 Error rate – Tỉ lệ lỗi
  • Chương 2: Tổng quan về Hadoop MapReduce
    • 2.1 Hadoop
    • 2.2 Các thành phần của Hadoop
      • 2.2.1 Kiến trúc hệ thống tệp phân tán
    • 2.3 Mapreduce
      • 2.3.1 Kiến trúc của Mapreduce
      • 2.3.2 Cơ chế hoạt động
    • 2.4 Ưu điểm của Hadoop
  • Chương 3: Ước lượng mô hình ngôn ngữ với Mapreduce
    • 3.1 Đếm các từ
    • 3.2 Đếm số lần xuất hiện (Generate count of counts)
    • 3.3 Sinh số làm mịn Good-Turing
    • 3.4 Ước lượng xác suất n-gram
    • 3.5 Sinh bảng Hbase
      • 3.5.1 Cấu trúc dựa trên n-gram
      • 3.5.2 Cấu trúc dựa trên từ hiện tại
      • 3.5.3 Cấu trúc dựa trên đoạn văn
      • 3.5.4 Cấu trúc dựa trên nửa ngram
      • 3.5.5 Cấu trúc dựa trên số nguyên
    • 3.6 Truy vấn trực tiếp
  • Chương 4: Các phương pháp đánh giá và thực nghiệm
    • 4.1 Các phương pháp đánh giá
      • 4.1.1 Thời gian và bộ nhớ
      • 4.1.2 Sự so sánh độ hỗn loạn thông tin mô hình ngôn ngữ
    • 4.2 Thực nghiệm
      • 4.2.1 Môi trường chạy thực nghiệm
      • 4.2.2 Dữ liệu
      • 4.2.3 Đánh giá thời gian và bộ nhớ cho các ngram
      • 4.2.4 So sánh thời gian chạy với SRILM
  • Kết luận
  • Tài liệu tham khảo