Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF

Số trang: 54 trang

Dung lượng: Đang cập nhật

Giới thiệu nội dung

Mô Hình Ngôn Ngữ Sử Dụng Mapreduce

Tác giả: Vũ Thị Thanh

Lĩnh vực: Công nghệ thông tin

Nội dung tài liệu:

Luận văn “Mô hình ngôn ngữ sử dụng Mapreduce” tập trung nghiên cứu việc ứng dụng Hadoop và MapReduce nhằm cải thiện tốc độ xây dựng và ước lượng mô hình ngôn ngữ, đặc biệt là xử lý hiệu quả với lượng dữ liệu lớn để đưa ra mô hình chính xác hơn. Luận văn đề cập đến các khái niệm cơ bản về mô hình ngôn ngữ, mô hình N-gram, các phương pháp làm mịn (như Good-Turing, Add-one, Kneser-Ney) và các phương pháp đánh giá mô hình. Đồng thời, luận văn cũng giới thiệu tổng quan về kiến trúc và cơ chế hoạt động của Hadoop và MapReduce. Phần ứng dụng cụ thể sử dụng phương pháp làm mịn Good-Turing để xây dựng mô hình ngôn ngữ với MapReduce. Cuối cùng, luận văn trình bày các phương pháp thực nghiệm và đánh giá kết quả đạt được.

Mục lục chi tiết:

Lời cảm ơn
Lời cam đoan
Danh mục thuật ngữ viết tắt
Danh mục hình vẽ
Danh mục bảng
Giới thiệu
Chương 1: Mô hình ngôn ngữ

1.1 Giới thiệu
1.2 Mô hình ngôn ngữ N-gram
1.3 Khó khăn khi xây dựng mô hình ngôn ngữ N-gram

1.3.1 Phân bố không đều
1.3.2 Kích thước bộ nhớ của mô hình ngôn ngữ

1.4 Các phương pháp làm mịn

1.4.1 Phương pháp Add-one
1.4.2 Phương pháp Good – Turing
1.4.3 Phương pháp truy hồi back-off
1.4.4 Phương pháp nội suy
1.4.5 Phương pháp Kneser – Ney

1.5 Đánh giá mô hình ngôn ngữ

1.5.1 Entropy – Độ đo thông tin
1.5.2 Perplexity – Độ hỗn loạn thông tin
1.5.3 Error rate – Tỉ lệ lỗi

Chương 2: Tổng quan về Hadoop MapReduce

2.1 Hadoop
2.2 Các thành phần của Hadoop

2.2.1 Kiến trúc hệ thống tệp phân tán

2.3 Mapreduce

2.3.1 Kiến trúc của Mapreduce
2.3.2 Cơ chế hoạt động

2.4 Ưu điểm của Hadoop

Chương 3: Ước lượng mô hình ngôn ngữ với Mapreduce

3.1 Đếm các từ
3.2 Đếm số lần xuất hiện (Generate count of counts)
3.3 Sinh số làm mịn Good-Turing
3.4 Ước lượng xác suất n-gram
3.5 Sinh bảng Hbase

3.5.1 Cấu trúc dựa trên n-gram
3.5.2 Cấu trúc dựa trên từ hiện tại
3.5.3 Cấu trúc dựa trên đoạn văn
3.5.4 Cấu trúc dựa trên nửa ngram
3.5.5 Cấu trúc dựa trên số nguyên

3.6 Truy vấn trực tiếp

Chương 4: Các phương pháp đánh giá và thực nghiệm

4.1 Các phương pháp đánh giá

4.1.1 Thời gian và bộ nhớ
4.1.2 Sự so sánh độ hỗn loạn thông tin mô hình ngôn ngữ

4.2 Thực nghiệm

4.2.1 Môi trường chạy thực nghiệm
4.2.2 Dữ liệu
4.2.3 Đánh giá thời gian và bộ nhớ cho các ngram
4.2.4 So sánh thời gian chạy với SRILM

Kết luận
Tài liệu tham khảo

Kinh tế - Quản trị - Quản lý

Tài chính - Ngân hàng - Kế toán

Kỹ thuật - Công nghệ

Giáo dục - Sư phạm

Y học - Dược học

Khoa học Xã hội - Nhân văn

Nông - Lâm - Ngư nghiệp

Khoa học Tự nhiên

Luật - Hành chính

Công nghệ thông tin

Kiến trúc - Xây dựng

Môi trường - Tài nguyên

Khác

Ngôn ngữ - Văn học

Điều dưỡng - Y tế công cộng

Kinh tế - Quản trị - Quản lý

Tài chính - Ngân hàng - Kế toán

Kỹ thuật - Công nghệ

Giáo dục - Sư phạm

Y học - Dược học

Khoa học Xã hội - Nhân văn

Nông - Lâm - Ngư nghiệp

Khoa học Tự nhiên

Luật - Hành chính

Công nghệ thông tin

Kiến trúc - Xây dựng

Môi trường - Tài nguyên

Khác

Ngôn ngữ - Văn học

Điều dưỡng - Y tế công cộng

Xem trước tài liệu

Thông tin chi tiết tài liệu

Giới thiệu nội dung

Mô Hình Ngôn Ngữ Sử Dụng Mapreduce

Tài liệu liên quan

CHUYỂN ĐỔI TỪ MÔ HÌNH UML SANG OWL ONTOLOGY VÀ ỨNG DỤNG

Luận án Tiến sĩ Khoa học máy tính: Phân tích dữ liệu chuỗi thời gian trong các bài toán đánh giá và dự báo

Luận văn: Một số dạng hàng đợi và các nguyên lý xử lý

Khóa luận tốt nghiệp Hệ thống thông tin môi trường: Tích hợp GIS và AHP trong đánh giá thích nghi cây cao su tại huyện Chơn Thành tỉnh Bình Phước

Luận văn: Chống Tấn Công SQL Injection Sử Dụng Các Khuôn Mẫu Tổng Quát

Gibberellin: thu nhận và ứng dụng trong nông nghiệp

Luận án Tiến sĩ Y học: Nghiên cứu sử dụng vạt đùi trước ngoài phức hợp tự do che phủ tổn khuyết phần mềm phức tạp cẳng – bàn chân

Báo cáo tóm tắt đề tài khoa học và công nghệ cấp ĐH: Nghiên cứu ứng dụng cảm biến quán tính để ước lượng các thông số bước đi cho người sử dụng thiết bị hỗ trợ đi lại

Ứng dụng Công nghệ Thông tin Trong Giải quyết Công việc Tại cơ quan Bộ Y tế

Luận văn: Dự đoán sự tương tác giữa các protein dựa trên kỹ thuật học sâu

Tiểu luận tốt nghiệp Hệ thống thông tin môi trường: Nghiên cứu về xử lý song song trong GIS và xây dựng ứng dụng song song hóa thuật toán định dòng chảy trên bề mặt

Tìm Hiểu Về Search Engine Và Xây Dựng Ứng Dụng Minh Hoạ Cho Search Engine Tiếng Việt

Tài liệu xem nhiều

Luận án Tiến sĩ: Nghiên cứu thành phần hóa học và hoạt tính sinh học của loài gai kim (Barleria prionitis L.) thuộc họ Ô rô (Acanthaceae) ở Lào

Báo cáo bài tập lớn Vật lý A1: Vẽ quỹ đạo chuyển động ném xiên trong trọng trường bỏ qua lực cản và xác định một vài thông số liên quan

Luận án Tiến sĩ: Ảnh hưởng của tín ngưỡng thờ Đức Thánh Trần ở đền Kiếp Bạc đến đời sống tinh thần người dân tỉnh Hải Dương hiện nay

Luận văn Thạc sĩ Khoa học giáo dục: Quản lý đổi mới phương pháp dạy học các môn KHTN ở trường THCS huyện Lâm Thao, tỉnh Phú Thọ

BƢỚC ĐẦU TẠO CÂY TIÊU (Piper nigrum) IN VITRO KHÁNG NẤM Phytophthora sp