Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF

Số trang: 52 trang

Dung lượng: 751 KB

Giới thiệu nội dung

Phân Đoạn Từ Tiếng Việt Sử Dụng Mô Hình CRFs

Tác giả: Nguyễn Trung Kiên

Lĩnh vực: Công nghệ thông tin

Nội dung tài liệu:

Khóa luận này tập trung vào bài toán phân đoạn từ tiếng Việt, một bước cơ bản trong xử lý ngôn ngữ tự nhiên. Nghiên cứu trình bày các đặc điểm của tiếng Việt liên quan đến phân đoạn từ, khảo sát các phương pháp phân đoạn từ hiện có, và đề xuất sử dụng mô hình Conditional Random Fields (CRFs) làm phương pháp tiếp cận chính. Mô hình CRFs được lựa chọn vì khả năng xử lý dữ liệu chuỗi mạnh mẽ và tích hợp nhiều đặc điểm, phù hợp với tính chất phức tạp của tiếng Việt. Khóa luận cũng mô tả quá trình xây dựng hệ thống, lựa chọn thuộc tính, và đánh giá kết quả thử nghiệm, nhằm mục tiêu xây dựng một hệ thống phân đoạn từ tiếng Việt có độ chính xác cao, hỗ trợ các ứng dụng xử lý ngôn ngữ tự nhiên.

Mục lục chi tiết:

Lời cảm ơn
Tóm tắt
Mục lục
Bảng từ viết tắt
Lời nói đầu
Bài toán phân đoạn từ tiếng Việt
Mục tiêu của khóa luận
Ý nghĩa và đóng góp của khóa luận
Cấu trúc của khóa luận
Chương 1. Phân đoạn từ tiếng Việt

1.1 Từ vựng tiếng Việt

1.1.1 Tiếng – đơn vị cấu tạo lên từ

1.1.1.1 Khái niệm
1.1.1.2 Phân loại
1.1.1.3 Mô hình tiếng trong tiếng Việt và các thành tố của nó

1.1.2 Cấu tạo từ

1.1.2.1 Từ đơn
1.1.2.2 Từ ghép
1.1.2.3 Từ láy

1.1.3 Nhập nhằng

1.2 Phân đoạn từ tiếng Việt bằng máy tính

1.2.1 Phương pháp Maximum Matching
1.2.2 Phương pháp TBL
1.2.3 Phương pháp WFST

1.3 Phương pháp tiếp cận của khóa luận
1.4 Tổng kết chương

Chương 2. Conditional Random Field

2.1 Định nghĩa CRF
2.2 Huấn luyện CRF
2.3 Suy diễn CRF
2.4 Tổng kết chương

Chương 3. Phân đoạn từ tiếng Việt với mô hình CRF

3.1 Mô tả bài toán phận đoạn từ tiếng Việt

3.1.1 Thu thập dữ liệu
3.1.2 Chuẩn bị dữ liệu
3.1.3 Đầu vào và đầu ra của mô hình CRFs

3.2 Lựa chọn thuộc tính

3.2.1 Mẫu ngữ cảnh từ điển
3.2.2 Mẫu ngữ cảnh từ vựng
3.2.3 Mẫu ngữ cảnh phát hiện tên thực thể
3.2.4 Mẫu ngữ cảnh phát hiện từ láy
3.2.5 Mẫu ngữ cảnh âm tiết tiếng Việt
3.2.6 Mẫu ngữ cảnh dạng regular expression

3.3 Cách đánh giá

3.3.1 Phương pháp đánh giá
3.3.2 Các đại lượng đo độ chính xác

3.4 Tổng kết chương

Chương 4. Thử nghiệm và đánh giá

4.1 Môi trường thử nghiệm

4.1.1 Phần cứng
4.1.2 Phần mềm

4.2 Mô tả thử nghiệm

4.2.1 Thiết lập tham số
4.2.2 Mô tả thử nghiệm

4.3 Kết quả thử nghiệm

4.3.1 Thử nghiệm 1
4.3.2 Thử nghiệm 2
4.3.2.1 Kết quả 5 lần thử nghiệm
4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
4.3.2.3 Trung bình 5 lần thực nghiệm
4.3.3 Thử nghiệm 3
4.3.2.1 Kết quả 5 lần thử nghiệm
4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
4.3.2.3 Trung bình 5 lần thực nghiệm
4.3.4 Thử nghiệm 4
4.3.2.1 Kết quả 5 lần thử nghiệm
4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
4.3.2.3 Trung bình 5 lần thực nghiệm
4.3.5 Thử nghiệm 5
4.3.2.1 Kết quả 5 lần thử nghiệm
4.3.2.2 Lần thử nghiệm cho kết quả tốt nhất
4.3.2.3 Trung bình 5 lần thực nghiệm

4.4 Phân tích và thảo luận kết quả thử nghiệm
4.5 Tổng kết chương

Phần kết luận

Tổng kết công việc đã làm và đóng góp của luận văn
Hướng nghiên cứu tiếp theo

Tài liệu tham khảo

Kinh tế - Quản trị - Quản lý

Tài chính - Ngân hàng - Kế toán

Kỹ thuật - Công nghệ

Giáo dục - Sư phạm

Y học - Dược học

Khoa học Xã hội - Nhân văn

Nông - Lâm - Ngư nghiệp

Khoa học Tự nhiên

Luật - Hành chính

Công nghệ thông tin

Kiến trúc - Xây dựng

Môi trường - Tài nguyên

Khác

Ngôn ngữ - Văn học

Điều dưỡng - Y tế công cộng

Kinh tế - Quản trị - Quản lý

Tài chính - Ngân hàng - Kế toán

Kỹ thuật - Công nghệ

Giáo dục - Sư phạm

Y học - Dược học

Khoa học Xã hội - Nhân văn

Nông - Lâm - Ngư nghiệp

Khoa học Tự nhiên

Luật - Hành chính

Công nghệ thông tin

Kiến trúc - Xây dựng

Môi trường - Tài nguyên

Khác

Ngôn ngữ - Văn học

Điều dưỡng - Y tế công cộng

Xem trước tài liệu

Thông tin chi tiết tài liệu

Giới thiệu nội dung

Nội dung tài liệu:

Mục lục chi tiết:

Tài liệu liên quan

Bảo mật tính riêng tư của dữ liệu trong mạng ngang hàng P2P

Master’s thesis of Applied Science (Medical and Health Physics): Investigation of dose distribution to breasts in coronary angiography

Luận văn Thạc sĩ theo định hướng ứng dụng: Mô hình “cánh đồng mẫu lớn” trong sản xuất lúa tại huyện Phú Bình, tỉnh Thái Nguyên

Thực tập tốt ngiệp: Ứng dụng kỹ thuật QF-PCR trong chẩn đoán trước sinh các rối loạn nhiễm sắc thể thường gặp

Luận án Tiến sĩ: Nghiên cứu ứng dụng kỹ thuật cắt ruột thừa nội soi qua đường âm đạo

ĐỀ TÀI ” ỨNG DỤNG GIS TRONG PHÂN CẤP XUNG YẾU LƯU VỰC TẠI XÃ HIẾU HUYỆN KON PLONG TỈNH KON TUM “

Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Nâng cao hiệu năng trong mạng VANET bằng việc cải tiến phương pháp điều khiển truy cập

Hệ Thống Các Yêu Cầu Phần Mềm

Tóm tắt Luận văn Thạc sĩ: Ứng dụng công nghệ SND vào hệ thống mạng nội bộ của trường Đại học Hà Nội

Luận văn Thạc sĩ Khoa học máy tính: Tạo lập hệ luật mờ sử dụng phân cụm trừ mờ dữ liệu

Luận văn: Nghiên cứu Tính Khả Dụng Của Các Hệ Thống Thông Tin Doanh Nghiệp Dựa Trên Dịch Vụ Web

Đồ án tốt nghiệp – Xây dựng ứng dụng J2EE với Rational Rose và UML

Tài liệu xem nhiều

Luận án Tiến sĩ: Nghiên cứu thành phần hóa học và hoạt tính sinh học của loài gai kim (Barleria prionitis L.) thuộc họ Ô rô (Acanthaceae) ở Lào

Báo cáo bài tập lớn Vật lý A1: Vẽ quỹ đạo chuyển động ném xiên trong trọng trường bỏ qua lực cản và xác định một vài thông số liên quan

Luận án Tiến sĩ: Ảnh hưởng của tín ngưỡng thờ Đức Thánh Trần ở đền Kiếp Bạc đến đời sống tinh thần người dân tỉnh Hải Dương hiện nay

Luận văn Thạc sĩ Khoa học giáo dục: Quản lý đổi mới phương pháp dạy học các môn KHTN ở trường THCS huyện Lâm Thao, tỉnh Phú Thọ

BƢỚC ĐẦU TẠO CÂY TIÊU (Piper nigrum) IN VITRO KHÁNG NẤM Phytophthora sp