Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 1 trang
Dung lượng: 36 KB

Giới thiệu nội dung

Fundamentals of Chinese Language Processing

Tác giả: Chu-Ren Huang, Qin Lu

Lĩnh vực: Xử lý ngôn ngữ tự nhiên

Nội dung tài liệu: Tài liệu này cung cấp một giới thiệu về các nguyên tắc cơ bản của xử lý ngôn ngữ Trung Quốc cho việc xử lý văn bản. Với lượng lớn thông tin tiếng Trung Quốc ngày càng có sẵn ở dạng điện tử và trên internet, việc xử lý ngôn ngữ này bằng máy tính đòi hỏi sự hiểu biết về cả ngôn ngữ và công nghệ để xử lý chúng. Bài trình bày này được nhắm đến cả các nhà ngôn ngữ học tiếng Trung quan tâm đến ngôn ngữ học tính toán và các nhà khoa học máy tính quan tâm đến nghiên cứu xử lý tiếng Trung. Tài liệu bao gồm hai phần: phần đầu tiên trình bày tổng quan về ngữ pháp tiếng Trung từ góc độ xử lý ngôn ngữ dựa trên dữ liệu thực tế và phương pháp dựa trên kho ngữ liệu, và phần thứ hai trình bày các vấn đề xử lý đặc thù của tiếng Trung và các công nghệ tính toán tương ứng. Các chủ đề chính được đề cập bao gồm phân đoạn từ, gán nhãn từ loại, phát hiện từ chưa biết và nhận dạng thực thể có tên.

Mục lục chi tiết:

  • 1. Giới thiệu
  • 2. Tổng quan nội dung
  • 3. Phác thảo hướng dẫn
    • Phần 1: Điểm nổi bật của Ngữ pháp Trung Quốc cho NLP
      • 1.1 Tiền đề: Chính tả và quy ước viết
      • 1.2 Đơn vị xử lý cơ bản: từ hay ký tự?
        • a. Dạng từ so với dạng ký tự
        • b. Nghĩa từ so với nghĩa ký tự
      • 1.3 Từ loại: Các vấn đề quan trọng trong việc định nghĩa các lớp từ
      • 1.4 Hình thành từ: từ ghép đến từ phức
      • 1.5 Các cấu trúc và thách thức độc đáo
        • a. Sự phù hợp giữa đại từ chỉ định và danh từ
        • b. Các hợp chất có thể tách rời (hoặc ion hóa)
        • c. Các cấu trúc “không động từ”
      • 1.6 Tài nguyên NLP tiếng Trung
    • Phần 2: Xử lý văn bản
      • 2.1 Xử lý từ vựng
        • a. Phân đoạn
        • b. Làm rõ nghĩa
        • c. Phát hiện từ chưa biết
        • d. Nhận dạng thực thể có tên
      • 2.2 Xử lý cú pháp
        • a. Các vấn đề trong gán nhãn từ loại
        • b. Mô hình Markov ẩn
      • 2.3 Ứng dụng NLP
  • Tham khảo