Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 8 trang
Dung lượng: 165 KB

Giới thiệu nội dung

Clustering Technique in Multi-Document Personal Name Disambiguation

Tác giả: Chen Chen, Hu Junfeng, Wang Houfeng

Lĩnh vực: Computational Linguistics, Ministry of Education, China

Nội dung tài liệu: Tài liệu này trình bày một phương pháp tiếp cận phân cụm tích lũy để giải quyết vấn đề nhận dạng tên riêng đa văn bản. Phương pháp này đề xuất một cách tính trọng số đặc trưng mới dựa trên thông tin tương hỗ điểm, một thước đo để dừng phân cụm dựa trên sự cân bằng giữa độ chặt trong cụm và độ tách giữa các cụm, và một thuật toán gán nhãn để xác định đặc trưng đại diện cho mỗi cụm. Các thử nghiệm được thực hiện trên dữ liệu phân cụm dựa trên từ trong tập dữ liệu tiếng Trung cho thấy hiệu quả tốt.

Mục lục chi tiết:

  • Abstract
  • 1 Introduction
  • 2 Related Work
  • 3 Framework
  • 4 Methodology
    • 4.1 Feature weight
    • 4.2 Cluster-stopping measure
    • 4.3 Labeling
  • 5 Experiment
    • 5.1 Data
    • 5.2 Result
  • 5.3 Discussion
  • 6 Future Work
  • Acknowledgments