Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 9 trang
Dung lượng: 136 KB

Giới thiệu nội dung

Creating a Gold Standard for Sentence Clustering in Multi-Document Summarization

Tác giả: Johanna Geiss

Lĩnh vực: Khoa học máy tính, Xử lý ngôn ngữ tự nhiên, Tóm tắt văn bản đa tài liệu.

Nội dung tài liệu:

Bài báo này trình bày quy trình xây dựng một tiêu chuẩn vàng (gold standard) cho việc phân cụm câu trong lĩnh vực Tóm tắt Văn bản Đa tài liệu (Multi-Document Summarization – MDS). Hiện tại, chưa có một tiêu chuẩn chung nào cho việc đánh giá phân cụm câu, dẫn đến khó khăn trong việc đánh giá hiệu quả của các hệ thống MDS. Nghiên cứu này mô tả chi tiết phương pháp xây dựng tiêu chuẩn vàng, bao gồm các hướng dẫn và quy tắc được cung cấp cho sáu người đánh giá độc lập. Mục tiêu là tạo ra một bộ dữ liệu được phân cụm một cách thủ công, có chất lượng cao, để các hệ thống phân cụm câu có thể được so sánh và đánh giá một cách khách quan. Bài báo cũng thảo luận về các biện pháp đánh giá phổ biến và hứa hẹn nhất.

Mục lục chi tiết:

  • Abstract
  • 1 Introduction
  • 2 Related Work
  • 3 Data Set for Clustering
  • 4 Creation of the Gold Standard
  • 4.1 Guidelines
  • 4.2 Differences in manual clusterings
  • 5 Evaluation Measures
  • 5.1 V-measure and Vbeta
  • 5.2 Normalized Mutual Information
  • 5.3 Variation of Information (VI) and Normalized VI
  • 5.4 Rand Index (RI)
  • 5.5 Entropy and Purity
  • 5.6 F-measure
  • 5.7 Discussion of the Evaluation measures
  • 6 Comparability of Clusterings
  • 7 Inter-Judge Agreement
  • 8 Conclusion and Future Work
  • References