Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 4 trang
Dung lượng: 177 KB

Giới thiệu nội dung

WikiBABEL: A Wiki-Style Platform for Creation of Parallel Data

Tác giả: A Kumaran, K Saravanan, Naren Datha, B Ashok, Vikram Dendi

Lĩnh vực: Multilingual Systems Research, Advanced Development & Prototyping, Machine Translation Incubation

Nội dung tài liệu:
Bài viết giới thiệu nền tảng WikiBABEL, một hệ thống wiki cho phép tạo nội dung đa ngôn ngữ một cách cộng tác, đặc biệt là cho các Wikipedia không sử dụng tiếng Anh. WikiBABEL tận dụng nội dung phong phú và ổn định của Wikipedia tiếng Anh để hỗ trợ việc tạo ra các kho ngữ liệu song song (parallel corpora), vốn rất quan trọng cho nghiên cứu các hệ thống xử lý ngôn ngữ tự nhiên như Dịch máy thống kê (SMT) và Truy vấn thông tin xuyên ngôn ngữ (CLIR). Nền tảng này cung cấp giao diện người dùng trực quan, công cụ tìm kiếm hiệu quả và các công cụ ngôn ngữ học, cộng tác để đơn giản hóa quá trình dịch thuật. Bài viết trình bày hai phiên bản khác nhau của WikiBABEL và kinh nghiệm thử nghiệm với người dùng thực tế, nhằm đánh giá tính khả dụng của công cụ và phương pháp tiếp cận trong việc tạo dữ liệu ngôn ngữ đa dạng, đặc biệt cho các ngôn ngữ có ít tài nguyên.

Mục lục chi tiết:

  • Abstract
  • 1 Introduction
  • 2 Architecture of WikiBABEL
  • 3 WikiBABEL on Wikipedia
  • 3.1 Wikipedia: User & Data Characteristics
  • 3.2 Version 1: A Hosted Portal
  • 3.3 Version 2: As a Transparent Edit Layer
  • References