Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 26 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Document Geometric Layout Analysis Based on Adaptive Threshold

Tác giả: HA DAI TON

Lĩnh vực: Mathematics for Informatics

Nội dung tài liệu:

Luận án Tiến sĩ này tập trung vào phân tích bố cục hình học của tài liệu dựa trên ngưỡng thích ứng. Nghiên cứu nhằm mục đích phát triển các thuật toán phân tích bố cục có khả năng giảm thiểu đồng thời cả hai lỗi phổ biến là phân đoạn quá mức (over-segmentation) và phân đoạn chưa đủ (under-segmentation). Phạm vi nghiên cứu giới hạn trong các trang ảnh văn bản ngôn ngữ Latin, đặc biệt là tiếng Anh, và tập trung vào phân tích các vùng văn bản. Luận án không đề cập đến việc phát hiện và phân tích cấu trúc bảng, vùng hình ảnh và cấu trúc logic.

Các kết quả đạt được bao gồm:

  • Đề xuất giải pháp tăng tốc thuật toán phát hiện ảnh nền.
  • Phương pháp tham số hóa thích ứng giúp giảm ảnh hưởng của kích thước và kiểu phông chữ lên kết quả phân tích bố cục.
  • Giải pháp mới cho việc phát hiện và sử dụng đối tượng phân tách trong thuật toán phân tích bố cục.
  • Giải pháp mới phân tách các vùng văn bản thành các đoạn dựa trên phân tích ngữ cảnh.

Luận án giới thiệu các khái niệm cơ bản về nhận dạng ký tự quang học (OCR), đặc biệt nhấn mạnh vào bước phân tích bố cục tài liệu. Các phương pháp tiếp cận phân tích bố cục điển hình như top-down, bottom-up và hybrid được trình bày, cùng với những ưu điểm và hạn chế của chúng. Nghiên cứu cũng đề cập đến các bộ dữ liệu và phương pháp đánh giá thuật toán phân tích bố cục tài liệu, bao gồm UW-III, PRIMA và UNLV.

Chương tiếp theo trình bày chi tiết về thuật toán phát hiện nền tài liệu nhanh chóng, được sử dụng làm mô-đun trong thuật toán đề xuất ở Chương 3.

Mục lục chi tiết:

  • Giới thiệu
  • Tổng quan về phân tích bố cục tài liệu
  • Các thuật toán điển hình cho việc phân tích cấu trúc hình học của bố cục
  • Phương pháp và bộ dữ liệu để đánh giá các thuật toán phân tích bố cục tài liệu
  • Thuật toán phân tích bố cục tài liệu nhanh chóng và thuật toán WhiteSpace
  • Thuật toán phân tích bố cục tài liệu WhiteSpace
  • Tăng tốc thuật toán phát hiện nền bố cục tài liệu
  • Kết luận chương
  • Thuật toán phân đoạn bố cục tài liệu HP2S và AOSM
  • Các mô hình phân tích trang của thuật toán HP2S và AOSM
  • Thuật toán HP2S