Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 43 trang
Dung lượng: 701 KB

Giới thiệu nội dung

Ứng Dụng Thư Viện Lập Trình Mã Nguồn Mở Xây Dựng Chương Trình Nhận Dạng Văn Bản Chữ Việt, Anh Từ Ảnh Số

Tác giả: Th.S Phạm Tuấn Đạt, Th.S Nguyễn Văn Thủy

Lĩnh vực: Khoa Công nghệ Thông tin

Nội dung tài liệu:

Đề tài tập trung vào việc ứng dụng thư viện lập trình mã nguồn mở Tesseract để xây dựng chương trình nhận dạng văn bản chữ viết tiếng Việt và tiếng Anh từ ảnh số. Nghiên cứu này nhằm mục đích khôi phục thông tin từ các tài liệu dạng văn bản số, khắc phục nhược điểm của văn bản in giấy theo thời gian. Đề tài cũng đi sâu phân tích các giải thuật cơ sở được áp dụng trong thư viện mã nguồn mở, bao gồm xử lý ảnh, nhận dạng đối tượng dựa trên mạng nơ-ron, cũng như trình bày tổng quan chức năng của thư viện Tesseract và cách xây dựng bộ dữ liệu huấn luyện. Cuối cùng, đề tài giới thiệu ngôn ngữ lập trình và các thư viện được sử dụng để xây dựng ứng dụng nhận dạng văn bản chữ in, cùng với kết quả thử nghiệm.

Mục lục chi tiết:

  • MỞ ĐẦU
  • CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
    • 1.1. Nhị phân hóa ảnh văn bản
    • 1.2. Cải thiện hình ảnh văn bản
    • 1.3. Xác định góc nghiêng ảnh văn bản
    • 1.4. Tách dòng văn bản, ký tự
    • 1.5. Giải thuật nhận dạng ký tự quang học
      • 1.5.1. Ứng dụng lôgic mờ trong nhận dạng mẫu
      • 1.5.2. Ứng dụng mạng nơ – ron trong nhận dạng mẫu
  • CHƯƠNG 2: THƯ VIỆN NHẬN DẠNG TESSERACT
    • 2.1. Ứng dụng nhận dạng ký tự quang học
    • 2.2. Thư viện Tesseract
      • 2.2.1. Quá trình hình thành Tesseract
      • 2.2.2. Chức năng của Tesseract
      • 2.2.3. Kiến trúc giải thuật nhận dạng chữ in
    • 2.3. Huấn luyện dữ liệu nhận dạng với Tesseract
      • 2.3.1. Tạo dữ liệu huấn luyện
      • 2.3.2. Thiết lập các tệp cấu hình huấn luyện
      • 2.3.3. Huấn luyện dữ liệu
  • CHƯƠNG 3: CHƯƠNG TRÌNH NHẬN DẠNG VĂN BẢN
    • 3.1. Ngôn ngữ lập trình và những thư viện được sử dụng
      • 3.1.1. Ngôn ngữ lập trình
      • 3.1.2. Những thư viện được sử dụng
    • 3.2. Chức năng chương trình
      • 3.2.1. Thu nhận ảnh
      • 3.2.2. Tiền xử lý
      • 3.2.3. Nhận dạng
      • 3.2.4. Hậu xử lý
      • 3.2.5. Hiển thị và lưu trữ
    • 3.3. Giao diện chương trình
  • KẾT LUẬN
    • I. Đánh giá kết quả
    • II. Hướng phát triển của đề tài
  • TÀI LIỆU THAM KHẢO