Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 27 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Phương Pháp Đánh Chỉ Số Cho Tài Liệu XML Tin Sinh Học Dựa Trên R-Tree

Tác giả: Đinh Đức Lương

Lĩnh vực: Toán học cho tin học

Nội dung tài liệu:

Luận án tiến sĩ này tập trung vào việc nghiên cứu và đề xuất phương pháp đánh chỉ số (indexing) hiệu quả cho tài liệu XML có kích thước lớn, đặc biệt là trong lĩnh vực tin sinh học. Tài liệu XML, với cấu trúc linh hoạt và khả năng mô tả dữ liệu phức tạp, ngày càng được sử dụng rộng rãi để lưu trữ thông tin sinh học như DNA, protein. Tuy nhiên, kích thước lớn của các tài liệu này đặt ra thách thức trong việc lưu trữ, khai thác và truy vấn dữ liệu một cách hiệu quả.

Luận án nhận diện những hạn chế của các phương pháp đánh chỉ số truyền thống khi áp dụng cho dữ liệu XML tin sinh học, đặc biệt là vấn đề về kích thước của dữ liệu chỉ số, hiệu quả nén và tốc độ truy vấn. Để giải quyết những vấn đề này, đề tài đề xuất một phương pháp đánh chỉ số mới dựa trên cấu trúc R-tree đã được cải tiến, nhằm tối ưu hóa quá trình truy vấn Xpath và giảm thiểu số lần truy cập đĩa cứng.

Phương pháp này bao gồm việc chuyển đổi dữ liệu XML thành biểu diễn đa chiều, áp dụng các kỹ thuật đánh chỉ số phù hợp và tối ưu hóa các thuật toán xử lý truy vấn. Mục tiêu là tăng hiệu quả truy vấn, giảm kích thước dữ liệu và cải thiện hiệu suất tổng thể khi làm việc với dữ liệu XML tin sinh học.

Mục lục chi tiết:

  • Chương 1: Tổng quan
  • Chương 2: Phương pháp đánh chỉ số BioX-tree