Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 130 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Phương pháp đánh chỉ số cho tài liệu XML tin sinh học dựa trên R-tree

Luận án này tập trung nghiên cứu giải quyết bài toán về phương pháp đánh chỉ số (indexing) cho tài liệu XML, đặc biệt là các tài liệu trong lĩnh vực tin sinh học, với mục tiêu cải thiện hiệu quả truy vấn. Tài liệu XML tin sinh học, với đặc trưng là kích thước lớn và cấu trúc linh hoạt, đặt ra thách thức trong việc lưu trữ và khai thác hiệu quả trên đĩa cứng. Nghiên cứu đề xuất phương pháp đánh chỉ số dựa trên R-tree, một cấu trúc dữ liệu không gian, nhằm xử lý dữ liệu XML sau khi được chuyển đổi sang dạng số và biểu diễn trong không gian đa chiều. Phương pháp này có khả năng giảm kích thước dữ liệu gốc và hỗ trợ các loại truy vấn đặc thù như truy vấn Xpath.

Luận án đã phát triển và đề xuất các phương pháp đánh chỉ số BioX-tree và BioX⁺-tree, là các cải tiến dựa trên R-tree. Các phương pháp này đã được chứng minh hiệu quả hơn R-tree gốc trong việc đánh chỉ số dữ liệu XML chuyển đổi, đặc biệt với các truy vấn liên quan đến quan hệ anh em giữa các thẻ. Việc giảm số lần truy xuất đĩa cứng thông qua cấu trúc chỉ số tối ưu là một đóng góp quan trọng. Tuy nhiên, các phương pháp này cũng đối mặt với hạn chế là suy yếu cấu trúc không gian tối ưu của R-tree gốc, ảnh hưởng đến hiệu quả của các truy vấn phạm vi thông thường.