Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 83 trang
Dung lượng: 1 MB

Giới thiệu nội dung

Khai phá dữ liệu sử dụng giải thuật di truyền và ứng dụng

Tác giả: Hoàng Hà Đức

Lĩnh vực: Khoa học máy tính

Nội dung tài liệu:

Luận văn này tập trung vào việc khám phá tri thức và khai phá dữ liệu, với trọng tâm là kỹ thuật phân cụm dữ liệu. Phân cụm dữ liệu là một quá trình nhóm các đối tượng tương tự vào các cụm, giúp phát hiện các mẫu tiềm ẩn trong tập dữ liệu lớn. Nghiên cứu này đề xuất sử dụng giải thuật di truyền (Genetic Algorithm – GA) như một phương pháp hiệu quả để tối ưu hóa quá trình phân cụm dữ liệu. Luận văn cũng so sánh hiệu quả của thuật toán K-Means truyền thống với thuật toán K-Means được cải tiến sử dụng giải thuật di truyền. Cuối cùng, một nghiên cứu thực nghiệm được thực hiện trên dữ liệu sinh viên của trường Cao đẳng Y tế Yên Bái để đánh giá khả năng ứng dụng của phương pháp đề xuất.

Mục lục chi tiết:

  • Lời cam đoan
  • Lời cám ơn
  • Chương 1: Tổng quan về khai phá dữ liệu và phân cụm dữ liệu
    • 1.1. Tổng quan về khám phá tri thức và khai phá dữ liệu
      • 1.1.1. Giới thiệu chung về khám phá tri thức và khai phá dữ liệu
      • 1.1.2. Quá trình khám phá tri thức
      • 1.1.3. Quá trình khai phá dữ liệu
    • 1.2. Các phương pháp khai phá dữ liệu
      • 1.2.1. Phân lớp và dự đoán (Classification & Prediction)
      • 1.2.2. Luật kết hợp (Association Rules)
      • 1.2.3. Khai thác mẫu tuần tự (Sequential / Temporal patterns)
      • 1.2.4. Phân nhóm- đoạn (Clustering / Segmentation)
      • 1.2.5. Hồi quy (Regression)
      • 1.2.6. Tổng hợp hóa (Summarization)
      • 1.2.7. Mô hình hóa sự phụ thuộc (dependency modeling)
      • 1.2.8. Phát hiện sự biến đổi và độ lệch (Change and deviation detection)
    • 1.3. Phân cụm dữ liệu
      • 1.3.1. Phân cụm dữ liệu là gì
      • 1.3.2. Các mục tiêu của phân cụm dữ liệu
      • 1.3.4. Các phương pháp phân cụm dữ liệu
        • 1.3.4.1. Phương pháp phân cụm phân cấp
        • 1.3.4.2. Phương pháp phân cụm dựa trên mật độ
  • Chương 2: Thuật toán phân cụm dữ liệu dựa trên giải thuật di truyền
    • 2.1. Giải thuật di truyền
      • 2.1.1. Lịch sử của giải thuật di truyền
      • 2.1.2. Tóm tắt giải thuật di truyền
      • 2.1.3. Cách biểu diễn bài toán trong giải thuật di truyền (hay chọn cách biểu diễn cấu trúc dữ liệu cho bài toán)
      • 2.1.4. Mã hóa (encoding)
      • 2.1.5. Các phương pháp chọn(Selection)
      • 2.1.6. Chọn lọc Roulette (Roulette Wheel Selection)
      • 2.1.7. Các toán tử trong giải thuật di truyền
      • 2.1.8. Các tham số cần sử dụng trong giải thuật di truyền
      • 2.1.9. Điều kiện kết thúc thuật giải di truyền
      • 2.1.10. Nguyên lý hoạt động của giải thuật di truyền
      • 2.1.11. Ứng dụng của thuật giải di truyền
    • 2.2. Thuật toán phân cụm sử dụng giải thuật di truyền
      • 2.2.1. Một số giải thuật cơ bản trong phân cụm dữ liệu
      • 2.2.2. Giải thuật phân cụm dựa trên giải thuật di truyền
    • 2.3. So sánh hiệu quả của thuật toán Kmeans và thuật toán Kmeans sử dụng giải thuật di truyền
      • 2.3.1. Thuật Toán K-Means
      • 2.3.2. Thuật toán Kmean sử dụng giải thuật di truyền
      • 2.3.3. So sánh giữa k-means và k-means sử dụng giải thuật di truyền
  • Chương 3: Thực nghiệm phân cụm dữ liệu về sinh viên của trường Cao đẳng Y tế Yên Bái
    • 3.1. Mô tả bài toán
      • 3.1.1. Cơ sở dữ liệu
    • 3.2. Xây dựng chương trình
      • 3.2.2. Các chức năng của chương trình
      • 3.2.3. Giao diện chương trình
      • 3.2.3. Kết quả thực nghiệm
  • Kết luận
  • Tài liệu tham khảo
  • Phần phụ lục