Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 57 trang
Dung lượng: 1 MB

Giới thiệu nội dung

Nghiên cứu một số phương pháp phân cụm nửa giám sát ứng dụng cho bài toán phân cụm dữ liệu web server logs

Tác giả: Nguyễn Đức Ngọc

Lĩnh vực: Khoa học máy tính

Nội dung tài liệu:

Luận văn Thạc sĩ Khoa học Máy tính này tập trung nghiên cứu và ứng dụng các phương pháp phân cụm dữ liệu, đặc biệt là phân cụm nửa giám sát, vào bài toán phân tích dữ liệu từ web server logs. Dữ liệu web server logs, ghi lại các truy xuất của người dùng, có ý nghĩa quan trọng trong việc xác định nhóm người dùng có cùng sở thích và xu hướng truy cập, từ đó giúp tối ưu hóa nội dung trên website. Luận văn giới thiệu các khái niệm cơ bản về học máy và phân cụm dữ liệu, sau đó đi sâu vào các thuật toán phân cụm nửa giám sát như K-Means, SSDBSCAN, và SSGC. Cuối cùng, luận văn trình bày kết quả thực nghiệm phân cụm trên tập dữ liệu web server logs.

Mục lục chi tiết:

  • MỞ ĐẦU
  • Chương 1. TỔNG QUAN
    • 1.1. Khái niệm về học máy và bài toán phân cụm dữ liệu.
    • 1.2. Nội dung nghiên cứu của luận văn.
    • 1.3. Một số phương pháp phân cụm dữ liệu cơ bản.
      • 1.3.1. Phương pháp phân cụm K-Means
      • 1.3.2. Phương pháp phân cụm DBSCAN
      • 1.3.3. Phương pháp phân cụm dựa trên đồ thị (GC)
      • 1.3.4. Ứng dụng của phân cụm dữ liệu
    • 1.4. Kết luận
  • Chương 2. MỘT SỐ THUẬT TOÁN PHÂN CỤM NỬA GIÁM SÁT CƠ BẢN.
    • 2.1. Tổng quan về phân cụm nửa giám sát.
    • 2.2. Thuật toán phân cụm nửa giám sát dựa trên K-Means
      • 2.2.1. Thuật toán COP-KMeans.
      • 2.2.2. Thuật toán Seed K-Means.
    • 2.3. Thuật toán phân cụm nửa giám sát dựa trên mật độ: SSDBSCAN
    • 2.4. Thuật toán phân cụm nửa giám sát dựa trên đồ thị (SSGC)
    • 2.5. Kết luận
  • Chương 3. KẾT QUẢ THỰC NGHIỆM
    • 3.1. Giới thiệu về dữ liệu web server logs
      • 3.1.1. Tiền xử lý dữ liệu
      • 3.1.2. Phương pháp đánh giá chất lượng phân cụm
      • 3.1.3. Thuật toán phân cụm
    • 3.2. Kết quả phân cụm trên tập web server logs
    • 3.3. Kết luận
  • KẾT LUẬN
    • Những kết quả đã đạt được
    • Hướng phát triển tiếp theo của đề tài
  • TÀI LIỆU THAM KHẢO.
  • DANH MỤC CÁC BẢNG BIỂU
  • DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ