Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 26 trang
Dung lượng: 385 KB

Giới thiệu nội dung

Nghiên Cứu Phân Lớp Trên Dữ Liệu Mất Cân Bằng Và Ứng Dụng

Tác giả: NGUYỄN MINH HÀ

Lĩnh vực: KHOA HỌC MÁY TÍNH

Nội dung tài liệu:

Luận văn này tập trung vào việc giải quyết thách thức trong phân lớp dữ liệu mất cân bằng, một vấn đề ngày càng phổ biến và ảnh hưởng đến hiệu quả của nhiều ứng dụng thực tế. Dữ liệu mất cân bằng, với sự chênh lệch lớn về số lượng giữa các lớp, đặt ra khó khăn cho các thuật toán học máy truyền thống, dẫn đến độ chính xác thấp đối với các lớp thiểu số. Luận văn giới thiệu tổng quan về bài toán phân lớp dữ liệu, các phương pháp đánh giá mô hình, và đi sâu vào các đặc điểm cũng như ứng dụng của dữ liệu mất cân bằng. Nghiên cứu trình bày các kỹ thuật xử lý dữ liệu mất cân bằng, bao gồm hướng tiếp cận ở mức độ dữ liệu (sinh thêm/loại bỏ mẫu) và hướng tiếp cận ở mức độ thuật toán. Đặc biệt, luận văn giới thiệu thuật toán DEC-SVM, một phương pháp kết hợp kỹ thuật điều chỉnh dữ liệu bằng thuật toán DE (Differential Evolution) và kỹ thuật phân cụm K-means với thuật toán Support Vector Machines (SVM) để cải thiện hiệu quả phân lớp trên dữ liệu mất cân bằng.

Mục lục chi tiết:

  • PHẦN MỞ ĐẦU
  • CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP DỮ LIỆU TRÊN CÁC DỮ LIỆU MẤT CÂN BẰNG
    • 1.1. Giới thiệu về bài toán phân lớp dữ liệu
      • 1.1.1. Khái niệm về phân lớp dữ liệu và bài toán phân lớp dữ liệu
      • 1.1.2. Quy trình thực hiện phân lớp dữ liệu:
      • 1.1.3. Các độ đo đánh giá mô hình phân lớp dữ liệu
    • 1.2. Dữ liệu mất cân bằng
      • 1.2.1. Khái niệm về dữ liệu mất cân bằng
      • 1.2.2. Các đặc điểm phân lớp dữ liệu mất cân bằng:
      • 1.2.3. Các ứng dụng của phân lớp dữ liệu mất cân bằng
    • 1.3. Tổng quan kỹ thuật xử lý dữ liệu mất cân bằng
      • 1.3.1. Hướng tiếp cận ở mức độ dữ liệu
      • 1.3.2. Hướng tiếp cận ở mức độ thuật toán
    • 1.4. Kết luận chương 1
  • CHƯƠNG 2. MỘT SỐ THUẬT TOÁN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG
    • 2.1. Thuật toán DEC – SVM
      • 2.1.1. Giới thiệu thuật toán
      • 2.1.2. Khảo sát nội dung thuật toán
        • 2.1.2.1. Điều chỉnh dữ liệu bằng thuật toán DE (Differential Evolution over-sampling)
        • 2.1.2.2. Kỹ thuật làm sạch dữ liệu sử dụng phân cụm
        • 2.1.2.3. Thuật toán DEC-SVM