Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 112 trang
Dung lượng: 1.001 KB

Giới thiệu nội dung


Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam

Tác giả: Nguyễn Thu Trà

Lĩnh vực: Công nghệ Thông tin

Nội dung tài liệu:

Luận văn này tập trung vào việc nghiên cứu các kỹ thuật khai phá dữ liệu và áp dụng thử nghiệm trên cơ sở dữ liệu (CSDL) ngành Thuế Việt Nam. Khai phá dữ liệu, một lĩnh vực phát triển nhanh trong công nghiệp máy tính, có vai trò quan trọng trong việc tìm kiếm thông tin mới, có giá trị từ khối lượng dữ liệu lớn. Luận văn đi sâu vào hai chức năng cơ bản của khai phá dữ liệu: phân lớp và khai phá luật kết hợp. Cụ thể, chương 1 cung cấp cái nhìn tổng quan về khai phá dữ liệu, các khái niệm cơ bản, và quy trình khám phá tri thức. Chương 2 giới thiệu chi tiết một số thuật toán khai phá luật kết hợp, bao gồm thuật toán Apriori và các cải tiến của nó, cùng với các thuật toán phân lớp dựa trên cây quyết định như ID3 và C4.5. Chương 3 trình bày việc áp dụng các kỹ thuật này trên CSDL ngành Thuế, bao gồm lựa chọn công cụ khai phá và thử nghiệm khai phá luật kết hợp cũng như phân lớp dữ liệu thuế. Cuối cùng, chương 4 đưa ra kết luận về những kết quả đạt được và đề xuất hướng nghiên cứu tiếp theo.

Mục lục chi tiết:

  • DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT
  • DANH MỤC CÁC BẢNG
  • DANH MỤC CÁC HÌNH VẼ
  • MỞ ĐẦU
  • CHƯƠNG 1. KHAI PHÁ DỮ LIỆU
    • 1.1. Tổng quan khai phá dữ liệu
      • 1.1.1 Dữ liệu
      • 1.1.2 Tiền xử lý dữ liệu
      • 1.1.3 Mô hình khai phá dữ liệu
    • 1.2. Các chức năng cơ bản khai phá dữ liệu
      • 1.2.1 Phân lớp (Classification)
      • 1.2.2 Hồi qui
      • 1.2.3 Phân nhóm
      • 1.2.4 Khai phá luật kết hợp
  • CHƯƠNG 2. MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU
    • 2.1. Thuật toán khai phá luật kết hợp
      • 2.1.1 Thuật toán Apriori
      • 2.1.2 Thuật toán AprioriTid
      • 2.1.3 Thuật toán AprioriHybrid
    • 2.2. Cải tiến hiệu quả thuật toán Apriori
      • 2.2.2 Phương pháp FP-tree
      • 2.2.3 Thuật toán PHP
      • 2.2.4 Thuật toán PCY
      • 2.2.5 Thuật toán PCY nhiều chặng
    • 2.3. Thuật toán phân lớp bằng học cây quyết định
      • 2.3.1 Các định nghĩa
      • 2.3.2 Thuật toán ID3
      • 2.3.3 Các mở rộng của C4.5
  • CHƯƠNG 3. ÁP DỤNG KHAI PHÁ TRÊN CSDL NGÀNH THUẾ
    • 3.1. CSDL ngành Thuế
    • 3.2. Lựa chọn công cụ khai phá
      • 3.2.1 Lựa chọn công cụ
      • 3.2.2 Oracle Data Mining (ODM)
      • 3.2.3 DBMS_DATA_MINING
    • 3.3. Mục tiêu khai thác thông tin của ngành Thuế
    • 3.4. Thử nghiệm khai phá luật kết hợp
    • 3.5. Phân lớp bằng học cây quyết định
      • 3.5.1 Phân lớp ĐTNT dựa vào so sánh tỷ suất các năm
      • 3.5.2 Phân lớp ĐTNT theo số liệu của một năm
  • CHƯƠNG 4. KẾT LUẬN
  • HƯỚNG NGHIÊN CỨU TIẾP THEO
  • TÀI LIỆU THAM KHẢO
  • PHỤ LỤC