Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 112 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam

Tác giả: NGUYỄN THU TRÀ

Lĩnh vực: CÔNG NGHỆ THÔNG TIN

Nội dung tài liệu:

Luận văn này tập trung nghiên cứu về các kỹ thuật khai phá dữ liệu và tiến hành khai phá thử nghiệm trên cơ sở dữ liệu ngành Thuế. Khai phá dữ liệu là quá trình tìm kiếm thông tin mới, có giá trị và không tầm thường trong một khối lượng dữ liệu lớn. Luận văn được trình bày với các chương sau: Chương 1 giới thiệu về khai phá dữ liệu và các chức năng của nó. Chương 2 đi sâu vào các thuật toán khai phá dữ liệu, bao gồm khai phá luật kết hợp và phân lớp bằng học cây quyết định. Chương 3 trình bày việc áp dụng các kỹ thuật khai phá dữ liệu trên cơ sở dữ liệu ngành Thuế, bao gồm thử nghiệm khai phá luật kết hợp và phân lớp. Cuối cùng, Chương 4 đưa ra kết luận và những kết quả đạt được, cùng với các hướng nghiên cứu tiếp theo.

Mục lục chi tiết:

DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

MỞ ĐẦU

CHƯƠNG 1. KHAI PHÁ DỮ LIỆU

  • 1.1. Tổng quan khai phá dữ liệu
  • 1.1.1 Dữ liệu
  • 1.1.2 Tiền xử lý dữ liệu
  • 1.1.3 Mô hình khai phá dữ liệu
  • 1.2. Các chức năng cơ bản khai phá dữ liệu
    • 1.2.1 Phân lớp (Classification)
    • 1.2.2 Hồi qui
    • 1.2.3 Phân nhóm
    • 1.2.4 Khai phá luật kết hợp

CHƯƠNG 2. MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU

  • 2.1. Thuật toán khai phá luật kết hợp
    • 2.1.1 Thuật toán Apriori
    • 2.1.2 Thuật toán AprioriTid
    • 2.1.3 Thuật toán AprioriHybrid
  • 2.2. Cải tiến hiệu quả thuật toán Apriori
    • 2.2.2 Phương pháp FP-tree
    • 2.2.3 Thuật toán PHP
    • 2.2.4 Thuật toán PCY
    • 2.2.5 Thuật toán PCY nhiều chặng
  • 2.3. Thuật toán phân lớp bằng học cây quyết định
    • 2.3.1 Các định nghĩa
    • 2.3.2 Thuật toán ID3
    • 2.3.3 Các mở rộng của C4.5

CHƯƠNG 3. ÁP DỤNG KHAI PHÁ TRÊN CSDL NGÀNH THUẾ

  • 3.1. CSDL ngành Thuế
  • 3.2. Lựa chọn công cụ khai phá
    • 3.2.1 Lựa chọn công cụ
    • 3.2.2 Oracle Data Mining (ODM)
    • 3.2.3 DBMS_DATA_MINING
  • 3.3. Mục tiêu khai thác thông tin của ngành Thuế
  • 3.4. Thử nghiệm khai phá luật kết hợp
  • 3.5. Phân lớp bằng học cây quyết định
    • 3.5.1 Phân lớp ĐTNT dựa vào so sánh tỷ suất các năm
    • 3.5.2 Phân lớp ĐTNT theo số liệu của một năm

CHƯƠNG 4. KẾT LUẬN

HƯỚNG NGHIÊN CỨU TIẾP THEO

TÀI LIỆU THAM KHẢO

PHỤ LỤC