Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 52 trang
Dung lượng: 875 KB

Giới thiệu nội dung

Giải pháp xếp hạng và tính toán song song trên nền tảng Apache Spark

Tác giả: Nguyễn Đông Đức

Lĩnh vực: Hệ thống Thông Tin

Nội dung tài liệu:

Luận văn này tập trung vào việc nghiên cứu các phương pháp học máy xếp hạng (Learning to rank) và áp dụng chúng vào bài toán xếp hạng nội dung web, cụ thể là xếp hạng phim trên nền tảng Apache Spark. Với sự phát triển nhanh chóng của Internet và khối lượng thông tin ngày càng lớn, việc tìm kiếm thông tin hiệu quả trở nên vô cùng quan trọng. Xếp hạng thông tin là một thành phần cốt lõi của mọi hệ thống tìm kiếm, đóng vai trò kết hợp giữa truy vấn và tài liệu được lập chỉ mục. Luận văn đề xuất giải pháp sử dụng Apache Spark để xử lý phân tích dữ liệu đồng thời trên quy mô lớn, đảm bảo khả năng mở rộng và chịu lỗi. Các kỹ thuật tiếp cận như Pointwise, Pairwise, và Listwise được xem xét, với trọng tâm là kỹ thuật Listwise. Nghiên cứu bao gồm việc xây dựng mô hình, thực nghiệm và đánh giá hiệu năng, cũng như chất lượng xếp hạng.

Mục lục chi tiết:

  • Lời cảm ơn
  • Danh sách các hình
  • Danh sách các bảng
  • Danh sách các từ viết tắt
  • Chương 1. Giới thiệu chung
    • Động lực nghiên cứu
    • Mục tiêu và nội dung của luận văn
    • Tổ chức của luận văn
  • Chương 2. Tổng quan về xếp hạng
    • Tổng quan về xếp hạng
    • Mô hình xếp hạng dựa trên độ liên quan
    • Mô hình xếp hạng dựa trên độ quan trọng
  • Chương 3. Tổng quan về học máy xếp hạng
    • Nền tảng cơ sở của học máy
    • Nền tảng cơ sở của học máy xếp hạng
      • Hướng tiếp cận Pointwise
      • Hướng tiếp cận Pairwise
      • Hướng tiếp cận Listwise
    • Tổng kết chương
  • Chương 4. Giải pháp xếp hạng và tính toán song song trên nền tảng Apache Spark
    • Bài toán đặt ra
    • Mô hình đặt ra
    • Apache Spark
      • Tính năng của Apache Spark
      • Các thành phần của Apache Spark
      • Resilient Distributed Datasets
    • Elasticsearch
      • Tính năng tổng quát
      • Khái niệm cơ bản
      • Ưu điểm của Elasticsearch
      • Nhược điểm của Elasticsearch
    • Tính toán song song trên Elasticsearch và Apache Spark
    • Tổng kết chương
  • Chương 5. Thực nghiệm và đánh giá
    • Mô hình thực nghiệm
    • Môi trường thực nghiệm
      • Hạ tầng tính toán
      • Các công cụ được sử dụng
    • Thực nghiệm
      • Thu thập dữ liệu phim
      • Thu thập lịch sử click của người dùng
      • Đánh chỉ mục cho dữ liệu
      • Trích xuất dữ liệu huấn luyện
      • Trích xuất vector đặc trưng cho mô hình
      • Xây dựng hệ thống xếp hạng và tính toán song song
      • Kết quả thực nghiệm
    • Đánh giá
      • Hiệu năng
      • Chất lượng xếp hạng
    • Tổng kết chương
  • Kết luận chung
  • Tài liệu tham khảo