Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 80 trang
Dung lượng: 1 MB

Giới thiệu nội dung

Hệ thống tìm kiếm tri thức thông minh trên miền WikiHow

Tác giả: LÊ ĐỖ TÂN

Lĩnh vực: Khoa học máy tính

Nội dung tài liệu:

Luận văn này tập trung vào việc xây dựng một hệ thống tìm kiếm thông minh, chuyên biệt cho các câu truy vấn dạng “How-to query” (câu hỏi về cách thực hiện một vấn đề) trong lĩnh vực tiếng Việt, với nguồn dữ liệu chính từ trang web WikiHow. Hệ thống đề xuất nhằm khắc phục những hạn chế của các công cụ tìm kiếm hiện tại, đặc biệt là đối với tiếng Việt, bằng cách cung cấp nhiều phương pháp giải quyết vấn đề, hiển thị kết quả một cách trực quan và thân thiện hơn với người dùng. Luận văn cũng trình bày về kiến thức nền tảng liên quan đến công cụ tìm kiếm, xử lý ngôn ngữ tự nhiên, cũng như chi tiết về phương pháp xây dựng hệ thống và kết quả thực nghiệm.

Mục lục chi tiết:

  • Lời cam đoan
  • Lời cảm ơn
  • Lời mở đầu
  • Mục lục
  • Danh sách bảng
  • Danh sách hình vẽ
  • Chương 1: Giới thiệu
    • 1.1. Vấn đề
    • 1.2. Phạm vi bài toán và mục tiêu nghiên cứu
    • 1.3. Đóng góp của luận văn
    • 1.4. Cấu trúc của luận văn
  • Chương 2: Kiến thức nền tảng
    • 2.1. Công cụ tìm kiếm
      • 2.1.1. Công cụ tìm kiếm trực tuyến
        • 2.1.1.1. Tổng quan
        • 2.1.1.2. Cấu trúc tổng quan các công cụ tìm kiếm trực tuyến
      • 2.1.2. Công cụ tìm kiếm mã nguồn mở
        • 2.1.2.1. Lucene
        • 2.1.2.2. Elasticsearch
      • 2.1.3. Các dạng câu trả lời nhanh của Google
    • 2.2 Nền tảng về xử lý ngôn ngữ tự nhiên
      • 2.2.1. Tìm kiếm ngữ nghĩa (Semantic search)
      • 2.2.2. TF-IDF
        • 2.2.2.1. TF – term frequency
        • 2.2.2.2. IDF – inverse document frequency
        • 2.2.2.3. Giá trị TF-IDF
      • 2.2.3. Phân tách từ (word segmentation)
      • 2.2.4. Gán nhãn từ loại (Part of speech tagging – POSTag)
    • 2.3 Công cụ hỗ trợ
      • 2.3.1. VnCoreNLP
      • 2.3.2. Word2vec
      • 2.3.3. Elasticsearch
  • Chương 3: Hệ thống tìm kiếm tri thức trên miền Wikihow
    • 3.1. Tính toán độ tương đồng giữa hai câu văn
    • 3.2. Tập dữ liệu
    • 3.3. Xây dựng hệ thống
      • 3.3.1. Thu thập dữ liệu từ wikiHow và index dữ liệu vào Elasticsearch
        • 3.3.1.1. Thu thập dữ liệu từ trang web wikiHow
        • 3.3.1.2. Index dữ liệu vào công cụ ElasticSearch
      • 3.3.2. Tìm kiếm bài viết phù hợp với truy vấn
      • 3.3.3. Xây dựng website tìm kiếm tri thức trên miền wikiHow
        • 3.3.3.1. Xây dựng cơ sở dữ liệu với MySQL
        • 3.3.3.2. ElasticSearch server
        • 3.3.3.3. Backend server sử dụng Play framework
        • 3.3.3.4. Xây dựng giao diện người dùng với AngularJs
  • Chương 4: Thực nghiệm và kết luận
    • 4.1. Tập dữ liệu thực nghiệm
    • 4.2. Tính toán thời gian tìm kiếm
    • 4.3. Tiến hành thực nghiệm
    • 4.4. Đánh giá của người dùng
    • 4.5. Những cải tiến trong tương lai
  • Tài liệu tham khảo
  • Phụ lục