Xem trước tài liệu

Đang tải tài liệu...

Thông tin chi tiết tài liệu

Định dạng: PDF
Số trang: 23 trang
Dung lượng: Đang cập nhật

Giới thiệu nội dung

Phân Loại Giới Tính Người Dùng Mạng Xã Hội Dựa Vào Tin Nhắn Văn Bản Và Word2Vec

Tác giả: Không Bùi Trung

Lĩnh vực: Công nghệ thông tin, Chuyên ngành: Kỹ thuật phần mềm

Nội dung tài liệu:

Luận văn này tập trung vào việc ứng dụng Word2Vec để phân tích và phân loại văn bản, với mục tiêu cụ thể là phân loại giới tính người dùng mạng xã hội dựa trên tin nhắn văn bản. Nghiên cứu đề xuất sử dụng mô hình Word2Vec nhằm khắc phục hạn chế của các kỹ thuật truyền thống, đặc biệt là vấn đề thưa dữ liệu và kích thước mô hình lớn khi xử lý văn bản tiếng Việt. Word2Vec giúp biểu diễn từ dưới dạng vector, với các từ có ý nghĩa tương đồng sẽ có vector gần nhau, cho phép mô hình tự học và xử lý hiệu quả các từ trong ngữ cảnh.

Luận văn cũng trình bày về các khái niệm cơ bản của khai phá dữ liệu, mạng xã hội, cũng như giới thiệu chi tiết về mô hình Word2Vec, bao gồm mô hình Continuous Bag-of-word (CBOW) và mô hình Skip-gram. Đối với bài toán phân loại giới tính, nghiên cứu áp dụng các bộ phân lớp SVM và Logistic, kết quả cho thấy bộ phân lớp Logistic mang lại hiệu quả cao hơn. Quá trình trích chọn đặc trưng sử dụng mô hình n-gram (n=1,2,3) cũng được đề cập như một bước quan trọng để cải thiện kết quả phân loại.

Mục lục chi tiết:

  • Chương 1: Tổng quan khai phá dữ liệu và mạng xã hội
  • Chương 2: Word2Vec và mô hình “từ” thành “vector”
  • Chương 3: Ứng dụng Word2Vec vào phân loại giới tính người dùng mạng xã hội