DSpace About DSpace Software
 

DSpace at UET-VNU >
2. Luận văn Thạc sĩ >
Khoa Công nghệ thông tin >
Luận văn năm 2016 (FIT) >

Please use this identifier to cite or link to this item: http://data.uet.vnu.edu.vn:8080/xmlui/handle/123456789/919

Title: ỨNG DỤNG CÁC MÔ HÌNH CHỦ ĐỀ ẨN VÀO MÔ HÌNH PHÂN HẠNG LẠI DÒNG CẬP NHẬT TRÊN MẠNG XÃ HỘI TWITTER
Authors: Nguyễn Thị, Tươi
Issue Date: 11-Jan-2017
Abstract: Ngày nay, mạng xã hội phát triển mạnh mẽ mang những nhận xét, đánh giá, những thông tin phản ánh xã hội thực tới mỗi người, và ngày càng đi sâu vào cuộc sống của mỗi chúng ta. Chúng cung cấp nhiều thông tin cập nhật có tính thời gian thực có được từ kết nối trực tuyến của mọi người. Dòng các tin mới đến trang cá nhân của mỗi người dùng được gọi là dòng cập nhật của người dùng đó. Mặc dù dòng cập nhật đưa đến những thông tin mới, nhưng tồn tại một hạn chế là không ít người dùng đã phải dành khá nhiều thời gian với dòng cập nhật, bởi có không ít tin mới trong dòng cập nhật mang lại thông tin không cần thiết cho họ. Nhiều người dùng rơi vào tình cảnh bị ngập trong dòng cập nhật mà không thể xử lý chúng một cách đầy đủ. Với mục đích giải quyết vấn đề này, giải pháp được quan tâm là sắp xếp các tin trong dòng cập nhật sao cho hợp lý nhất với mỗi người dùng. L. Hong và cộng sự (2012) nêu bật vấn đề xếp hạng dòng cập nhật (gọi tắt là Xếp hạng dòng). Bài toán xếp hạng dòng trong mạng xã hội được đặt ra để giải quyết vấn đề cập nhật tin cho mỗi người dùng, đưa ra danh sách các tin trong dòng cập nhật theo một thứ tự (theo "hạng") quan tâm của người dùng, như là một hình thức tư vấn cho người dùng đó. Dù không nhận được sự phản hồi của người dùng như hệ thống tư vấn, nhưng lọc nội dung vẫn có thể được áp dụng trong mô hình giải quyết bài toán. Bài toán xếp hạng này khác biệt với bài toán xếp hạng kết quả tìm kiếm ở điểm là bài toán xếp hạng dòng không có câu truy vấn. Do đó, không thể dựa theo đặc trưng đối tượng xếp hạng có chứa nhiều thông tin liên quan tới câu truy vấn để tiến hành sắp xếp. Với bài toán này, việc xếp hạng các tin trong dòng cập nhật cần căn cứ vào lịch sử hành vi của người dùng để tìm ra mối quan hệ giữa cá nhân người dùng đó với đối tượng xếp hạng, thậm chí cả quan hệ với người dùng khác. Tương tự như các mạng xã hội khác, người dùng trên Twitter cũng đối mặt với lượng lớn các dòng cập nhật liên tục từ những người bạn của mình. Như đã đề cập trong [1], chúng tôi tập trung vào bài toán xếp hạng dòng trên mạng xã hội Twitter, và tiếp tục phát triển mô hình xếp hạng dòng của mình. Phương pháp xếp hạng đang được quan tâm nhiều trong thời gian gần đây – phương pháp học tính hạng [2, 3, 4] được áp dụng trong mô hình này. Cụ thể, đó là phương pháp học tính hạng CRR [5] (Combined Regression and Ranking). Mô hình xếp hạng dòng sử dụng thuật toán học tính hạng – thuật toán dựa trên nền tảng học máy, nên việc xây dựng các tập dữ liệu huấn luyện là cần thiết. Chúng tôi đi 10 tìm các yếu tố đặc trưng của tweet. Như đã phát biểu trong [1], yếu tố nội dung của tweet - một yếu tố cơ sở tất yếu cho quá trình học, được tìm ra dựa vào phương pháp phân cụm không giám sát, đó là mô hình chủ đề ẩn [6, 7]. Yếu tố nội dung được biểu diễn dưới hình thức một tập các phân phối tweet theo chủ đề. Trong mô hình xếp hạng dòng, mô hình chủ đề ẩn LDA được sử dụng. Ngoài yếu tố nội dung, độ ảnh hưởng người dùng được nhận diện là một yếu tố quan trọng. Theo C. Xiao và cộng sự (2015), F. Riquelme và P. G. Cantergiani (2016) [8, 9], các cập nhật của người dùng có độ ảnh hưởng lớn thường được nhiều người theo dõi hơn. Dựa trên quan điểm này, chúng tôi nhận thấy các dòng cập nhật từ những người bạn có ảnh hưởng tới người dùng đang xét nên được tư vấn cho người dùng đó. Hay nói cách khác, độ ảnh hưởng người dùng nên được tham gia vào quá trình học tính hạng. Do vậy, chúng tôi quyết định cải thiện mô hình tính hạng [1] với sự tham gia của đặc trưng độ ảnh hưởng người dùng. F. Erlandsson và cộng sự (2016) [10] đã thực hiện tìm các người dùng có độ ảnh hưởng lớn trên mạng xã hội dựa vào khai phá luật kết hợp. Theo hướng tiếp cận này, chúng tôi công thức hóa độ ảnh hưởng của người dùng qua số lượng luật kết hợp tìm được trên tập các tweet. Thuật toán khai phá luật kết hợp được sử dụng là thuật toán Apriori [11].
URI: http://data.uet.vnu.edu.vn:8080/xmlui/handle/123456789/919
Appears in Collections:Luận văn năm 2016 (FIT)

Files in This Item:

File Description SizeFormat
HTTT_NguyenThiTuoi_LuanVan.pdf1.48 MBAdobe PDFView/Open
HTTT_NguyenThiTuoi_TomTatLuanVan.pdf975.21 kBAdobe PDFView/Open

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! DSpace Software Copyright © 2002-2010  Duraspace - Feedback