新闻推荐领域核心数据集解析(第五篇):主流数据集详述指南

新闻推荐领域核心数据集解析(第五篇):主流数据集详述指南

新闻推荐(5): 常见数据集概述

依托于ACL2020中MASR的MIND数据集论文,介绍一些在新闻推荐领域常用的数据集/

(2013年)利用13个德国新闻网站发布的新闻稿件及用户点击记录,构建了Plista4数据集。该数据集包括70,353篇新闻稿件及1,095,323次点击。数据集中的新闻稿件为德语,用户主要来自德语国家。

Adressa数据集基于adreseavisen网站的日志,在10周内构建而成,拥有48,486篇新闻稿件,3,083,438个用户及27,223,576个点击事件。每个点击事件包含多个属性,如会话时长、新闻标题、新闻类别及用户ID。每篇新闻稿件都与作者、实体及主题等详细信息相关联。本数据集中的新闻稿件为挪威语,整个数据集分为两个规模不同的版本。

总体而言,Adressa数据集内容最为丰富,可用于常规新闻推荐,同时也可基于会话进行推荐,或探究基于知识图谱的推荐。

(2018年)从巴西一个热门新闻网站globo建立了一个新闻推荐数据集。该数据集包含约314,000个用户,46,000篇新闻稿件及300万次点击记录。每个点击记录包含用户ID、新闻ID及会话时间等字段。最早在Kaggle平台上开放,提供训练好的新闻embedding,不包含原始新闻稿件信息。

它包含14,180篇新闻稿件及34,022次点击事件。每篇新闻稿件由单词id表示,不提供原始新闻文本。此数据集中的用户数量未知,因为没有用户ID。

如觉得内容有价值,请点赞、关注、赞赏。若对推荐感兴趣,欢迎在评论区或私信交流。

大数据学习所需课程

大数据学习内容

大数据学习需经历8个阶段的内容,您可以按顺序进行学习。大数据更适合有一定基础的人学习,具备Java基础或有过Java经验的人学习起来会更加容易。在选择大数据培训机构时,重点关注师资力量、课程体系、就业情况、费用等方面,多对比几家机构,希望您能找到合适的培训机构。

以上所转载内容均来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2020@163.com,本人将予以删除。
THE END
分享
二维码
< <上一篇
下一篇>>