新闻发布会java源代码 新闻发布会java源代码是什么( 七 )


2.2.3 算法推送的实现流程
在信息过载的时代,同一个新闻选题有很多同质化的报道,因此分发前需要对新闻内容进行消重,消重后的新闻内容便等待推送 , 此时的推送有三个类别:启动推送、扩大推送和限制推送 。
第一类是启动推送,先对用户精准推送,即将其订阅账号的更新内容第一时间向用户推荐;然后根据用户的历史浏览数据,把相似的文本特征归类后推送给其他用户;最后是给关注用户的相似人群进行推荐 。第二类扩大推送是指对于某个点击率、阅读时长都明显高于平均水平的新闻内容,系统会将它自动筛选出来,并向更多的人进行推荐 。但在扩大推荐的过程中,系统会依据用户的反馈进行调整 。第三为限制推送 , 指某个点击率、阅读时长都明显低于平均水平的新闻内容,会被系统自动筛选出来,遏制推送,这样的内容会被缩小推荐范围 。
3. “今日头条”新闻推荐算法分析
“今日头条”是国内一款资讯类的媒体聚合平台,每天有超过1.2亿人使用 。从“新闻发布会java源代码你关心的,才是头条!”到如今的“信息创造价值!” , 产品slogan的变化也意味着今日头条正逐渐摆脱以往单一、粗暴的流量思维,而开始注重人与信息的连接,在促进信息高效、精准传播的同时注重正确的价值引导 。
在2018年初 , “今日头条”的资深算法架构师曹欢欢博士在一场分享交流会上公开了其算法运行原理 。在他的叙述中,非常详细地介绍了“今日头条”的算法推荐系统概述以及算法推荐系统的操作原理 。
3.1.1-1 曹欢欢博士的今日头条算法建模
上图用数学形式化的方法去描述“今日头条”的算法推送,实际上就是一个能够得出用户对内容满意程度的函数:即y为用户对内容的满意度,Xi,Xc,Xu分别是今日头条公开的算法推送的三个维度:Xi是用户 , 包括用户的性别、年龄、职业和兴趣标签,还有其他算法模型刻画的隐形用户偏好等;Xc是环境,这也是移动互联网时代新闻推送的特点,由于用户随时随地在不停移动,移动终端也在移动,用户在不同的工作场合、旅行等场景信息推送偏好也会不同;Xu是内容,今日头条本身就是信息聚合类平台 , 平台上涵盖各种不同形式的内容 。本章将以该函数为基?。鹨环治鼋袢胀诽醯耐萍鏊惴?。
3.1 推荐维度之一:内容分析
内容分析原指第二次世界大战期间,传播学家拉斯韦尔等研究学家组织了“战士通讯研究”的工作,以德国公开出版的战时报纸为分析研究对象,弄清报纸内容本质性的事实和趋势,揭示隐含的隐性情报内容 , 获取了许多军情机密情报并且对事态发展作出情报预测 。在“今日头条”中 , 内容分析则是对文章、视频内容提取关键要素,通过对文本、视频标题关键字进行语义识别,给内容进行分类 。“今日头条”的推送系统是典型的层次化文本分类算法,来帮助每篇新闻找到合适的分类,比如:第一大分类是政治、科技、财经、娱乐、体育等,体育类可以下分篮球、足球、网球等,足球又可以下分中国足球和国际足球,中国足球最后下分为甲、中超、国家队等 。这一步是对文章进行对这个工作主要目的是对文章进行分类,方便以后对客户推荐 。
想要内容分析实现效果 , 则需要海量的内容信息给算法系统提供有效的筛选和分类 。“今日头条”既然是依赖于算法推送新闻,那它背后的数据库必然是强大的 , “网页蜘蛛”和“头条号”就是支撑今日头条平台消息来源的重要渠道,其消息来源极其丰富,何时何地有何新鲜事 , 都能高效率抓取信息 。

推荐阅读