第一个消息来源的渠道是“网页蜘蛛”,“网页蜘蛛”又叫网页爬虫,头条使用的就是搜索引擎爬虫叫“Bytespider” 。它能按照一定的规则 , 自动爬行抓取互联网的信息或脚本,就像蜘蛛通过蛛网进行捕食,当发现新的信息资源,蜘蛛会立刻出动抓取信息内容并将其收入自己的数据库中 。和微信的垂直搜索不同,Bytespider是能够抓取全网内容的全新搜索引擎,因此“今日头条”的搜索引擎功能很全面 , 搜索的资源很广,资源包容性极高 。
Bytespider信息抓取的基本流程如下:首先是网页抓取 。Bytespider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页 。被抓取的网页被称之为网页快照 。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页 。第二步是处理网页 。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务 。其中,最重要的就是提取关键词,建立索引库和索引 。其他还包括消除重复网页、判断网页类型、分析超链接、计算网页的重要度、丰富度等 。第三步提供检索服务 。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页,为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息 。
第二个消息来源渠道是“头条号” 。与“今日头条”不同 , 它是今日头条针对媒体、国家机构、企业以及自媒体推出的专业信息发布平台 。致力于帮助生产者在移动互联网上高效率地获得更多的曝光和关注 。简单来说头条号是媒体在上面撰写并发布文章、视频后,会在今日头条(包括今日头条极速版)平台展示 。通过头条号后台,媒体可以看到具体文章推荐量、阅读量、粉丝阅读量、评论量、转发量和收藏量,最后通过这些可以量化的用户阅读行为的反?。惴ㄏ低辰徊蕉阅勘暧没Ы心谌萃萍?。
3.2 推荐维度之二:用户分析
用户分析通过提取用户的有效数据,如用户经常浏览的文字类型、经常搜索的关键字、注册时登记信息的内容等,算法系统可以将每个用户的浏览记录、浏览时间、留言、评论和转发等行为进行关键字提?。?最终形成用户画像,以便之后对用户进行文章和视频的精准推送 。举个例子,给喜欢阅读“体育”的用户标上“体育”标签;给喜欢“娱乐”的用户标上“娱乐”的标签,这一步的作用是给用户的兴趣进行建模,包括用户对文章和视频的全局热度、分类热度,主题热度,以及关键词热度等 。热度信息在大的推荐系统能够解决新闻冷启动问题,帮助新闻实现推送 。
用户分析还具有协同特征,它可以在部分程度上帮助解决所谓算法越推越窄的问题 。协同特征也就是“联想式”的推送方法,并非只考虑用户已有历史,而是通过用户行为分析不同用户间相似性,比如点击相似、兴趣分类相似、主题相似、兴趣词相似,甚至向量相似,从而扩展模型的探索能力 。根据用户之间计算数据的相似程度,把用户细化分类成为不同的目标群体,再向目标群体集中的推送其感兴趣的新闻内容
内容分析和用户分析是相辅相成的,如果没有分析的文本标签,无法得到用户兴趣标签,没有用户的兴趣标签就无法给用户定位实现精准推送 。
3.3 推荐维度之三:环境分析
环境分析就是根据文章的时效性和接近性推送给相应的用户,比如获取用户当前所在位置是否在旅游区,这个可以通过获取用户的实时位置来实现 。还会不断与用户之前经常出现的所在地进行对比等方式确认当前状态,分析出用户是在常住地区还是在旅行 。这时若系统检测到用户正在泰山及周边游玩 , 则可能会相应推送泰山的相关文章、周边的交通新闻和天气信息等等 。
推荐阅读
- 虎牙直播我的世界小立,小立我的世界直播回放
- 德宏拍摄了什么电影,德宏影视
- 电视添加无线摄像头怎么弄,电视添加无线摄像头怎么弄视频
- html5下载自定义文件类型,html5如何下载文件
- strlen函数c语言 c语言中strlen函数
- ChatGPT-4上线了,chatGPT4上线了吗
- 圆形面积java代码,java求圆形面积程序
- 原生js模拟点击屏幕,javascript模拟点击
- java访问封装代码 java封装怎么访问