搜索|业务同学入门搜索,推荐的一些套路方案

【搜索|业务同学入门搜索,推荐的一些套路方案】一晃半年。。。看了很多项目,自己摸索了很长时间,也接手了搜索系统,得到了一些新的经验,下面都是些不高大上的实用套路技巧,做业务的同学可能会感觉对搜索推荐广告系统很感兴趣但不知如何入门。
我极其讨厌某些大厂某些高工有套路却不共享,整些高大上的ppt算法数学唬人,让大家入不了门,mmp。所以这里与大家共享这些入门套路经验。还是那句话,有问题请尽情喷,我喜欢交流。
1.推荐,搜索的核心思路都分为两步:召回,排序。
2.召回:

  1. 推荐的召回策略可以组合svd,itemcf,usercf,knn等多种算法,大家有啥上啥不要怂。至于召回策略和每种算法的召回商品数量,人肉拍一个够用了。实时推荐根据实时行为商品召回,本质上和离线计算推荐没什么不同。#7-7补充:根据用户画像里面的用户偏好属性召回,本质上和搜索的意图分析差不多,这就是个性化推荐的属性扩展。搜索推荐本质上很相似。
  2. 推荐冷启动问题:简单点可以用搜索来做召回,本质上就是基于内容推荐。
  3. 搜索的召回,要query分析后召回多页内容以进行下面的多轮精排序,召回多页为了尽量保证前几页内容的ctr,cvr。
2.排序:
粗排之后多轮精排序,搜索根据相似性召回根据相似性粗排,ctr*cvr模型做一轮精排,之后各种业务策略多轮精排序以针对不同的业务场景,如类目合并,品牌加权等等。
3.模型:
xgboost+liblinear+sklearn够用,想上深度学习搜wide&deep。onlinelearning:ftrl。
4.nlp:
搜索的精华在query分析和rerank,其中query分析需要比较实用的套路nlp技术。给大家个套路思路。感兴趣搜“查询改写“。
  • (1)简繁体,大小写归一
  • (2)分词,垃圾分词过滤
  • (3)实体词合成
  • (4)term去重
  • (5)意图识别,识别类目信息,识别品牌信息
  • (6)同义词替换/扩展 ,同义短语扩展,同义query扩展
  • (7)term权重计算
  • (8)拼查询语句,召回
  • (9)少召回省词处理,二次召回
5.三年开发的总结,五句话,自己感觉够精辟:
业务=curd =>实例化需求=> 领域模型=>工作流=>敏捷开发=>团队管理=>高可用运维
策略/规则=抽取+筛选/扩展+排序
权重=人肉拍/跑模型
懵逼的时候=》搜github,搜公众号,搜知乎,查书,问人,看论文
前景不明朗的时候=》做得烂也比不做强

    推荐阅读