NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案


【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案

  • 前言
  • 一、赛题
  • 二、模型设计
  • 三、训练技巧和提升方案
  • 四、总结
  • 代码开源
【NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案】
前言
  1. 比赛网页
  2. 之前写过相关的赛题解读,想了解的朋友移步《语义匹配(二)搜狐文本匹配大赛BaseLine比较》
  3. 本次比赛成绩:初赛第4,复赛第9,决赛第8。虽然最后因为才发现了提交代码有bug,但还是分享一下自己的PPT方案。
一、赛题 NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片
NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片

二、模型设计 NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片
NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片
NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片

三、训练技巧和提升方案 NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片
NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片
NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片
NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片
NLP|【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案
文章图片

四、总结
  1. 本次比赛主要是为了让自己多多尝试模型的改造与优化,对于数据的处理和洞察几乎没有怎么下功夫。导致在最后决赛上发现各个队伍都通过大量的数据处理加上简单的模型就可以达到比较高的分数。
  2. 总的来说听了其他选手的方案介绍,模型设计上没有做太多的创新,一般都是基于多任务学习的常规套路,给每个任务设置不同的头部组件拼接在bert上。
  3. 个人的收获是:自蒸馏不一定有用,大模型真的很难训。对抗训练、Muti-sample Dropout YYDS!数据预处理 YYDS!
  4. 对于这种不同颗粒度匹配的任务,在实际业务生产中,应该更多的手机可以用于对比学习的数据,让模型学习到颗粒度之间的明确区别。
  5. 因为只给出了PPT,有不少细节没有全部展现,有疑问的朋友欢迎留言,我会解答~
代码开源 代码还在整理ing,有需要的读者可以留言,我加加速QAQ

    推荐阅读