谷歌不甘示弱，开源可处理|谷歌不甘示弱，开源可处理 101 种语言模型，就比 Facebook 多一种谷歌不甘示弱，开源可处理1

文章图片

上周 Facebook 开源了一个可以处理 100 中语言的模型，今天，不甘示弱的谷歌就宣布开源了一个可翻译 101 种语言的模型。
谷歌称新的 MT5 是 Google T5 模型的多语言变体，已在涵盖101种语言的数据集上进行了预训练，包含 3 亿至 130 亿个参数，可学习 100 多种语言而不会受到干扰。
MT5 经过大量训练，具有 130 亿个参数 MT5 在 MC4 （ C4 的子集）上接受培训，MC4 是从公共 Common Crawl 存储库中提取的约 750GB 英语文本的集合。Common Crawl 包含数十亿个从 Internet 抓取的网页。尽管 C4 数据集被明确设计为仅英语，但 MC4 覆盖了 Common Crawl 迄今为止发布的 107 种语言，具有 10000 多个网页。
【谷歌不甘示弱，开源可处理|谷歌不甘示弱，开源可处理 101 种语言模型，就比 Facebook 多一种】有证据表明，语言模型会放大他们所训练的数据集中存在的偏见。尽管一些研究人员声称，目前没有任何机器学习技术可以充分防止有害输出，但谷歌研究人员通过对 MC4 文档中进行重复数据删除和过滤包含不良词的页面减轻了 MT5 中的偏差。他们还使用工具检测了每个页面的主要语言，并删除了置信度低于 70％的页面。
谷歌表示，最大的 MT5 模型（具有 130 亿个参数）超过了 2020 年 10 月的所有基准测试。其中包括 Xtreme 多语言基准测试的五项任务、XNLI 涵盖任务涵盖 14 种语言、XQuAD/MLQA 和 TyDi QA 阅读理解基准分别使用了 10 种、7 种和 11 种语言，以及具有 7 种语言的 PAWS-X 复述识别数据集。
谷歌：MT5 可直接适用于多种语言环境当然，基准是否充分反映模型的真实性能是一个有争议的话题。一些研究表明，开放域问答模型（理论上能够用新颖答案回答新颖问题的模型）通常只是根据数据集简单地记住在训练数据中找到的答案。
谷歌研究人员断言 MT5 是迈向功能强大的模型的一步，这些功能不需要具有挑战性的建模技术。
谷歌研究人员认为 MT5 可直接适用于多种语言环境，并在各种基准测试中均表示出色。
在描述 MT5 的论文中，谷歌研究人员写道：“总体而言，我们的研究结果突出了模型能力在跨语言表示学习中的重要性，并建议通过过滤、并行数据或中间任务来扩展简单的预训练方法。”
模型能力不断提升，重点关注网络抓取内容与 Facebook 模型相同的是，谷歌多语言 AI 模型设计的目标也是建立一个可以理解世界上 7000 多种语言的模型。
多语言 AI 模型在相似的语言之间共享信息，这有益于资源贫乏的语言，并允许零镜头语言处理或模型未见过的语言处理。
随着模型能力的提升，它们需要较大的数据集，这些数据集会很费力且难以创建，研究人员将重点放在网络抓取的内容上。

文章图片

谷歌不甘示弱，开源可处理|谷歌不甘示弱，开源可处理 101 种语言模型，就比 Facebook 多一种

推荐阅读

同类色对比照片摄影同类色

珂的意思和含义

聊城有哪些县聊城都有哪些区县

为什么像汉字一样的象形文字很少,多数语言是拼音文字呢？

button的超级链接

支付宝商户如何开通花呗收款？花呗收钱开通的方法

画新娘妆和盘头多少钱，画一个新娘妆大概多少钱

坐飞机可以戴隐形眼镜吗？

茯苓绿豆粥——清热祛湿利尿消肿

嘉宝果泡酒多久可以喝

星巴克全职星级咖啡师面试难吗？

建筑软件,我的世界导入建筑软件

听书安卓1.5,喜马拉雅蜻蜓fm懒人听书不错!

医保卡余额怎么用医保卡余额使用技巧

iOS|iOS 碰撞角度矫正及 applyImpulse 和 applyForce的区别

唇色发紫日常养护嘴唇发黑是什么原因

为什么梦见打雪仗

榴莲一半硬一半软是什么原因

顾炀樊渊是哪部小说

梦见理发你知道预示着什么吗