谷歌|谷歌大神 Jeff Dean 领衔,万字展望五大AI趋势( 十 )
趋势5:对机器学习有更深入和更广泛的理解随着机器学习在技术产品和社会中的应用越来越广泛,为了确保它被公平和公正地应用,我们必须继续开发新技术,以确保它惠及更多人 。这是我们“负责任人工智能和以人为本技术”(Responsible AI and Human-Centered Technology)研究小组的主要研究重点,也是我们对各种责任相关主题进行研究的领域 。
基于用户在线产品活动的推荐系统是研究的重点领域 。由于这些推荐系统通常由多个不同部分组成,理解它们的公平性往往需要深入了解单个部分以及各个部分组合在一起时的行为 。最近的研究工作揭示了提高单个部分和整个推荐系统的公平性的方法,有助于更好地理解这些关系 。此外,当从用户的隐藏活动中学习时,推荐系统以一种无偏差的方式进行学习 。因为从以前用户所展示的项目中直接学习的方法中会表现出很明显的偏差 。并且如果不对这种偏差进行纠正,推荐产品被展示的位置越显眼,它们就越容易被频繁推荐给未来的用户 。
与推荐系统一样,上下文环境在机器翻译中也很重要 。因为大多数机器翻译系统都是独立地翻译单个句子,并没有额外的上下文环境 。在这种情况下,它们往往会加强与性别、年龄或其他领域有关的偏见 。为此,我们长期以来一直在研究如何减少翻译系统中的性别偏见 。为了帮助翻译界研究,去年我们基于维基百科传记的翻译来研究翻译中的性别偏见,并发布了一个数据集 。
部署机器学习模型的另一个常见问题是分布转移:如果训练模型的数据统计分布与输入模型的数据统计分布不一致,那么有时模型的行为是不可预测的 。最近的研究中,我们使用 Deep Bootstrap 框架来比较现实世界和“理想世界”(ideal world)的区别,前者的训练数据是有限的,而后者拥有无限的数据 。更好地理解模型在这两种情况下(真实与理想)的行为,可以帮助我们开发出更适用于新环境的模型,并减少在固定训练数据集上的偏差 。
尽管人们对机器学习算法和模型开发的工作有极大的关注,但研究者们对于数据收集和数据集的管理往往关注较少,但这些研究也非常重要,因为机器学习模型所训练的数据可能是下游应用中出现偏见和公平性问题的潜在原因 。分析机器学习中的数据级联可以帮助我们识别机器学习项目生命周期中,可能对结果产生重大影响的环节 。这项关于数据级联的研究已经在修订后的 PAIR 指南中为数据收集和评估提供了证据支持,该指南主要面向的是机器学习的开发人员和设计人员 。
文章图片
图丨不同颜色的箭头表示各种类型的数据级联,每个级联通常起源于上游部分,在机器学习开发过程中复合,并体现在下游部分 。
更好地理解数据是机器学习研究的一个重要部分 。我们对一些方法进行研究,来更好地理解特定的训练实例对机器学习模型的影响,这可以帮助我们发现和调查异常数据,因为错误标记的数据或其他类似的问题可能会对整个模型行为产生巨大的影响 。同时,我们还建立了“了解你的数据”(Know Your Data)工具,以帮助机器学习研究人员和从业人员更好地了解数据集的属性 。去年,我们还进行了案例研究,教你如何使用“了解你的数据”工具来探索数据集中的性别偏见和年龄偏见等问题 。
推荐阅读
- 旗舰|出乎意外?苹果、小米、三星、谷歌旗舰续航对比,第一名实力反超
- 爱奇艺|爱奇艺谷歌版来了!纯净无广告,不开会员也能流畅追剧
- 大神|一点隐私都没有了?聊天记录打码也不安全:大神亲自下场破解
- 谷歌|国产手机真长脸,iPhone13ProMax续航神话破灭,网友:终于等来了
- xel|火星马丁:谷歌pixel5综合体验
- 谷歌|苹果小米三星5大旗舰机续航测试!第一名你不得不服
- 折叠屏手机|今年内发布!谷歌折叠屏手机确认:星米OV大敌来了?
- oppo|传谷歌折叠屏手机年底问世 苹果也在考虑折叠手机
- Pixel|谷歌 Pixel 手机 App 流式传输功能曝光:电脑、手机互不干扰
- 适配|谷歌是符合做好折叠屏适配的?我总结了这四点