谷歌|谷歌大神 Jeff Dean 领衔，万字展望五大AI趋势( 十 ) 谷歌|人工智能|趋势|投稿

趋势5：对机器学习有更深入和更广泛的理解随着机器学习在技术产品和社会中的应用越来越广泛，为了确保它被公平和公正地应用，我们必须继续开发新技术，以确保它惠及更多人。这是我们“负责任人工智能和以人为本技术”（Responsible AI and Human-Centered Technology）研究小组的主要研究重点，也是我们对各种责任相关主题进行研究的领域。
基于用户在线产品活动的推荐系统是研究的重点领域。由于这些推荐系统通常由多个不同部分组成，理解它们的公平性往往需要深入了解单个部分以及各个部分组合在一起时的行为。最近的研究工作揭示了提高单个部分和整个推荐系统的公平性的方法，有助于更好地理解这些关系。此外，当从用户的隐藏活动中学习时，推荐系统以一种无偏差的方式进行学习。因为从以前用户所展示的项目中直接学习的方法中会表现出很明显的偏差。并且如果不对这种偏差进行纠正，推荐产品被展示的位置越显眼，它们就越容易被频繁推荐给未来的用户。
与推荐系统一样，上下文环境在机器翻译中也很重要。因为大多数机器翻译系统都是独立地翻译单个句子，并没有额外的上下文环境。在这种情况下，它们往往会加强与性别、年龄或其他领域有关的偏见。为此，我们长期以来一直在研究如何减少翻译系统中的性别偏见。为了帮助翻译界研究，去年我们基于维基百科传记的翻译来研究翻译中的性别偏见，并发布了一个数据集。
部署机器学习模型的另一个常见问题是分布转移：如果训练模型的数据统计分布与输入模型的数据统计分布不一致，那么有时模型的行为是不可预测的。最近的研究中，我们使用 Deep Bootstrap 框架来比较现实世界和“理想世界”（ideal world）的区别，前者的训练数据是有限的，而后者拥有无限的数据。更好地理解模型在这两种情况下（真实与理想）的行为，可以帮助我们开发出更适用于新环境的模型，并减少在固定训练数据集上的偏差。
尽管人们对机器学习算法和模型开发的工作有极大的关注，但研究者们对于数据收集和数据集的管理往往关注较少，但这些研究也非常重要，因为机器学习模型所训练的数据可能是下游应用中出现偏见和公平性问题的潜在原因。分析机器学习中的数据级联可以帮助我们识别机器学习项目生命周期中，可能对结果产生重大影响的环节。这项关于数据级联的研究已经在修订后的 PAIR 指南中为数据收集和评估提供了证据支持，该指南主要面向的是机器学习的开发人员和设计人员。

文章图片

图丨不同颜色的箭头表示各种类型的数据级联，每个级联通常起源于上游部分，在机器学习开发过程中复合，并体现在下游部分。
更好地理解数据是机器学习研究的一个重要部分。我们对一些方法进行研究，来更好地理解特定的训练实例对机器学习模型的影响，这可以帮助我们发现和调查异常数据，因为错误标记的数据或其他类似的问题可能会对整个模型行为产生巨大的影响。同时，我们还建立了“了解你的数据”（Know Your Data）工具，以帮助机器学习研究人员和从业人员更好地了解数据集的属性。去年，我们还进行了案例研究，教你如何使用“了解你的数据”工具来探索数据集中的性别偏见和年龄偏见等问题。

谷歌|谷歌大神 Jeff Dean 领衔，万字展望五大AI趋势( 十 )

推荐阅读

一尊是什么意思一尊释义

守宫砂是什么原理是什么

小粒咖啡怎么冲泡小粒咖啡

现在做什么一年可以挣50万左右？

0507w哥踢球了

如何利用兄弟1110打印机清零，让你的打印体验更加顺畅？

关于postgresql下载暗转的信息

如何在戴尔服务器上设置锁定功能？戴尔服务器怎么锁住

AI数据标注是什么，数据标注考试后推荐就业的AI优评是真的吗

平面推力轴承型号及尺寸表格，平面推力轴承的型号及尺寸

红花醡浆草怎么栽培，酢浆草花怎么种

祝福春节好运的诗句关于祝福春节好运的诗句

鲜鸭蛋怎么存放时间长

糖尿病并发症|首部指南发布：老年糖尿病，应优选哪些降糖药？

2023年福州职工医保门诊能报销多少，标准如下

申万宏源下载

沈阳的风俗有哪些

雨雪天开车平和心态很重要雨雪天气开车注意安全

布隆如何打出被动伤害布隆如何打出被动，布隆如何打出被动技能

健康码是如何实现服务器连接的？健康码怎么服务器