人工智能|关于机器学习，我们忽视的东西我们忽视的东西|关于机器学习

2020-01-16 13:35:04

作者：Ilja Moisejevs
编译：ronghuaiyang

导读

新功能不是免费的。

文章图片

我们生活在一个疯狂的时代。我记得当我还是个孩子的时候，我在看《星球大战》的时候，我在想，要过多久我们的厨房里才会有会说话的机器人。事实证明，这段时间并不长。实际上不到 10 年。
人工智能，更具体地说，是机器学习将科幻小说变成了现实 —— 没有其他的方式来表达它。每次我浏览技术评论或 TechCrunch 时，我都被我们现在可以“随意”做的事情所震撼。
透视墙壁？很容易。通过视频猜测材料的物理性质？实现了。从键盘声音预测按了哪个键？如何生成逼真的面孔、身体或诗歌？或者教机器画画？或者教机器打《星际争霸》游戏？
还有，你见没见过这种东西在街上晃来晃去？

文章图片

疯狂。
现在，如果你真的去和 AI/ML 领域工作的人聊一聊，你可能会得到两种回答中的一种。要么对于 AI 可以做什么和下一个大的愿景/ NLP /强化学习问题超级兴奋，要么他们对我们这些愚蠢的人类构件的人工智能非常恐惧，相信不久人工总体智会将人类转化为一个无用的东西。在我看来，这就像今天社区的普遍分裂 —— 50%的人认为人工智能是我们的未来，50%的人认为它是我们的末日。
关于人工智能和机器学习是什么，我想提供第三种观点 —— 或许是一种更世俗的观点：为对手提供一个新的攻击面。
让我们探索一下。
新发明的黑暗面每当一项新发明出现时，大多数人都倾向于认为这项发明带来了新的惊人的能力。但是，哪里有光明，哪里就会有阴影，因此新功能不经意间就会带来新的“漏洞”，供黑客利用。然后利用它们。

文章图片

让我们上一节历史课，重访 PC 市场。第一台个人电脑(Altair 8800)于 1975 年发布，随后在接下来的 10 年里进行了一系列的创新，最终在 1984 年推出了 Apple Macintosh。随之而来的是一波爆炸性的采用浪潮，在整个 90 年代一直持续到 2000 年：

文章图片

然而，大多数用户并不知道，在恶意软件或“恶意软件”市场也发生了类似的爆炸。
1989 年，Robert Morris 尝试使用 Unix sendmail，并构建了一个可以自我复制的蠕虫，然后将其发送到 internet 上。一开始只是一个简单的实验，结果变成了第一次 DoS 攻击，造成的损失估计在 10 万到 1000 万美元之间，并使整个互联网慢了好几天(当然现在是不可想象的)。随后，1989 年发生了第一次勒索软件攻击，1996 年出现了第一个 Linux 病毒(“Staog”)，1998 年出现了第一个 AOL 木马。

文章图片

后来，同样的事情也发生在移动领域：2007 年的 iPhone 时刻，随之而来的是智能手机的爆炸式增长:

文章图片

紧随其后的是手机恶意软件的爆炸式增长：

文章图片

那么，机器学习呢？
尽管如此，机器学习的产品化仍处于萌芽阶段。许多真正前沿的工作仍然局限于研究实验室和大学 —— 但即使是研究，我们也可以开始看到一些相同的趋势出现。
机器学习研究论文按年份和地区分类：

文章图片

…vs对抗机器学习(ML 的恶意软件版本)研究论文计数：

文章图片

事情正在发生。开始恐慌了吗？
安全问题还没有那么快。好消息是，随着个人电脑占据了我们的日常生活，黑客开始入侵，另一个与之并行的市场开始发展 ——安全解决方案市场。
1987 年，Andreas Luning 和 Kai Figge 为 Atari ST 平台开发了第一个抗病毒产品。同年，McAffee、NOD、Flu Shot 和 Anti4us 都出生了 —— 在接下来的 20 年里，更多的安全类产品诞生了：

文章图片

很快，VCs 就意识到了大型网络安全将会发生什么，资本将开始流动:

Kleiner Perkins 对 Symantec 投资 3M
McAffee 从 Summit Partners 拿到了融资
BitDefender 融资 7 百万美元

数百万美元的收购：

McAffee700 万美元买了 solomon
Symantec 同意以 787.8 亿美元购买 Axent
微软从 GeCAD 软件中获取杀毒技术

随着手机恶意软件的快速增长，安全玩家也出现了类似的爆炸式增长：

文章图片

安全邻域的融资：

Bluebox 从 Andreessen Horowitz 融资$9.5M
France Telecom 对 Lookout 投资达到$20M
Zimperium 在移动安全领域融资$8M

安全领域的收购:

移动安全初创公司被 Rapid7 收购
Apple 以$356M 购买了三星安卓安全合作伙伴
AVG 以$220M 购买了移动安全公司 Location Labs

那么机器学习呢？
机器学习需要安全吗？在过去的某个时候，我曾为英国最大的金融科技公司之一进行过反欺诈和反洗钱工作。我的团队每年监管的交易额超过 100 亿美元，我们一直在努力阻止骗子进入 GC 的循环系统。很自然地——在某种程度上，我们屈服于这种炒作，决定尝试机器学习。
令我当时感到惊讶的是，它居然奏效了。事实上，它很有效。从传统的启发式，我们设法减少了 80%的金钱损失到欺诈和提高了 20 倍的检测可疑的帐户洗钱。
只有一个问题。
我们在我认为“关键”的能力上部署了机器学习。我们给了这个算法一项任务，但这项任务不允许它失败——如果失败了—— 我们要么损失大量金钱，要么被吊销金融执照。对我这个直接负责 GC 安全的产品经理来说，这两者听起来都不是什么好事。
所以我需要知道 ML 如何以及何时会失败。如何利用我们的模式？它内在的弱点在哪里？我如何知道 GoCardless 是否受到攻击？
在花了太多的夜晚阅读 ML 的文件和在暗网上寻找之后，我终于找到了我所寻找的。我在 ML 上了解到中毒攻击，攻击者可以通过在训练中注入损坏的数据来影响模型的思维。我发现了对抗性的例子，以及在测试时模型是如何容易被精心设计的扰动的输入误导的。最后，我了解到隐私攻击，底层数据和模型本身都不是真正的私有。
然后，我发现了这个……

文章图片

我吓坏了。
到 2019 年底，1/3 的企业都将部署机器学习。这是你、我、我们的朋友和亲人每天使用的所有产品的三分之一 —— 在任何知道 ML 工作原理的攻击者面前全裸。
是的，机器学习需要安全。
迈出第一步 ML 安全是一个非常新兴的领域 —— 到今天基本上还不存在。如果说我从上面的研究中学到了什么，那就是任何没有数学博士学位的人都很难弄清楚如何保证他们的 ML 的安全(现在几乎没有解决方案，只有大量的数学研究论文)。
考虑到我们的生活中有多少是要托付给算法的 —— 我认为这是我们的责任 —— 你、我和整个 ML 社区的责任是确保安全不被抛在脑后。今天有很多我们可以做的来构建更健壮的 ML 模型 —— 正如我解释我的帖子逃税，中毒和隐私攻击。但更重要的是，我们需要转变思维模式——从“不惜一切代价的准确性”转向更平衡的准确性与稳健性：

文章图片

C1和C2是两个模型。很明显，C1一开始并不是很准确，但是随着攻击强度的增加，它在抵抗攻击方面也做得更好。你选择C1还是C2作为ML模型？
这篇文章和上面的文章是我尝试迈出的第一步，迈向一个更健壮的 ML 未来。确保每个人的安全。
【人工智能|关于机器学习，我们忽视的东西】英文原文： https://medium.com/@iljamoisejevs/what-everyone-forgets-about-machine-learning-974752543849