算法|【AI简报20210910期】联想发布LA2智能嵌入式控制器、单目摄像头实时感知车辆形状... 大数据|计算机视觉|机器学习

文章图片

嵌入式 AI

1. 历时三年量产列装：联想发布LA2智能嵌入式控制器

原文链接：
http://finance.sina.com.cn/tech/2021-09-08/doc-iktzqtyt4856913.shtml

9月8日，联想集团在2021联想创新科技大会期间，公布了联想LA2智能嵌入式控制器。
该控制器由联想集团自主设计、联合开发，是联想集团在电脑智能嵌入式控制器设计领域的初步尝试。联想自主设计了LA2智能嵌入式控制器的架构和基于神经网络的人工智能算法，同时完成了在电脑系统中的集成，历经3年最终实现量产列装。

算法|【AI简报20210910期】联想发布LA2智能嵌入式控制器、单目摄像头实时感知车辆形状...

文章图片
据介绍，LA2智能控制器是一款为PC打造的专用硬件，以运行智能算法、实现智能功能为目的，采用独创的异构多核心混合架构，基于传感器融合技术实现高效快速的智能控制。
联想在深入研究用户使用行为后发现，因为需求和性能释放不匹配导致的“性能浪费”常常出现，这对笔记本电脑的续航影响很大。同时随着个人电脑作为生产力工具渗透进更多人的生活，用户对PC的易用性和使用体验提出了更高的要求，一个专门的智能控制器成为必然。而实现这些功能，并作为未来更多智能功能扩展的基础，LA2智能控制器就此诞生。
2. 国产芯赋能，亮风台终端新品5G AR智能眼镜HiAR H100发布，AR平台全新升级

原文链接：
https://www.jiqizhixin.com/articles/2021-09-09-4

增强现实（Augmented Reality, AR）通过电脑技术将虚拟信息叠加到现实世界中，利用手机、平板电脑、眼镜等设备的摄像头扫描现实世界的物体，通过识别技术在设备上显示出扫描物体的相关信息，从而增强了现实物体的立体感与互动体验感。
随着 AR 技术的不断成熟，AR 越来越多地应用于各个行业，如教育培训、健康医疗、展示导览、广告购物、游戏等，成为了人们感知世界的重要辅助手段。
在国内的 AR 圈，亮风台属于做的比较到位的公司，产品布局广，包括 AR 远程通讯与协作平台 HiLeia 系列、双目 AR 智能眼镜 HiAR G200、HiAR Cloud 云服务，提供云端一体的服务体验。
目前，亮风台以 To B 业务为主，其推出的 AR 智能终端已经广泛应用于供应链核查、巡检点检、教育培训、导览导航、移动执法、娱乐互动等多样化的业务场景中。
今日，亮风台在新品发布会上宣布 AR 平台 HiAR Space 全新升级，明确打造「超实境智慧空间（Hyper-Reality Intelligent Space, HRIS）」的目标。与此同时，亮风台还重磅发布 5G AR 智能眼镜 HiAR H100 以及物理世界的 AR「便利贴」与「记事本」PinNotes。

文章图片

AI新闻 3. OpenAI 是如何被10亿美元收买了“非盈利”灵魂的？

原文链接：
https://zhuanlan.zhihu.com/p/408174622

近日，一篇名为“How OpenAI Sold its Soul for $1 Billion”（OpenAI是如何因为 10 亿美元出卖自己的灵魂）的文章在 Reddit 上引起了热议。
文章作者 Alberto Romero 抨击知名的非营利机构 OpenAI 为了金钱而出卖自己原有的“为人类造福”宗旨。
OpenAI 成立于 2015 年，创立之初便将自己定位为“非营利组织”，目标是以安全的方式实现通用人工智能（AGI），使全人类平等收益，而不是为公司的股东创造利润。
但在 2019 年，OpenAI 违背了它的初衷，成为了一家名为“OpenAI LP”的营利性公司，由一家名为“OpenAI Inc”的母公司控制。这时，OpenAI 成了一家有利润上限的机构，股东的投资回报被限制为不超过原始投资金额的 100 倍。也就是说，如果你投资 1000 万美元，你最多能得到 10 亿美元的回报。
OpenAI 的结构改了之后，没几个月，微软就注资了 10 亿美元。而微软与 OpenAI 的合作关系，是基于一个重要前提，即微软有权将 OpenAI 的部分技术商业化，比如 GPT-3 与 Codex。今年 5 月末，微软的官方网站便报道了他们用 GPT-3 的技术赋能内部商业产品，为用户服务：

文章图片
当 OpenAI 因金钱关系与大型商业公司达成合作协议，我们还能相信他们会信守承诺，从全人类的福祉出发来发展人工智能吗？亦或是，技术终将沦为资本的俘虏，情怀也难逃被出卖的命运？
4. 中国首款L4级Robovan发布！文远知行商用落地两条腿走路

原文链接：
https://www.qbitai.com/2021/09/28464.html

你的城市出行，RoboTaxi、Mini Robobus…
你的同城货运，现在开始，进入Robovan时间。
就在今日（9月9日）中国首款L4级自动驾驶轻客——WeRide Robovan——正式发布。
自动驾驶独角兽文远知行，再用铁三角模式，联手江铃汽车和中通快递，把中国同城货运，带入自动驾驶时间。
一款怎样的Robovan？

文章图片
中国首款L4级Robovan发布！文远知行商用落地两条腿走路基于江铃轻客BEV车型，但从外观来看，前置双激光雷达瞩目，加持的依然是文远知行多传感器安全冗余方案。
文远方面称，该款自动驾驶轻客打造中，全冗余底盘开发，搭载全栈式软硬件自动驾驶解决方案，能够以L4级自动驾驶能力，实现城市交通场景下的全天时、全天候运行。
虽然是首次在同城货运领域展开落地，但Robovan的系统内功，早已修炼多时。
因为背后，正是文远知行数年来在Robotaxi开放运营和Robobus前装量产中积累下来的丰富经验。
有文远知行在全球多个城市近700万公里自动驾驶里程的检验和支撑。
这套方案，之前已经在城市中心、城中村、高速路等丰富多样的城市交通场景中，完成了稳定、安全、高效运行的证明。

文章图片
中国首款L4级Robovan发布！文远知行商用落地两条腿走路从2019年11月，文远知行在广州推出全国首个全对外开放的Robotaxi运营服务以来，覆盖了黄埔区、广州开发区数百平方公里的核心城市开放道路。
截至2020年11月，Robotaxi运营一周年共安全完成147,128次出行，服务用户数超60,000，无任何主动责任事故。
所以现在，从载人到载货，可以视为文远知行自动驾驶商用落地过程中，另一大引擎启动；也可以理解为通用自动驾驶系统、平台的“降维释放”。
以及更重要的是，中国的同城货运进程，从今往后，步入自动驾驶时间。
5. 马斯克发布机器人，何小鹏牵出机器马，现在造车哪还有「车样」

原文链接：
https://www.qbitai.com/2021/09/28383.html

你以为的车企，不再是你以为的车企。
这不，特斯拉刚刚轰动的AI开放日，马斯克展出人形机器人，并高调宣称这就是特斯拉的下一步，特斯拉就是一家车轮上的机器人公司。
而中国这边，自述“与马斯克没差距”的小鹏汽车创始人何小鹏，也于今日发布首款智能机器马。
虽然大家形态有别，人人马马，但技术底层逻辑都相似。
一个把特斯拉纯视觉为核心的技术用到了机器人。
另一个则表示，机器马融合了小鹏汽车全栈自研的智能驾驶技术，采用视觉加激光雷达的感知系统。
加上之前宣布汽车机器人的李彦宏，以及发布新宠机器狗铁蛋的雷军……
现如今造车的朋友，哪里还有造“车的样子”。[手动狗头]

文章图片
马斯克发布机器人，何小鹏牵出机器马，现在造车哪还有「车样」 6. 这套“人造肌腱”装备，可保护你的老腰

原文链接：
https://www.qbitai.com/2021/09/28273.html

年纪轻轻，腰就不好了？
你可能需要这样一套“护甲”：

文章图片
穿上它搬重物、做深蹲，好比外骨骼，能时刻帮你纠正成正确的姿势，减轻背部脊柱的负担，从而保护你那脆弱的老腰。
研究出自首尔国立大学，成果已发表在Science Robotics。

文章图片
这套装备可以更低的消耗、成功地将穿着者自由发挥的搬重姿势纠正为下蹲姿势，从而起到保护腰背的作用。虽然咱现在搞不来这套装备啊，但大家在日常的锻炼和劳动中，学着它那个纠正姿势注意一点也也好，保护老腰很重要啊！
聊点技术 7. ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能

原文链接：
https://www.qbitai.com/2021/09/28237.html

通常，自动驾驶汽车通过单目摄像头看到的世界长这个样子：

文章图片
ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能马路上的其他车辆、物体，都被统一建模成一个个立方体，具体的结构细节则被忽略。
想要更精准地勾勒出车辆的真实形态，当然也不是不行，但那就需要用上激光雷达、双目相机等更加昂贵的传感器。
不过现在，一项最新研究赋予了单目摄像头新的能力——是的，仅凭单目相机，就能实时感知物体的3D形状，进而提高3D目标检测性能。
这项研究来自百度，论文已经入选ICCV 2021。
具体如何实现？
大体上可以分为三步：

首先，引入CAD模型，在CAD模型上预先定义几个不同的3D关键点。
然后利用深度学习网络，来建立3D关键点和它们在图像上的2D投影之间的关联。
最后，利用这样的对应关系为每个目标物体建立2D/3D约束。

文章图片
整体的网络架构如上图所示，8个分支头分别对应中心点分类、中心点偏移、2D关键点、3D坐标、关键点置信度、物体方向、维度，以及3D检测置信度得分。所有回归信息最后都会被用来恢复物体在摄像机坐标中的3D边界框。
而为了自动生成2D/3D关键点的真实标注，研究人员还提出了一种自动模型拟合方法。也就是根据摄像头观测到的2D图像，自动拟合不同的3D物体模型和物体掩码。

文章图片
ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能具体而言，该方法是基于不同种类的车辆CAD模型，以及KITTI数据集中的3D物体样本实现的。
研究人员指出，实际上，3D形状标注的过程可以看作一个优化问题，其目的是计算出最佳参数组合，来适应AI通过“视觉观察”得到的结果（如2D物体掩码、3D边界框、3D点云等）。

文章图片
ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能实验结果
研究人员在KITTI 3D目标检测基准上测试了这一新方法的性能。
KITTI 3D目标检测基准包含7481张训练图像、7518张测试图像，以及对应的点云，总共包括80256个标记对象。
在这项研究中，由于测试集的真实数据不可用，研究人员将训练数据分为训练集（3712个样本）和验证集（3769个样本），用以完善模型。
另外，用以测试的模型是在2块英伟达V100上训练完成的，批量大小设为16。

文章图片
ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能红色代表最佳结果，蓝色代表次佳结果
可以看到，在全部6个任务中，采用了48个关键点的AutoShape方法取得了4项第一。而采用16个关键点的AutoShape速度更快，准确性损失也并不大。

文章图片
ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能此外，从上图中可以看出，模型预测的3D形状与真实物体一致性较高。

文章图片
ICCV 2021：单目摄像头实时感知车辆形状，显著提高3D目标检测性能即使是画面中位置较远的车辆、被截断/遮挡的物体，其位置也能被准确检测到。
总而言之，相比于其他现有方法，AutoShape更准确，并且推理速度更快，可以达到25FPS的处理速度，也就是说可以实现实时检测的效果。
论文地址： https://arxiv.org/abs/2108.11127
项目地址： https://github.com/zongdai/AutoShape
8. 矩阵乘法无需相乘，速度提升100倍，MIT开源最新近似算法

原文链接：
https://www.qbitai.com/2021/09/28213.html

在不做乘加操作（multiply-adds）的情况下，能计算矩阵乘法吗？

矩阵乘法包含大量a+b×c类运算，因此常在运算中将乘法器和加法器进行结合成一个计算单元，进行乘法累加操作。

用近似算法的话，确实可以！
这是来自MIT的最新研究，他们提出了一种新的近似算法MADDNESS，在确保一定精度的情况下，将速度提升到了现有近似算法的10倍，比精确算法速度快100倍，被ICML 2021收录。

文章图片
研究还认为，新算法可能比最近大火的稀疏化、因子化等操作更有前途。
目前，作者已经开源了算法代码，感兴趣的小伙伴们可以去尝试一下。
一起来看看。
用K聚类算法搞个查找表
这个算法，借鉴了一种叫做乘积量化（Product Quantization）的方法。
其中，量化本质上是一种近似操作。
由于矩阵乘法中的每个元素，都可以看做是两个向量的点积，因此可以通过查找相似向量，来近似地估计向量的点积，而无需再进行大量乘法运算。
乘积量化的具体原理如下：

文章图片
当我们输入一个要计算的向量a的时候，函数g(·)会对a进行一个近似操作，从一个提前设置好的数值查找表中，找到与它最相近的那个值，并输出一个近似的向量g(a)。
与此同时，这张表格中的每个值，都已经提前做过点积计算了，因此在输出g(a)的同时，它与查询向量（query vector）b对应的近似点积计算结果h(b)也能被查表并输出。
最后，只需要用f(·,·)函数对g(a)和h(b)做加法运算，而不需要再做乘法计算了。
简单来说，就是通过近似查表的方法，节省了矩阵乘法中的乘法计算时间。
那么，这样的数值查找表，究竟要设置什么数值，才能确保在近似计算过程中，损失的计算精度最小呢？
这里借鉴了一下K聚类算法（K-means）的思路，即将数据预分为K组，随机选取K个对象作为初始聚类中心，再通过训练迭代，确保在将样本分到K个类中时，每个样本与其所属类中心的距离之和最小。

文章图片
△可视化的K聚类算法通过这种方法计算出来的数值查找表，能更准确地近似矩阵乘法的数值计算结果。
根据这样的思路，作者们提出了一种高效的向量乘积量化函数，能在单CPU中每秒编码超过100GB的数据；同时，还提出了一种针对低位宽整数的高速求和函数。
然后，基于这两类函数，整出了一套全新的矩阵乘法算法MADDNESS。
这个近似算法的效果如何呢？
精度保持，效率提升数倍
这个算法所需要的算力并不高，在搭载英特尔酷睿i7-4960HQ（2.6GHz）处理器的Macbook Pro上就能完成。
他们在Keras版本的VGG16模型上进行了测试，所用的数据集是CIFAR-10/100，对一系列最新的近似算法进行了评估：

文章图片
从图中来看，在效率提升接近10倍的情况下，采用MADDNESS（图中红线）仍然能在CIFAR-10上保持几乎不变的精度。
即使是在CIFAR-100上，在精度几乎不变的情况下，MADDNESS和MADDNESS-PQ也同样实现了效率最大化的结果。
除了最新算法外，与其他的现有算法相比（包括作者们在2017年提出的Bolt算法），效果同样非常拔尖。

文章图片
对比计算速度的话，MADDNESS的点积速度就能比现有最快方法快两倍左右。

文章图片
当然，也有读者指出，这篇论文还存在一些待解决的问题：

①论文用的是VGG16模型，但没有在Transformer等更经典的模型（如BERT）中进行实验；②虽然对矩阵乘法进行了加速，但毕竟只是近似算法，意味着潜在的精度损失；③没有在GPU中测试评估结果。

文章图片
但他仍然认为，这不失为一篇非常有意思的研究。
来点信心 9. Martin Davis最新访谈：机器学习是一个收敛的过程，背后理论并不高深

原文链接：
https://zhuanlan.zhihu.com/p/405023920

文章图片
近日，ACM 通讯（Communications of the ACM）刊登了一篇德国科技采访人员 Allyn Jackson 对著名数学家 Martin Davis 的采访。
在采访中，Martin Davis 提出了一个有意思的观点：“机器学习是一个收敛过程，一个连续逼近，已在分析中应用多年。如果你在构建多级神经网络时选择正确的函数，那么它就会迅速收敛…”
Martin Davis 于1928年在美国出生，1950年从普林斯顿大学取得数学博士学位，博士导师为现代计算机理论之父、著名的数学家与逻辑学家 Alonzo Church。后来，他加入纽约大学任教，成为了 NYU 计算机科学系最重要的创始人之一。
在他数十年的研究生涯中，Martin Davis 最为人称道的是他在数理逻辑上的研究成果，尤其是对希尔伯特第十问题（H10）的深入研究。希尔伯特第十问题是关于不定方程的可解答性，希望对于任意多个未知数的整系数不定方程，可以找到一个可行算法，借助该算法后，通过有限次的运算就能判定该方程是否有整数解。
在他的博士答辩论文中，Martin Davis 提出了著名的“戴维斯的大胆假设”（Davis's daring hypothesis），在逻辑与数论之间建立了联系。他假设了递归可枚举集（recursively enumerable sets）与丢番图集（Diophantine sets）是相同的，从而判定 H10 不可解。
后来，在与数学家 Hilary Putnam 与 Julia Robinson 的合作中，Davis 进一步证明了这个大胆的假设，并为俄罗斯计算机科学家 Yuri Matiyasevich 后来在1970 年最终证明 H10 不可解提供了重要的理论基础。
此外，上世纪60年代，Martin Davis 与 Hilary Putnam 一起设计的 Davis-Putnam 算法（简称“DP算法”）成为 SAT 问题的第一个算法，在 SAT 问题被证明为 NP-Complete 问题后，DP算法也成为了所有完备问题算法的基本框架。
以下是 ACM 通讯对 Martin Davis 的访谈问答：
Q1：您对 “P 不同于 NP”持怀疑态度，是这样吗？
人们认为 NP 类是类似于递归可枚举集的。这种类比是基于假设多项式时间的可计算性是可计算性的类比，多项式时间的可计算性是切实可行的可计算性。为什么你会相信这个说法呢？这个说法并不合理。如果你有一个包含大数值系数的高阶多项式边界，那么它在计算上根本是不可行的。NP类具有良好的数学闭合特性。这当然是一个有趣的类别，但为什么认为它可行呢？
在实际的应用中，存在非常有用且运行良好的指数时间算法（exponential-time algorithms）。我的这个观点是参考了 Margaret Wright 的研究工作。起初，人们认为线性规划不是多项式时间。所以，在发现用于线性规划的多项式时间算法时，人们认为这是一项重大突破，但事实上，这个算法的效果并不出色！如 Margaret Wright 所展示，在最坏的情况下呈指数的单纯形法（simplex method）在许多案例中性能更好，也更快。
我的部分怀疑也与我在研究 H10 问题的经历有关。在 H10 这个问题上，人们显然对高级多项式没有任何直觉。
顺便说一句，虽然我不知道 Donald Knuth 的推理依据是什么，但他的看法跟我一样，即“P 不同于 NP”绝对不是一个开放与封闭的案例，所以我会说，概率是一半一半吧。
Q2：那您对 NP-Complete 问题怎么看？
我认为 NP-complete 问题肯定是难题。我不认为有人可以为任何 NP-Complete 问题找到一个漂亮、可爱又快速的算法。不过，这并不意味着研究人员找不到多项式时间算法，只是这也许不是一个非常可行的算法。关于启发式的争论背后，总是有一个观点，即“多项式时间”（polynomial-time）与“可行”（feasible）是一回事。
Q3：如何更好地定义“可行”？
目前还不清楚是否有一个非常精确的概念。定义的方式可能就像“有些算法比其他算法更难”，只有一个范围。
此外，什么是可行的，部分要取决于你有哪些可用的计算机设备。在我写的《通用计算机》（The Universal Computer）中，我想用数字 π 来解释关于收敛的想法。所以我用莱布尼茨的数列 π/ 4 = 1 - 1/3 + 1/5 - 1/7…写了一个程序，并计算出这个数列大约有 20,000 项。
但最近，又感觉通过将莱布尼茨级数中的 20,000 项相加来计算 π 的想法似乎是非常愚蠢的。不过，这只是一个业余爱好者可以轻松地使用家里的电脑和计算机编程知识的表现罢了。
Q4：在《通用计算机》的 2018 年版本中，您添加了一些关于机器学习与人工智能的新内容。机器学习最让您感到惊喜的是什么？
这些神经网络模型非常有用，而且它们的功能非常强大。多年来，我一直对神经网络抱有怀疑的态度。最初的想法是，神经网络是在模仿大脑。然后我想，“这只是另一种模式，没有什么特别的优点。”但事实是，对于某些问题，例如围棋比赛，神经网络的效果出奇地好。在这一点上，我的直觉是完全错误的。