十年数据标注(缺席的独角兽与走不出的围城)
2010年,国内人工智能热潮爆发,算法数据需求逐渐旺盛,带动起数据标注行业的繁荣。
现如今,10年已过,这是一个微妙的节点。
通常情况下,市场会将创办时间在十年内,估值10亿美元以上且还未上市的热门赛道企业称之为“独角兽”。但在国内数据标注行业,独角兽企业却罕见缺席,甚至没有分毫可能出现的征兆。
与之相对应,在大洋彼岸,同为数据标注企业的硅谷创业公司Scale AI,其在今年上半年完成了3.25亿美元的E轮融资,估值达到了73亿美元。
值得注意的是,这是这家成立仅5年的企业,在4个月内的第二次融资。上次,这家创业企业完成了1.55亿美元的D轮融资,估值35亿美元,远超独角兽企业的认定门槛。
那么,同为人工智能赛道上的重要玩家,国内市场与国外市场的差距究竟在哪里?
缺席的独角兽
“召唤”独角兽离不开两个条件:
外部广袤的发展土壤+内部过硬的产品服务能力。
当一个新兴行业率先出现独角兽企业后,以其为代表,深挖其“外表”与“内涵”,可一窥行业之究竟。
我们不妨先来关注一下外部环境。
根据德勤全球人工智能发展白皮书统计数据显示,预计到2025年世界人工智能市场规模将突破6万亿美元,平均年复合增长率达30%。
文章图片
而国内人工智能产业规模也已超过1000亿人民币,预计到2021年将增长至1800亿元,带动相关产业规模超10000亿人民币。
具体到数据行业,由于目前AI实现方式主要以有监督深度学习方式为主,对数据有强依赖性需求,所以数据标注的市场需求伴随着人工智能行业的快速发展而同样旺盛。
目前一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张图片训练,而定期优化算法也有上千张图片的需求,一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求。
具体到企业层面,自动驾驶企业Waymo每年在数据标注业务上投入过亿美元,国内企业数据标注业务需求也达百亿人民币规模,且保持每年快速增长。从市场需求角度来看,国内与国外均拥有广袤的可以孕育独角兽企业的肥沃土壤。
【十年数据标注(缺席的独角兽与走不出的围城)】人才方面,得益于国内长期对于基础教育的重视以及对科研的不断投入,高水平的科研人才被源源不断地输送至行业内。至于数据标注行业略带“劳动密集型”的特殊属性对于国内环境而言则更不是问题,毕竟拥有众多且廉价的劳动力一直以来就是我们身上特有的“标签”。
可以说,国内的市场环境并无明显的劣势可言,甚至在某些领域还稍显优势。
但,这依然没有召唤出独角兽。
走不出的围城
既然在外部找不到答案,不妨将目光聚焦于行业内部。
长久以来,国内对于数据标注行业的印象主要为“门槛低,技术要求不高”、“劳动密集型企业”、“行业不规范”等等。
如果评价一下这些看法,可以简单总结为“对,但也不对”。
对的一方面,国内数据标注行业长久以来确实处于粗放的状态中,行业门槛不高,随便拉起一批人,经过简单培训,即可接项目、做任务,“小作坊”团队构成了数据标注行业底层供应商的多数角色。在知乎上有一个关于“如何看待Scale AI这样的创业公司?”的问答中,很多评论中对于数据标注行业的认知与评价均为如此。
但我们需要深度思考一个问题:为何同为数据标注企业的Scale AI可以在5年内做到估值73亿美元?要知道,如果一家企业,没有技术壁垒且单纯依靠廉价劳动力,是完全撑不起73亿美元估值的。资本市场不会说谎,华尔街精英也不是慈善家,并不会对一家毫无竞争力的企业先后投资六轮,且估值给到70亿美元。
问题的本质在于Scale AI是一家科技企业,而非劳动密集型企业。
为何说Scale AI是一家科技类企业,这要从数据标注行业的本质说起。
基础数据标注行业的服务本质是将原始的、非结构化数据转化为可供机器学习、使用的结构化数据集。转化的过程需要人力来完成,但转写操作需要借助工具平台来完成。
在整体服务流程中,标注员可以随时被替换,但是工具平台却不可以,高质量的标注平台工具是一家数据标注企业竞争力的核心。
在人工智能行业发展的早期,AI算法模型对于数据的数量以及质量要求并不高,依靠简单工具即可满足大部分标注业务需求,这也是前几年国内数据标注企业如雨后春笋般大量出现的原因:小团队依靠开源工具即可完成大部分项目,规模稍大一些的企业在开源工具的基础上略作修改,对外标榜“纯原创工具”即可拿到融资。
这些方式在早期的确行得通,但从长远角度来看,这种方式只是解决了标注工具有无的问题,无论是在效率还是质量上均有所欠缺。尤其随着近些年AI商业化对于高质量、场景化数据集的需求越来越旺盛,这种传统的方式已越来越无法满足垂直市场的需求。
文章图片
复杂自动驾驶场景下的图像标注(来源:曼孚科技SEED数据服务平台)
技术壁垒不高,行业竞争力不足,一方面容易导致被市场淘汰,另一方面又无法取得资本市场的信任,一些数据标注企业在完成初期融资后很难获得下一轮融资,最终走向慢性死亡,这正是国内尚未出现独角兽企业的一个重要原因。
未来的护城河
依靠大量劳动力完成项目从不是一件毫无技术含量的工作,Scale AI同样在第三世界国家雇佣了大量标注员。
问题的关键在于如何管理并淡化“人”在项目中的绝对影响力。
目前,国内很多企业仍处于解决“数据标注工具有无”的阶段。在这个阶段下,数据标注员扮演着核心决定性角色,标注平台工具对于数据产出效率与质量的影响力不足,反而标注员的熟练度以及素质直接决定最终交付数据的质量。
这种场景下,决定数据交付质量的核心关键点是一个又一个标注员,他们的心情、状态都会成为影响数据质量的X因素。
管理人本身就是一件极具挑战性的工作,人员的流动也会带来“人走茶凉”、交付能力不稳定等情况的发生。
因此,如何用标准化、高效率的平台工具来淡化人力在标注过程的绝对影响力,研发出一套贯通数据处理、项目管理和数据安全管控等各环节于一体,并且能对图像、文本、语音、视频以及3D点云数据做到一站式处理的平台工具,就将成为企业筑高护城河、提升竞争力门槛的关键。
推荐阅读
- Docker应用:容器间通信与Mariadb数据库主从复制
- 三十年后的广场舞大爷
- 二十年后的家乡
- 使用协程爬取网页,计算网页数据大小
- Java|Java基础——数组
- Python数据分析(一)(Matplotlib使用)
- Jsr303做前端数据校验
- Spark|Spark 数据倾斜及其解决方案
- 数据库设计与优化
- 爬虫数据处理HTML转义字符