炼丹笔记|深度学习炼丹失败率高达87%的TOP10原因



炼丹笔记|深度学习炼丹失败率高达87%的TOP10原因
文章图片
作者:十方 微信公众号:炼丹笔记 如今,我们到处(知乎,公众号,微博)都能看到关于人工智能的内容,不可否认人工智能有潜力解决很多问题,让我们感觉人工智能无所不能。然而根据Gartner的预测,直到2020年,80%的人工智能项目仍将是炼丹术,这些项目由炼丹师来管理。Transform 2019 of VentureBeat预测,87%的人工智能项目将永远无法投入生产。说到这,我们炼丹师们似乎有点慌,我们做的项目是那成功的13%吗?


为什么会这样?为什么有那么多项目失败?最重要的原因总结如下:
一、专业知识不足
今天看来,任何从事过数据分析或软件开发的人,只要完成了一些数据科学项目的样本,都会在网上学习了一个简短的课程后,把自己标榜为数据科学家。
事实上,对于大多数机器学习和人工智能项目,其中模型的部署,监控,最终效果评估,都需要有经验的数据科学家来处理。

二、数据科学与传统软件开发的脱节 数据科学和传统软件开发之间的脱节是另一个主要因素。传统的软件开发往往更具可预测性和可测量性。
然而,数据科学仍然是一部分研究和一部分工程。
【炼丹笔记|深度学习炼丹失败率高达87%的TOP10原因】数据科学研究通过多次迭代和实验向前推进。有时,整个项目将不得不从部署阶段回到最初计划阶段,因为所选择的度量并不能驱动用户行为。
传统的基于敏捷的项目交付可能不适用于数据科学项目。
三、数据量和质量 每个人都知道数据集越大,人工智能系统的预测就越好。除了数据量增加的直接影响外,随着数据量的增加,还出现了许多新的挑战。
在许多这样的情况下,你将不得不合并来自多个源的数据。一旦你开始这样做,你会意识到它们大多数情况可能是无关联的,这会造成很多错误。
比较差的数据会产生不可操作或不具洞察力的结果,同时也会导致误导性的结果。
四、数据标签 标签数据的不可用是另一个阻碍机器学习项目的挑战。
76%的人通过尝试自己标记和注释训练数据来应对这一挑战,63%的人甚至尝试建立自己的标记和注释自动化技术。
这意味着,这些数据科学家在标记过程中失去了很大比例的专业知识。这是有效执行人工智能项目的一个主要挑战。
这就是许多公司将标签工作外包给其他公司的原因。然而,如果需要足够的领域知识,那么将标签任务外包是一个挑战。如果公司需要保持数据集的质量和一致性,他们就必须投资于正式和标准化的注释人员培训。
另一个选择是开发自己的数据标记工具,如果要标记的数据复杂。然而,这通常需要比机器学习任务本身更多的工程开销。
五、异构数据孤立无援 机器学习项目中最重要是什么?是数据。在大多数组织中,这些数据将驻留在不同的地方,具有不同的安全约束条件和不同的格式—结构化、非结构化、视频文件、音频文件、文本和图像。在不同的地方以不同的格式保存这些数据本身就是一个挑战,而把这些驻留在不同位置的数据联合起来运用到一个项目上,又是难上加难。
六、缺乏合作 另一个主要挑战是缺乏不同团队之间的协作,如数据科学家、数据工程师、数据管理员、BI专家、DevOps和工程。这对于物联网到数据科学的工程方案中的团队尤其重要,因为他们在工作方式和完成项目所使用的技术上有很多不同。
工程团队将实施机器学习模型并将其投入生产,因此,他们之间必须有很强的协同能力。
七、技术上不可行的项目 由于机器学习项目的成本往往非常昂贵,大多数企业倾向于瞄准一个雄心勃勃的“登月计划”。这样的项目将永远无法完成,并将把数据科学团队推向极限。最终,商业领袖将对项目失去信心,停止投资。
八、技术团队和业务团队之间的协调问题 很多时候,ML项目在业务团队和数据科学团队之间在项目的期望、目标和成功标准上没有明确的一致性。这类项目将永远停留在研究阶段,因为他们永远不知道他们是否有任何进展,因为他们从来都不清楚目标是什么。在这里,数据科学团队将主要关注准确性,而业务团队将更关注财务效益或业务洞察力等指标。最后,业务团队最终不接受数据科学团队的结果。
九、缺乏数据策略
根据麻省理工学院《斯隆管理评论》(mitsloan Management Review),只有50%的员工超过10万人的大型企业最有可能采用数据策略。在开始机器学习项目之前制定一个可靠的数据策略是至关重要的。
作为数据策略的一部分,您需要清楚地了解以下内容:

  • 你在公司的总共有哪些数据
  • 项目真正需要多少数据?
  • 个人将如何访问这些数据,以及这些个人访问这些数据的容易程度?
  • 关于如何将来自不同来源的所有数据汇集在一起的具体策略
  • 如何清理和转换这些数据。
    大多数公司一开始没有计划,或者没有开始认为他们没有数据。
十、缺乏领导支持 我们看不到领导层对确保成功所需条件的正确支持。有时,企业领导者对数据科学家开发的模型没有信心。这可能是由于商业领袖对人工智能缺乏了解,以及数据科学家无法向领导层传达模型的商业利益。
最终,领导者需要了解机器学习是如何工作的,以及人工智能对组织的真正意义。


http://weixin.qq.com/r/XSjP1zrEzGezrX60931P (二维码自动识别)


    推荐阅读