首个机器学习生态地图发布
TheSequence 是一个由超过14.4万名数据科学家、ML 工程师和 AI 爱好者组成的紧密社区。近日该社区组织所有会员投票选出了 整个ML 生命周期(从数据采集、处理、标记到模型训练、开发、监控)的全景图,为最终用户展示该市场的众多解决方案。
目前该全景图已经发布了第一版草案如下:
全景图调查还给出了以下结论:
1.ML全生命周期都是坑。研究表明,大约一半参与 ML 的人在数据处理和模型监控方面遇到困难,这两个数字分别为 48% 和 44%。 这些困难存在于整个ML的整个生命周期中,包括准备和生产阶段以及部署期间和部署后,从采集和标记数据阶段,到工程师微调 ML 管道并对 AI 产品进行维护的工作。
2.模型监控被冷落。特别是模型监控似乎是 ML 从业者中最不受欢迎的阶段。该问题似乎源于开发阶段,从糟糕的优化技术开始,并在部署后类似地继续存在。正如一位受访者所说,“令人惊讶的是,大多数解决方案根本没有针对在开发过程中监控模型进行优化。”这是许多使用 ML 工作的人往往对这个阶段保持警惕(以及厌倦)的原因之一,即当你的问题堆积并成倍增加时,通常是不可逆转的。 此外,这个阶段涉及大量的体力劳动——项目记录通常很混乱,因为它们由不同的人以不同的方式保存。正如一位受访者解释的那样,“做好模型监控比人们声称的要困难得多,尤其是筛选日志以快速找到智能见解。”这里的共同趋势如下:清理和标记数据的工作量越少,最初的管道越不透明,以后可能会出现的麻烦越多。
3.缺少一站式数据处理方案。数据处理理所当然地是整个价值链中最大的阶段,这就是为什么许多人认为它过于多样化和复杂而不能被视为一个阶段。 此外,机器学习工程师和数据科学家支持拥有一个包罗万象的解决方案的概念,该解决方案将涵盖与数据处理相关的每个逻辑步骤,目前这种情况很少见。 这种愿望与用户友好性和与不同服务和平台的互操作性也构成令人沮丧的障碍这一事实并行存在。 大多数发表意见的 ML 工程师都想要易于使用、易于配置且最终易于扩展的东西。
4.不同阶段之间的交互脱节是ML解决方案市场的主要瓶颈。不同阶段之间的交互也是 ML 解决方案市场的主要瓶颈。 这个不平凡的问题比许多人意识到的要大,因为它是垂直的和水平的。 一方面,支持和促进不同 ML 阶段的技术和软件工具通常彼此不一致——目前还没有一个通用的生态系统可以提供从一个阶段到下一个阶段的平稳水平过渡。 另一方面,现有的大多数解决方案也很复杂且技术性很强,这意味着具有不同专业水平或不同专业的专业人员之间几乎没有垂直合作的可能性。
5.没有全价值链ML解决方案。似乎没有一个解决方案能够涵盖整个机器学习价值链。 一些涵盖六个阶段中的五个(Vertex AI、Scale AI、Toloka AI、Abacus.AI、Appen),一些涵盖四个(H2O、Dataiku、Clear ML 等)和三个(Databricks、HuggingFace 等) . 这表明 ML 的当前状态是多么分散,就拥有一个平衡良好的基础设施和相互连接的部分,可以为 ML 专家提供灵活、一体化的工作环境。 尽管如此,还是有一些积极的变化。
总结:
今天的机器学习生态价值链存在严重的脱节,这导致许多机器学习从业者要么在坑中挣扎,要么根本没有达到他们的目标。 关键问题不是因为糟糕的代码甚至是嘈杂的数据,而是由于软件不兼容和从一开始就没有完善的链内战略规划。 涵盖所有六个阶段的解决方案是否可能,或者是否有意义? 相信市场很快就会给出答案,因为机器学习行业发展得非常快,有大量令人惊叹的初创公司在努力。
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: