AI基础设施最常见的5个挑战
如果你所在的机构已经尽全力规划好了一个AI战略,但实施起来却总感觉有些不太对劲,比如你的AI应用程序即使运行正常,你却感到仅仅是”正常运行“还并不能完全满足你的需求,这是因为你对AI的期望值不知不觉中提高了。实际上,很多机构都可能遭遇了类似的AI实施经历。
根据2020年Gartner对商业和IT领导者的调查报告,75%的受访者表示,他们将在疫情后陆续启动或继续开展AI工作,但只有21%的公司已经在生产中使用了AI。换句话说,尽管原则上很支持AI,但很少有机构能够将AI付诸实践。
Gartner
问题是,为什么这么多公司实施AI进展缓慢?别人的哪些失误你可以规避呢?实际上,有好几种失误,有的涉及规划,有的涉及技术,还有的与企业文化有关。以下是企业在AI实施过程中遇到的五个常见挑战。
AI基础设施的5个关键挑战
- 01 AI项目进入生产所花时间过长
- 02 系统因数据量大而不堪重负
- 03 系统未针对AI进行优化
- 04 AI系统难以扩展到生产规模
- 05 影子 AI项目是令人头疼的事
挑战01:AI项目进入生产所花时间过长
当每个机构准备利用AI时,几乎都经过深思熟虑。AI项目也通常不会交给初级IT人员,而是交给机构里最优秀和最聪明的人。
然而,挑战在于,专业的AI工作负载难以大规模集成和优化。在现有的企业存储基础设施上部署AI工作流看似为一种合理的做法,但这也往往是第一个错误做法。随着越来越多的用户使用AI系统,问题也随之出现, 应用程序运行缓慢。也许你增加了存储容量,作业仍然运行缓慢,然后会出现断断续续的故障,网络、存储、应用等问题,不胜枚举。
因此,你用于规划的时间不断增加,而项目已经错过了最后期限。好在有行业专家可以帮助你将需求和期望对齐。如果你采用正确的技能应对挑战,就可以制定成功的AI战略。
挑战02 :系统因数据量大而不堪重负
AI需要输入大量的数据,包括视频、图像、语言处理等。这些数据将用于建立最初的深度学习模型,然后这些模型将应用到生产中。而且,AI也通过强化学习模型和MLOps技术不断演进。
面对数据量的激增,系统可能会变慢,应用程序可能得不到足够的数据,AI的投资回报率也会相应降低。然而,还有重要的一点需要指出,解决这个问题并不是简单地增加吞吐量,或提高计算速度,或更多的存储。
AI应用程序和工作流有特别的要求,需要一个专门的、经过优化的基础设施才能满足,才能实现商业价值最大化。
当AI系统无法提供足够的数据吞吐量时,很多机构有时会试图减少学习的数据量,或降低AI模型的精度和准确性,而这样做会让AI系统的洞察深度受到影响。这就像期待一个没有充分学习的大学生在考试中取得好成绩一样。
那么,你该如何构建一个基础设施来满足AI工作负载的需求,并有效地管理AI应用程序所需的数据呢?
答案是采用数据优先战略,从一开始就考虑系统的数据需求,换句话说,在项目的设计阶段就要考虑数据需求。同时还需要考虑数据隐私、数据权限和知识产权的问题。
只有在考虑了所有需求之后,您才能基于参考架构设计出针对AI优化的基础设施,所谓参考架构就是实现了最优的计算、存储和网络需求,并能从投资中获得最大商业价值。
挑战03:系统没有针对AI进行优化
尽管构建任何计算环境都面临独特的挑战,但AI工作负载尤其具有挑战性,因其对性能的要求极高。
构建快速数据访问和低延迟的小型系统比较容易,但是,配备大规模并行GPU的AI系统需要持续高带宽数据吞吐量,支持这种数据吞吐量则更困难。
然而,在生产规模级别,AI和深度学习架构会将需求提升到更高水平:需要处理大量的小文件,需要管理庞大的PB级数据集来进行机器学习、实时处理和归档。难怪传统的企业存储系统无法处理企业级AI所需的数据。
即使使用最新的固态存储盘和高性能网络,传统的企业存储的性能也要打折扣。AI应用程序急需数据,而企业存储的架构决定了其无法高效地为AI系统提供数据。
挑战04 :AI系统难以扩展到生产规模
如果实施AI还不够棘手,当你转入生产阶段,即使最成功的AI实施也可能变得苦乐参半。
突然间,瓶颈可能出现,而你却无法确定什么导致了瓶颈。结果整个系统开始变慢,应用程序无法运行,推理工作负载无法处理,时间进度开始跟不上。遗憾的是,只有当AI系统开始承载来自真实世界、生产级别的工作负载时,这些瓶颈才会显现。
大规模规划需要端到端的系统设计,以及简化的数据工作流。
AI环境越复杂,扩展出问题的可能性越大。把你的AI基础设施想象成可以盖到无限高的办公楼,如果地基未优化也不牢固,办公楼的高度必然受限。
为了应对扩展性挑战,使用AI参考架构来辅助你进行设计和容量规划。从第一天开始,扩展性就应成为AI环境设计中的重点。除了系统本身,规划与系统运营相关的事项 (如备份和恢复)也很重要。再次强调,当你的环境针对当前和未来的AI工作负载进行了优化,每个人都能从中获益,而规划者是英雄。
挑战05:令人头疼的影子AI项目
遗憾的是,上述任何一个挑战(实施、数据管理、优化平台和可扩展性)导致的不良后果都可能促使企业内部的其他团队去单独实施自己的AI战略。
这种“另起炉灶”会导致同一个企业内出现多个AI项目。而这个机构可能原本打算从一个AI项目开始,却突然变出了好几个AI项目。
“自己动手”的思维在其他业务领域可能值得称赞,但涉及AI项目时,这种思维却可能很花钱。整个企业要么重复购买了多余的AI工具,要么为实施和支持多个系统而投入额外的工作时间。在这种情况下,公司就失去了规模效益和标准化的好处。
正如 影子IT 对企业有害一样,影子 AI也是如此。
在现实中,大多数企业只需要一个针对AI优化的基础设施战略。防止多种方式并存的根本方法是建立可扩展的、集中式的AI基础设施或卓越中心。如果一个企业的第一笔AI投资获得了恰当设计和构建,其他团队就不会想要创建自己的AI项目,而可以利用最初的设施来满足每个人不断增长的需求和计划。
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: