并非万能的锤子!论深度学习在信息安全领域的局限性
growtika-developer-marketing-agency-0Hjb-YSd3xQ-unsplash
深度学习是人工智能的热门领域,发展非常迅速,有望在未来几年进入市场成熟阶段。但非不幸的是,迫不及待的市场炒作把深度学习变成了人工智能的代名词,言必称深度学习,无深度学习不人工智能,这种以偏概全的误导性炒作,不但夸大了深度学习的应用领域和功效,也对人工智能整体的健康发展非常不利。数据分析公司Interset首席技术官Stephan Jou近日以人工智能在信息安全领域的应用为例,探讨了深度学习的定位和局限性,IT经理网编译整理如下:
在网络安全领域,人们使用各种技术理论,包括统计、概率论以及各种机器学习算法(深度学习只是其中之一),来分析用例和数据,选择最好的数学方法或者算法来完成任务。安全分析的数据来自各种渠道,例如应用日志、源代码等等,根据安全专家对数据集和用例的理解来对症下药,选择最合适的算法。
这个过程更依赖的是安全人员的一种工匠精神,因为他们面对的是相对较小的数据集,而各种行为的侦测非常微妙,例如从源代码审计日志中侦测内部威胁。相比之下,深度学习只是人工智能大框架中的一个专项技术而已,而且并不适用于上述场景。
简单来说,深度学习是一组机器学习算法,其学习过程离不开大量多层互联处理流程和海量数据样本。在很多行业深度学习处理之所以可行,是因为有大量的数据和计算力可用,例如云计算和GPU。在海量数据和计算力的驱动下,深度学习的研发成果突飞猛进。以恶意软件侦测为例,若干安全创业公司尝试利用深度学习来分析恶意软件样本大数据,取得了令人瞩目的成效。另外一方面,研究人员也在尝试如何让深度学习的训练基于相对较小的数据集,例如医学影像深度学习系统。(参考阅读:大数据的小时代)
虽然在恶意软件侦测方面取得斐然的成绩,但是但是在安全领域,深度学习的局限性也很明显,例如内部人员威胁。安全专家或者企业通常无法获取足够多的相关攻击信息,虽然也有一些基于实例的描述和模拟数据,但是故事描述无法用来训练深度学习网络,而真实内部人员攻击事件的信息又太过稀缺。至少在今天,深度学习对于内部人员威胁是牛刀杀鸡或者说无能为力的。
未来,安全网络的深度学习处理系统将能够自动调整来适应不断增长的数据量,不断优化学习流程,深度学习网络将能够自动判断那些数据更加容易预测,从而大幅减少对数据科学家引导的依赖。这种基于深度学习的自动化学习能力,将持续大幅提升分析结果的准确性,减少误报。这些远景,在今天还只是一种炒作。
在当下的现实中,与OpenStack等开源云计算技术类似,深度学习系统的搭建依然过于复杂,成本也居高不下,而且不经过大量实验,很难实现确定所谓的超参数(Hyperparameter)。训练一个深度学习模型需要的计算力和采购成本也远高于其他机器学习模型。例如逻辑回归模型简单到可以在单机上处理小规模数据集,目前也依然是非常有效的分类任务处理方法,而深度学习系统的成本则远高于这些机器学习算法。
总之,深度学习仅仅是诸多机器学习方法中的一种,对于特定类型的问题来说,应用潜力巨大,但并非百病包治的万灵药。深度学习技术在一个领域的突破,也并不意味着对其他传统人工智能或机器学习方法的实用性和价值的贬损。
本文作者Stephan Jou是数据分析公司Interset的CTO
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: