比机器写作难度更大:微软开发出会总结文本的人工智能系统
用寥寥数语总结和概括新闻内容,这对于人类来说也有不小的难度,对于人工智能技术来说更是艰巨的挑战,因为提炼文章摘要需要机器对文本整体的语意理解,这超出了当前大多数自然语言处理模型的能力。
但是,微软的研究人员最近发布的成果表明,机器撰写文本摘要,甚至审核软件代码的时代也许即将到来。
在Arxiv.org上发表的一篇论文(“ 结构化神经概述 ”)中,英国剑桥微软研究院的科学家们描述了一个人工智能框架,可以推断“弱结构”文本中的关系,在处理文本摘要这项任务上优于传统的NLP模型。
当接受CNN和每日邮报的文章训练时(以及总结每篇文章的句子),微软的模型能够生成类似如下摘要:
n’golo kante吸引了众多顶级联赛俱乐部的兴趣。在签下这位24岁的球员过程中,马赛始终与卡恩保持着密切接触。这位24岁的小伙子在身材方面与lassana diarra和claude madelele有相似之处。
该模型让人联想到Primer这样的系统,也能使用AI来解析和整理大量文档,但微软的人工智能更通用化。
微软研究人员写道:“文本总结,也就是将大而复杂的输入压缩成保留输入核心语义的较小表示的任务,是自然语言处理系统的经典任务。进行文本自动摘要需要机器学习组件识别文本信息之间的重要实体和关系,同时忽略冗余和常见概念……然而,虽然标准模型理论上有能力处理任意弱关系,但实际上它们往往无法正确处理长文本,很容易被简单的噪音干扰。“
微软的两步解决方案包括一个扩展序列编码器——处理输入序列的AI模型,能根据目标序列的先前字符预测目标序列的下一个字符 。以及一个能直接学习(带注释的)自然语言图谱的神经网络。
混合系统利用序列编码器(一个扩展,可以利用输入数据中元素之间的已知关系)来为图形网络提供“丰富输入”:双向长短期网络(LSTM)和序列GNN扩展,以及具有指针网络扩展的LSTM解码器。(双向LSTM是一种能够学习长期依赖性的递归神经网络;它们使神经网络能将其记忆和输入结合起来,以提高其预测准确性。)
图片:微软
微软团队为序列GNN模型 设置了三大任务:1.方法命名,也就是在给定源代码的情况下推断代码函数(或方法)的名称; 2.方法文档,预测方法功能的描述; 3.NL总结,根据给定的文本输入创建一个新的自然语言摘要。
研究人员为第一个任务选择了两个数据集:一个是小型Java数据集,它被拆分用于培训,验证和测试;第二个数据集是从GitHub下载的23个C#开源项目代码。对于第二个任务方法文档,研究人员使用了23个开源C#项目的数据集,而对于第三个任务(NL摘要),他们从CNN和每日邮报中扒了一批新闻文章(以及每篇文章的摘要)。
为了生成AI模型可以提取信息的图谱,团队首先将数据分解为标识符标记(和子标记),然后通过连接标记构建图谱。代码被标记为变量,方法,类和其他类型,而文章语料库中的文本则通过斯坦福的CoreNLP开源标记化工具处理。
那么AI系统的表现如何呢?
Sequence GNN在Java和C#数据集的方法命名任务中取得了最好的性能表现,其中F-scores(一种性能指标体系)得分分别为51.4和63.4。它在方法文档(Method doc)中表现略差。在NL总结中,它没有达到此前的模型水平;。研究人员认为原因是“过于简单的解码器”和“培训目标”,这些可以在未来的工作中得到改进。
“我们对初步进展感到兴奋,并期待在格式化语言和自然语言的各种任务中更深入地整合混合序列图谱建模技术,”他们写道。“我们认为这种方法广泛适用的主要观点在于,显式关系建模引起的归纳偏差是提高现有深度学习系统实际性能的一种简单方法。”
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: