苹果开发根据用户意图自动标记数据的AI框架
苹果公司的Siri个人助理通过自然语言命令来完成任务。但是,它们的基础组件通常依赖于监督的机器学习算法,这些算法需要大量的手工注释训练数据。为了减少收集数据的时间和精力,Apple的研究人员开发了一个AI框架(获取论文地址请关注IT经理网微信号ctociocom,后台回复:人工智能数据标记),可以分析用户参与(与系统互动)时的意图信号自动为数据创建增强标签。苹果研发报告指出,对于诸如多任务学习和外部知识库验证之类的任务,带注释的数据将大大提高生产环境深度学习系统的准确性。
“我们相信这是首次使用用户参与信号来帮助大规模生成序列标记任务的训练数据,并且可以在实际中应用,以在几乎没有人工标记数据的情况下加快新功能的部署,”研究人员在论文中写道。“此外…用户参与信号可以帮助系统从自身的错误中学习,同时也能帮助我们明确数字助理需要改进的地方。”
研究人员使用了一系列启发式方法来识别表明积极参与或消极参与的行为。其中一些功能包括轻按内容以使其进一步参与(肯定响应),长时间听歌(另一个肯定响应)或打断智能助手提供的内容并手动选择其他内容(否定响应)。这些信号以“保留隐私的方式”被有选择地收集,以自动产生地面真相注释,随后将它们与人类注释者提供的粗粒度标签组合在一起。
为了将粗粒度标签和推断的细粒度标签合并到AI模型中,论文的合著者设计了一个多任务学习框架,该框架将粗粒度和细粒度实体标签视为两个任务。此外,他们并入了一个由实体及其关系组成的外部知识库验证器。“something”可以是音乐标题,也可以是“随便来一首”,而“甲壳虫”是音乐艺术家,当查询“Play something by the Beatles”进行查询,验证器将查找顶部标签替代项并将其发送到一个组件,该组件将对预测进行排名,并返回最佳选择。
研究人员进行了两个单独的测试集,以评估由多任务模型执行的任务,他们通过从生产系统中随机抽样并使用基本事实标签进行手动注释来对其进行编译。他们说,在21个模型运行中,与所有人类注释数据量的基线相比,“一致地”添加了260,000个训练示例“一致地”降低了预测任务的粗粒度实体错误率。此外,他们报告说,当人工注释的数据量相对较小时(5,000个示例),添加弱监督的细粒度数据会产生更大的影响。最后,他们报告说,在任何通过知识库验证器的顶级模型假设示例中,细粒度实体错误率下降了约50%。
在另一个实验中,该团队试图确定用户意图的更精细表达是否会增加系统选择的准确性。他们采样了大约5,000个“播放音乐”命令,这些命令包含对多个乐队,艺术家和歌曲的引用,并通过包含其框架的系统发送给他们,此后,他们要求注释者将系统返回的响应分级为“满意”或“不满意”。研究人员报告说,增强型系统产生的结果使相对任务错误率降低了24.64%。
未来,苹果研究人员将进一步探索如何利用个人用户的参与行为来提高系统精度,改善个性化。
共同作者写道:“我们观察到,我们的模型改善了面向用户的结果,尤其是对于包含困难或异常语言模式的请求而言。” “例如,增强型系统可以正确处理诸如’您可以播放Miley Cyrus新专辑中的Malibu’和’通过我的音乐Kendrick Lamar播放Humble’之类的查询。此外,增强的模型还可以识别在真正的语言歧义情况下用户更可能引用的实体。例如,在“由Metallica播放一个”中,“一个”可以是非实体令牌(意味着播放Metallica的任何歌曲),也可以专门指代“ Metallica”称为“ One”的歌曲。由于大多数用户只要说出“ Metallica播放一首”,便会听到“ Metallica”播放的“ One”一首歌曲,因此我们在参与度注释数据上训练的模型将学会预测“ one”为[音乐名称]
这项工作紧随苹果公司Overton论文之后,Overton是一种AI开发工具,其模型已经处理了“数十亿”个查询。另外,苹果公司最近还研究了用户是否喜欢与“更有趣”的AI助手进行对话。
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: