微软用人工智能技术增强图像搜索

正如Google 最近结合最新语言模型所展示的那样,人工智能和机器学习有可能显着提高搜索引擎结果的准确性。微软也不甘示弱,宣布它为Bing的图像搜索引擎注入了许多人工智能技术,可以更好地搜索有特定上下文或属性的图片。

“ Bing的图像搜索通过多粒度匹配,对用户查询,图像和网页以及它们之间的关系的更好理解,正在朝着更智能,更精确的搜索引擎方向发展,” Bing图像处理团队在一个博客帖子里写道:“深度学习技术是非常令人兴奋且很有前途的工具,非常适合文本和图像搜索。”

这些工具之一是向量匹配,可以将查询和文档映射到语义空间,以帮助找到更多相关的结果。在Bing的技术堆栈中增加了BERT和Transformer,这些技术使用预训练和注意力机制来建模单词之间的关系,并以彼此关联的方式嵌入图像和页面,从而显著提升了照片和页面的概要描述。

上图:Bing的图像搜索引擎执行的属性匹配

图片来源:Bing

Transformer是一种新型的神经体系结构,由Google AI研究部门Google Brain的科学家在2017年合着的论文中提出。与所有深度神经网络一样,Transformer也包含排列在相互连接的层中的神经元(数学功能),这些层传输来自输入数据的信号,并逐渐调整每个连接的突触强度(权重)。这就是所有AI模型提取特征并学习进行预测的方式,但是Transformers的独特之处在于,每个输出元素都连接到每个输入元素。它们之间的权重可以有效地动态计算。

最近应用于Bing图像搜索的另一种方法-属性匹配-从查询和候选文档中提取一组对象属性,并将这些属性用于匹配。该团队使用多任务优化策略对检测器进行了培训,使检测器即使在文本信息不足的网页上也可以从图像内容和周边文本中识别初某些属性,尽管该技术目前仅适用于有限的场景和属性。

上图:矢量匹配。

图片来源:Bing

Bing团队还致力于通过高质量的信息丰富图像元数据,采用的正是上述的向量匹配和属性匹配方法。图像的最佳代表性查询(自然语言查询,用于对网页和图像内容进行汇总),是通过将网页中的文本输入到机器学习模型中生成的,该模型将网页上的长文本提取出短语。然后将文本信息与图像一起嵌入到单个语义向量中,然后将其与存储库中的其他查询进行比较,以识别紧密匹配。

Bing小组说,由于有了这些和其他改进,图像搜索得到了显着改善。对于诸如“ Chevy impala 96汽车座椅”之类的棘手查询问题,Bing以前的搜索结果主要显示汽车而不是汽车座椅,但现在返回“更靠谱”和更相关的结果。Bing团队补充说:“Bing正在脱离简单的查询词匹配,从而更深入地理解用户查询,正在从一个优秀的搜索引擎向真正的智能搜索引擎发展。”

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者