谷歌开源移动设备手势追踪AI

实时的手形和动作跟踪器是手语识别和手势控制系统的关键部分,对于增强现实体验来说重要性也是不言而喻。但是手势识别经常因遮挡和缺乏对比模式而失效,无法可靠地执行。

这些挑战促使谷歌的科学家们研究出了一种新的,基于机器学习的计算机视觉手势识别方法。在实验中,该方法能从手掌的单帧图像中推断出手掌(或多只手掌)的21个3D点位。

谷歌于6月在2019年计算机视觉和模式识别大会上预发布了这项新技术,最近又在MediaPipe中实施了这项技术。MediaPipe是一个跨平台框架,用于构建多模式应用机器学习流程,以处理不同模态(如视频和音频)的感知数据。目前该项目的源代码和端到端使用场景都可以在GitHub上获得。

研究工程师Valentin Bazarevsky和Fan Zhang在博客文章中写道:“感知手的形状和运动的能力对于改善各种技术领域和平台用户体验来说都非常重要。” “我们希望向更广泛的研究和开发社区提供这种手感知功能将推动创造性用例的出现,激发新的应用和新的研究途径。”

谷歌的技术包括三个串联工作的AI模型:一个手掌探测器–BlazePalm–分析一个框架并返回一个手动边框; 一个手标志模型,它查看由手掌探测器定义的裁剪图像区域并返回3D手点; 以及手势识别器,能将先前计算的3D点配置分类为一组手势。这个模型能够识别来自多种文化(例如美国,欧洲和中国)的计数手势和各种手势,包括闭拳,“OK”,“摇滚”和“蜘蛛侠”。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸