开源的中国叙事
编者按:
AI 源创专场的策划,酝酿一年之久,形成半年之前。2020 年 1 月 8 日,采访洪强宁的那个下午,洪强宁说了一句让人印象深刻的话,“全世界的程序员是一个共同体”。使这个共同体成为可能的,就是开源。具体报道可参见《“教授”洪强宁和他穿越的技术江湖》,阅读访问:https://mp.weixin.qq.com/s/UCQaNMQ3rfCwfsOApCupyA。
在此之前,崔宝秋也两次谈及多年追随开源的心路历程,作为雷军同寝室的同学,崔宝秋毕业之后先去了中科院计算所读博士,1995 年去纽约州立大学石溪分校继续深造。他开始接触自由软件和开源软件,博士论文涉及的代码也全部开源。无论后来在 IBM、雅虎、 Linkedin,直到在小米,崔宝秋都是坚定的开源信徒,从未有过动摇。开源也是崔宝秋和 Daniel Povey 惺惺相惜的重要原因。具体报道可参见《小米崔宝秋:开源是软件的未来,中国 AI 的未来》。
现任 OpenI 启智平台秘书长和鹏城实验室 AI 开源平台办公室主任的刘明,20 年前就和开源结下了不解之缘。作为一个开源老兵,他曾任全球首个中文 Linux 版本、香港上市企业冲浪 Linux 总经理,还曾担任过永中 Office 总经理,在基础软件领域声名显赫。从民间到庙堂,从西方到东方,刘明的故事正是 20 年中国开源故事的缩影。喜欢八卦的同学,可以阅读左林右狸的知识星球《开源老兵的中国往事》,阅读访问:https://t.zsxq.com/vz3zJeM。
(图为 AI 源创专场现场,难得的线下会议,大家都聚精会神)
开源:西方叙事和东方面孔
开源的故事,曾经都是西方叙事。
1997 年 5 月,著名的开源软件运动旗手 Eric Raymond 在 Linux Kongress 上发表了他的新书《大教堂和集市》,受到了空前的欢迎。这本书在 1998 年促成了网景 Mozilla 成为开放源代码软件,标志着主流商业界第一次全面认同了他的理论。
1998 年 2 月 3 日,硅谷的一次会议上,“开放源代码(Open Source)”由第一个参与者在会上提出,后来发展成为开源运动。Eric Raymond 成了领导这场运动的理论家,并成为 Open Source Initiative 的主要创办人之一。
然而有一天,崔宝秋在上网的时候偶然看到 Eric 的一篇文章,文中写到,中国现在在用 Linux,这怎么行,我们不欢迎中国政府使用 Linux。崔宝秋当时看了气不过,就回了 Eric 一封邮件。自此崔宝秋成为对开源软件始终不渝的拥护者,也为后来在小米推动开源埋下了伏笔。
20 年过去了。中国的互联网企业已经从跟随者成为引领者,商业模式创新之后,埋下的伏笔是技术创新时代的开始。无论是百度、腾讯、华为这样的大厂,或者是旷视这样的 AI 中生代,开源已经成为技术创新的丝绸之路,绕不开的生产关系和组织方式。
开源既古老又年轻,如今,开源的东方面孔开始粉墨登场。
新基建:从经世济民到改造社会
开源,既是企业技术创新和知识传播的新工具,也是国家创新的新渠道。新基建正当其时,带来了源源不断的国家需求,学术界和产业界需要寻找一个技术沟通的桥梁和平台,开源又成了解决纷争的法宝。
作为中国国内最具影响力的前沿科技活动,CCF-GAIR 2020 峰会由中国计算机学会(CCF)主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。
CCF-GAIR 创办四年以来,从 AI 前沿、到 AI 学术界工业界融合,到 AI+,再到 AI 新基建,正代表着 AI 人从走出校门、经世济民、提升自己、改造社会的四年。新的创业周期已来,AI 不仅仅是新技术,更成为了新基建的一部分。
其中巨大的红利,十年难遇。其中的险阻和挑战,正是考验技术人解题答题的水准。
为此,我们邀请了各方代表,在 2020 年 8 月 8 日,AI 研习社和 OpenI 启智平台联手,举办了首届CCF-GAIR AI 源创专场。
来自小米、百度、旷视、腾讯、华为、Zilliz 等 AI 产业界的中国开源面孔的代表,悉数来齐。一时间,大咖云集,为观众们呈现出 AI 背后的开源技术创新与变革,带来了 AI 技术源创先行者的方法论与深入思考。
发表演讲的嘉宾有:
小米集团副总裁、集团技术委员会主席崔宝秋,《开源新时代》
Kaldi 之父、小米集团语音首席科学家 Daniel Povey,《Deep Learning with Collections of Sequences ,序列集上的深度学习》
百度深度学习技术平台部高级总监马艳军,《深度学习开源平台助力产业智能化:百度飞桨的实践》
旷视研究院高级技术总监田忠博,《天元深度学习框架的开源演进》
腾讯数据平台总监、专家工程师陶阳宇,《腾讯 Angel 全栈 AI 平台技术与应用》
华为计算开源生态部副总监黄之鹏,《MindSpore 全场景 AI 计算框架介绍》
Zilliz 合伙人兼技术布道师顾钧,《开源 AI 新成员, Milvus 向量搜索引擎》
崔宝秋:开源新时代
小米集团副总裁、集团技术委员会主席崔宝秋首先带来了以《开源新时代》为题的大会报告。
崔宝秋先是从宏观的角度,概括了从“自由软件运动”到“开源软件”的历史,回顾了包括 GNU 提出、FSF 建立、Linux 出现在内的诸多开源发展事件,指出云计算和大数据时代都离不开开源软件的发展。
在对西方开源进程概括之后,崔宝秋开始着重讲述中国开源力量的崛起。在这段演讲中,崔宝秋还说起自己早期在国外接触开源运动的经历,以及为中国开源向 Eric Raymond 发声的经历:
“1999 年,当时中国的政府、高校要接受 Linux,Eric 曾经还说不欢迎。Eric 认为,当时中国有些 Linux 的版本不是真正的开源,也不遵守开源的惯例,中国没有开源的土壤。但是今天看来,中国的开源正在全方位的走向世界,不仅是 AI,还有云存储、云计算、大数据等多个方向都有开源项目。”
崔宝秋罗列了包括小米 Pegasus 和 MACE、百度 PaddlePaddle、旷视 MegEngine、阿里OceanBase 在内的多个开源项目,对中国开源的未来表达了巨大信心。
在此之后,崔宝秋细谈了小米的开源政策——“不仅要站在巨人的肩膀上,还要为巨人指方向”,并且以 HBase 举例,为中国互联网企业拥抱开源提出了 5 点可行性原则。
最后,他提出开源已经进入新时代,中国开源必须走上开放、共享、平等、全球化的道路。
Daniel Povey:序列集上的深度学习
(Kaldi 之父、小米集团语音首席科学家, Daniel Povey)
Kaldi 之父、小米集团语音首席科学家在 Daniel Povey 在题为《Deep Learning with Collections of Sequences ,序列集上的深度学习》的演讲中,主要提及到了目前正在进行的项目 K2,即一个用加权有限状态自动机进行深度学习、主要用于自动语音识别的框架。
K2 项目是 Daniel Povey 在Kaldi 之后,推出的一个全新的框架。也正是在他来到中国的这段时间,所思所想的结晶。在 AI源创评论 对他的专访中,Daniel 表示,K2 项目既适合学术界,又适合工业界。
马艳军:百度飞桨的实践
(百度深度学习技术平台部高级总监,马艳军)
百度深度学习技术平台部高级总监马艳军以 PaddlePaddle 的开源实践为切入点,主要谈了开源深度学习平台在发展中的核心问题,及其在产业智能化方面可发挥的重要作用。
自2016 年开源以来,PaddlePaddle 核心框架及周边的模型、工具,目前已有 200 万行代码。马艳军强调,开源深度学习框架与一般开源项目有着明显的差异,能否构建、完善框架上下游生态,决定着前者的延续与兴盛。
产业赋能尤其是对传统产业的赋能是 PaddlePaddle 的实践重点。马艳军从无人巡检的实际案例出发,讨论了深度学习平台在具体的产业落地场景中所能发挥的作用,算法的精度、丰富性是其中的要点,但如何让算法与实际场景结合,实现真正能为传统产业所用的流畅的 AI 能力,是其中的真正难题。
同样以目标检测为例,真实场景中涉及了丰富的组件,同时需要将压缩能力和部署能力打通,这之中面对的繁琐、复杂的工程化工作也是开源深度学习平台在助力产业智能化方面所面对的重要挑战。
田忠博:天元深度学习框架的开源演进
今年 3 月,旷视开源了深度学习框架天元,虽然对外发布时间不久,但在旷视内部,开源前的天元已经经过旷视工程师 6 年的开发、迭代与验证。
田忠博从对旷视生产力平台 Brain++ 的发展回顾出发,引出天元的进展:从 3 月底发布 Alpha 版本,到 6月底,天元又发布了 Beta 版,90 天的时间里,339 个 committers 为天元贡献了代码,使其代码量从 35 万行增加到 48 万行。
演讲中,田忠博着重介绍了天元深度学习框架的技术特点:训练推理一体化,动静合一,灵活高效,简单易用等。
生态建设也是天元未来能够逐步强壮的关键。对开发者友好,不断方便开发者是前提,同时,田忠博也表示,在天元的生态伙伴中,已经有小米移动端深度学习框架 MACE、OPEN AI LAB 的边缘 AI 推理框架 Tengine 这些受开发者青睐的存在。而到 9 月,天元也将正式发布 1.0 版本。
陶阳宇:腾讯 Angel 全栈 AI 平台技术与应用
接下来出场的嘉宾是陶阳宇,他是腾讯数据平台总监,目前负责腾讯 Angel 全栈 AI 平台技术与应用。
(腾讯数据平台总监、专家工程师,陶阳宇)
自 2017 年开源以来,Angel 一直受到许多开发者的关注与欢迎,并在开发者们的积极贡献中不断迭代。Angel 不仅是腾讯首个AI 开源项目,它也是中国首个从 LF AI基金会毕业的开源项目,在与我们日常生活密不可分的微信、QQ 音乐、腾讯游戏中都有非常深入的应用。
陶宇阳在演讲中用四个词对 Angel 进行了准确概括,他在演讲中重点进行了阐释:
1、高性能,Angel 内置高性能的参数服务器,可以支持万亿级的模型,尤其是针对广告推荐的场景,深度模型做了大量的优化,我们的性能比 TensorFlow 快5倍。
2、全站,Angel 专注底层框架,欢迎开发者基于这个框架开发更多的应用算法,目前提供了50个开箱即用的算法,涵盖传统机器学习、深度学习、图算法、联邦算法。
3、开源,一开始我们在研发框架的时候奔着开源的目的去的,最近刚刚从 Linux 基金会 LF AI 项目组顺利毕业,在社区获得了很多的欢迎,有一些新标。
4、企业级,腾讯的广告、金融、社交在使用,在公司外部也得到很多企业和公司的试用。
陶宇阳在演讲中,Angel 是一个比较年轻的开源项目,目前他们团队正专注框架、算法方面的研究,涵盖几种学习场景,包括平台建设、全流程的特征工程、模型训练、预测服务等。同时他也表示,目前 Angel 还在耕耘阶段,想要更多的运用场景打造技术框架,希望得到更多的开发者关注我们。
除此之外,陶宇阳还细致说明了腾讯对开源设计积极支持的态度,目前腾讯已经在社区中开源开放了100多个项目,同时也是包括 Linux 基金会、Apache、NETWORKING 在内的很多基金会的会员。
黄之鹏:MindSpore 全场景 AI 计算框架介绍
华为计算开源生态部副总监黄之鹏在题为《MindSpore 全场景 AI 计算框架介绍》的演讲中介绍了 MindSpore 的功能、特性以及在华为的业务落地情况。
黄之鹏在演讲中介绍了 MindSpore 的功能、特性以及在华为的业务落地情况。MindSpore
是提供面向端、边、云全场景的统一API,对开发者提供一些非常友好的特性.。目前 MindSpore在华为的业务上已经有了落地,内部有很多的实验室已经大规模的应用了 MindSpore 的框架。华为手机搭载的 HMS 4.0开始已经搭载 MindSpore 的端侧推理能力,主要支撑的是 HMS 的 HMS ML-kit。
对于 MindSpore,华为提出了全栈式的解决方案,包括了公有云提供的框架,芯片 CANN 使能和自研的 Ascend。MindSpore 会提供一些工具,比如图像模式、直方图、数据溯源等等,尽可能的直观给工程师呈现AI实验的过程和细节。
黄之鹏表示 MindSpore 和国内其他的已有的社区不太一样,采用了比较开放的架构,数据治理委员会是由14名来自中美欧的专家组成。采用社区治理架构正是因为华为希望 MindSpore 能成为一个面向全球的开源社区,而不仅局限在一个区域内。之后 MindSpore 还会开放基于本地语言的社区。
顾钧:开源 AI 新成员, Milvus 向量搜索引擎
Zilliz 合伙人兼技术布道师顾钧在以《开源 AI 新成员, Milvus 向量搜索引擎》为题的演讲中着重介绍了 Milvus 开源项目的工作状况。
顾钧着重介绍了Milvus开源项目的工作状况。Milvus的目的是从非结构化数据中挖掘价值,顾钧提供了一些思路:首先会经过模型推理,把模型做出高效的、实时的 Service,通过特征学习的方式,把非结构化数据转化成特征向量,这些可以在数据这层为这些所有的特征向量做集中的数据服务。
Milvus 开源项目的想法出现在2018年10月份,即为不应使用结构化的数据库解决向量的问题,而应该为向量构建专门的数据服务。在第一个版本发布四个月后,去年八月,该案例放在了GitHub 并于次年三年月加入LF基金进行孵化。
相对来说 Milvus 所需的硬件成本比较低。以 WPS 办公软件的智能助手为例,当用户发起写作需求的时候,智能助手会根据模型进行进一步的加工,通过向量的技术,从人民网、新华社等数据中找到合适的自然语言的文本,最终将文章的初稿组合起来以后交还给用户。
顾钧还提到了企查查与小米浏览器的例子,他认为,AI 的转型始之于算法,继之于服务。AI 的算力不单单是硬件的发展,同时也是软件算法的发展,软件算法的发展,从算法的迭代上得到的好处可能比使用新型硬件带来的更多。
(Zilliz 合伙人兼技术布道师,顾钧)
圆桌论坛:新基建下的 AI 和开源
AI源创专场最后压轴的环节,来自新一代人工智能产业技术创新战略联盟 OpenI 启智平台的刘明秘书长主持了一场精彩纷呈的圆桌论坛,引发对新基建、 AI 和开源主题的激烈碰撞和思考。
(OpenI 启智平台秘书长,刘明)
圆桌论坛中,微众银行人工智能部副总经理陈天健、涛思数据创始人兼 CEO 陶建辉、一流科技创始人袁进辉也加入并进行了精彩分享。
(从左到右分别为:刘明、陈天健、崔宝秋、田忠博、陶建辉、袁进辉、黄之鹏)
刘明先是引出新基建的七大内容和每位嘉宾的关注重点和思考;然后就当下讨论最火热的 GPT-3,如何看待在这个转折点上,算力、算法、数据的机会;最后又回到了开源的话题。
圆桌的参与者,既有崔宝秋这样的开源信徒,也有陶建辉这样的代码老兵,更有百度腾讯华为这样的大厂,和旷视这样的AI中生代。各方都在做开源,但对于开源的认知不尽相同,模式也因此百花齐放。
刘明最后评价说,今天的论坛本身就是巨大的进步,五年前,谈到开源基本都是西方的面孔。更多关于圆桌的激烈讨论,可关注 AI源创评论 接下来的报道。
来源:张路 AI源创评论
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: