数据科学已死?

Shutterstock 114524698

在“数据科学家?2014年最性感职业是信息安全专家”一文中,我们了解到随着斯诺登事件持续发酵,以及重大网络攻击和数据泄漏事故的频发,长期隐居后台的信息安全专家们成了IT职场的摇滚新星。但是我们没来得及讨论的另外一个相关话题是,数据科学家为什么突然就不性感了?

在斯诺登事件之前,数据科学家毫无疑问是最受媒体追捧的最神秘最性感IT职业,这一切与铺天盖地的大数据炒作不无关系,同时也因为数据科学家的技术门槛过高,IBM Watson执行架构师Swami Chandrasekaran曾近绘制过一张“触目惊心”的数据科学技能地图(下图),图中列出的数据科学技能涵盖基础数学、统计、编程、机器学习、自然语言处理、数据可视化、数据抽取、转换等多个领域,事实上很少有人能精通其中多个领域。

Road To DataScientist1

总之,数据科学家叫好不叫座,与现实脱节的原因主要有两个:一是目前人才市场上真正的数据科学家凤毛麟角,一将难求,大多数企业组建的数据团队里都没有真正的数据科学家(成功大数据团队的三驾马车)。二是数据分析作为一门科学本身遭到质疑。

近日Slashdot发表署名文章“数据科学已死”,指出数据科学压根不能算作一门科学,这个观点可能有些激进,但具有相当的代表性。以下是原文重要观点的归纳:

科学是通过可控(编者按:可重现)的实验产生知识,而数据查询并不是一个实验。实验需要可控的条件,而数据科学家分析的都是别人收集的数据,存在部分甚至全部的样本偏差。

当然,如果以这个标准来看天文学和社会科学也不能算是科学,但是我们说数据科学不是科学并非成心抬杠。

当你在企业中被尊称为数据科学家,那似乎意味着你的工作和产品经理、市场经理这些工作有很大的不同,但事实上呢,你所做的A/B测试,你的所谓“实验”也无非就是一些工作或者说任务而已。

我很同情搞数据分析的人,因为数据库管理员这个名号已经不再性感了,而“业务分析师”听上去很复古,在简历上标明“数据仓库挖掘”似乎也不能确保一份好工作,“系统分析师”也和酷不沾边。目前来看“数据科学家”是个不错的概念,你如果在LinkedIn个人主页上给自己贴上数据科学家的标签,立马机会有一堆猎头在你身边蠢蠢欲动。在Strata大会上,数据科学家是招聘栏最火的职位。(2014年八大热门大数据职业

但是,我们必须清醒地认识到,数据科学非但不是一门科学,甚至也不是一个靠谱的职业,说严重点就是一个陷阱。

看看数据科学家的招聘职位说明吧:“开发独特的技术平台专门用于…..运营和实时优化,创建假设模型和架构实验,开发识别并优化….的数学模型。”

但事实上呢,企业今天正面临真正的数据爆炸,要想从爆炸中生存下来企业必须具备处理和分析海量且持续增长的数据的能力。这这其中最关键的一种能力就是提出正确的问题,但不幸的是,在企业中能够提出正确问题的人选,会是CEO、CMO、创始人,而不是什么数据科学家。

所谓大数据,基本的一个特点就是对非结构化数据的分析,对于数据科学家来说,从海量非结构化数据中搜寻有用数据结论就好比搜索一条大街的垃圾箱找一台还能工作的平板电视机。很多企业花费数百万美元进行这种不靠谱的大数据分析,很多时候商业价值的回报遥遥无期。

对处理海量非结构化数据而言,真正的解决之道是自动化和下一代处理技术,例如机器学习和革命性的算法。交易系统和分析系统的融合前景看上去也不错,这些新的方法能够实现实时分析,虽然这需要很多新的大数据架构技术,但总的趋势是干脏活的,无论你是否所谓的数据科学家,都将被自动化技术取代。

你大可以在简历上标榜“数据科学家”,这会赢得更多的人力资源经理的电话,也许你很快就会获得新的工作机会处理堆积得像蓝鲸尸体的腐臭数据,但是请留神,那些主数据管理和数据集成供应商已经伙同媒体把你的CEO上司对大数据的期望值吊得很高,而你将摔得很惨。

数据科学家?省省吧,不如去搞开发、玩创业,千万别错把数据当科学,把陷阱当馅饼。

 

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

能用IT解决的问题都不是问题。 极客、科技作家、周末画报专栏作家、IBM商业价值研究院资深撰稿人;著有《软件的黄金时代》。邮箱:liuchaoyang@ctocio.com