揭密谷歌的大数据

embed-the-google-gospel-of-speed-urs-hoelzle

根据Google研究总监Peter Norvig的说法,如果你在Google Trend上搜索“满月”和“冰淇淋”,你会发现Google搜索与真实世界中的趋势高度吻合:在上述关键词的大量搜索中,“满月”的搜索量峰值每28天出现一次。“冰淇淋”的搜索每年夏天到达峰值。海量的数据为我们呈现出一些非常有趣的事情。

如果你对搜索引擎的工作原理感兴趣,或者希望了解海量数据如何帮助搜索引擎工作得更加有效率,建议你看看Google员工Alon Halevy、Peter Norvig和Fernando Pereira合写的“数据不可思议之效力”(The Unreasonable Effectiveness of Data)。此外还强烈推荐看看Peter Norvig在大不列颠哥伦比亚大学的同主题演讲,国内IT人士可以跳墙去youtube搜看。

在演讲中,Norvig用平实的语言和精彩的案例介绍大量数据配合算法如何解决一些领域的难题。例如:

词义歧义消除(Word Sense Disambiguation)

大数据能帮助理解文档和web中出现的多义词的准确词义。

词切分(Word Segmentation)

相比英语,词切分对汉语这样的语言更有价值。但至少对于域名名称来说很有用,因为域名的单词通常都是连写的。

统计型机器翻译(Statistical Machine Translation)

正如Norvig在演讲中提到的,“我们居然可以为团队中没有人懂的外语建立模型!”

此外还有一些论文与Norvig的研究题目有关,也有助于帮助大家了解大数据如何应用于搜索和搜索引擎,列在下面:

On the Value of Page-Level Interactions in Web Search (pdf)

Exploring Web Scale Language Models for Search Query Processing (pdf)

 

Via seobythesea

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

主要关注社会化商务时代的客户关系管理、业务流程管理、数据挖掘、商业智能和企业协作等领域的新技术、新应用和新趋势。曾长期从事信息化咨询服务和软件开发工作,服务过首都机场、国家电网公司、中国蓝星等企业。邮箱:guanzhigang@ctocio.com