Web之熵与搜索之殇

machine learning-Coursera

图片:Coursera

web已经成了大众的悲剧,沦为被垃圾信息统治的社会化系统,超过90%的URL都是纯垃圾。

在数据爆炸,网络普及的今天,信息过载的危害有时候甚至比信息稀缺更加严重。

大数据厂商们最喜欢引用的一个数据是:过去两年中,人类社会产生的数据超过之前人类历史的总和!这并不能说明过去两年中互联网导致人类基因突变,学识大增,相反,我们应当意识到,数据爆炸的另一面是信息稀释,网络上真正有价值信息的含量正加速变得稀薄,就像海底石油一样,开采起来的成本和难度都在不断加大。

搜索的退化

造成信息稀释的主要原因之一是搜索经济的规则缺陷。互联网上大量新增信息都是为搜索广告而生的“垃圾信息”——数以万计的网站,为了吸引用户访问,获取网络流量,增加搜索广告收入而炮制的无效信息——传说中的SEO(搜索引擎优化)手法之一,利用搜索引擎算法的缺陷,通过大量低质量低成本人工信息来吸引流量。最典型的如Demand Media这样的内容农场,通过众包的方式在全世界范围招募低成本写手,围绕关键词大批量生产垃圾内容。同样的事情也在“外链市场”不断上演。可以说,全球价值数十亿美元的SEO市场主要原理是对搜索引擎算法的反向工程,然后大批量生产劣质内容和链接。这些都会导致web数据熵值的不断上升,用户体验变差,这也是搜索引擎公司如Google和百度等所不愿意看到的,他们不断改进算法,试图增加内容质量在搜索结果中的权重。

但是对于那些从SEO中获利的企业来说,用户体验并不是问题,即使你输入“如何防止早泄”然后得到一大堆能导致你永远不举的搜索结果,SEO企业依然能从你盲目的点击中获利,即使你访问的页面内容纯属堆砌关键词,但至少该页面的广告是关键词相关的,当然,有时候广告本身成了唯一有意义的内容。只要流量和点击的转化率产生的广告收入能够超过制造垃圾网页的成本,网站的经营者依然能从广告的点击中获利。

就网络广告的投资回报率而言,即使页面的内容质量很高,展示广告的点击率也未必会有多高,换而言之内容质量并不能与广告转化率划等号,这也使得劣质和虚假内容有了生存空间。加之搜索引擎鼓励内容发布者在页面销售广告,进一步刺激了垃圾内容的产生,同时也导致搜索结果质量的下降。正如高效搜索引擎创业公司Blekko的首席执行官Rich Skrenta所言:“搜索引擎正在不断退化,web已经成了大众的悲剧,沦为被垃圾信息统治的社会化系统,超过90%的URL都是纯垃圾。”

搜索的重生

如今,原来越多的创新者开始尝试用不同方法改变搜索引擎的现状,但是他们有一个共同之处:通过相关度更高的、基于专家的识别模式来产生更有效的用户搜索结果。例如Pandora提供了一种更有效率的音乐发现和搜索方式;而Fab这样的新兴电商企业则完全是专家挂帅,高质量的人工筛选和编辑是其网站的核心价值所在。预测模型和专家推荐将成为推动未来电子商务和web内容搜索的两大趋势,无论是通过机器学习还是人工介入,新一代搜索引擎能够从急速膨胀的web大数据中抽取有价值的信息甚至智慧,这将彻底改变目前的搜索经济游戏规则。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:
标签: ,


关于作者

能用IT解决的问题都不是问题。 极客、科技作家、周末画报专栏作家、IBM商业价值研究院资深撰稿人;著有《软件的黄金时代》。邮箱:liuchaoyang@ctocio.com