大数据应用开发典范:LinkedIn大学主页
LinkedIn新上线的大学主页是大数据应用开发的绝佳案例。产品构想和页面设计固然重要,但更重要的是能充分利用数据资源的人和系统。
职业社交网络LinkedIn近日上线了最新版的大学主页,以此增加对校园用户的吸引力。但就其产品本身而言,其工程上的光芒盖过了其业务上的战略意义,是研究大数据应用开发的绝佳案例。
本周一LinkedIn的工程师在博客上介绍了LinkedIn校友录的技术原理,这也再次提醒人们,深入了解你的产品、数据和数据处理工具是多么的重要。
LinkedIn的新产品——大学主页最初只是一个想法,但之后LInkedIn的数据科学家们花费数年时间整合用户资料、采集并标准化2.3万所大学院校的数据。他们为每所学校都开发了一个数据图谱模型:学校作为主节点,相关学校和LinkedIn的校友录作为二级节点。这样你在访问任何一个LinkedIn大学页面时,你都能了解校友们的动态:他们的就业领域、职业类型等等的数据统计。
在页面的背后,LinkedIn大学主页的功能基于一些复杂的大数据技术,很多都是LinkedIn自行开发的。图谱数据存储在LinkedIn最新的旗舰数据库技术——EspressoDB中。将数据转化成标准格式的大部分处理工作都由Hadoop完成。Hadoop系统还被用于生成“类似学校”和“值得关注的校友”等页面信息,这些都是以批处理任务的间歇性运行,并将结果导入LinkedIn的Voldemort NoSQL数据库中,以便用户能够快速访问(同时也会被导入EspressDB数据库生成学校的图谱)
大学资料的搜索功能则基于其他两个开源技术:Bobo和Zoie(由LinkedIn开发)。LinkedIn的数据总线系统Databus System的数据会流式更新到搜索系统,确保搜索结果都是最新的数据。
本周二我们介绍了LinkedIn的数据工程团队,他们的策略和关键技术,以下是他们的领导之一,Bhaskar Ghosh绘制的LinkedIn架构图。
Via GigaOM
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: