如何用机器学习算法提高全文检索准确性
全文本检索是大多数web开发者日常工作中都会面对的常见而棘手的问题,通常也是你的客户或者老板对你咆哮的原因。最简单的,你可以在MySQL中建立全文本索引并使用类似“MATCH() … AGAINST()” 这样的查询语句来满足小规模数据库查询需求。
但是当数据库中的记录成千上万地增加时,以上方法实现的全文本检索性能将急剧下滑,数据库响应开始变得迟缓。这表明MySQL并不是一个理想的全文本检索引擎,这时候你应该切换到检索准确性和效率更高的ElasticSearch上了,并部署一个基于Lucene的全文本检索集群来实现高性能。
你可能会奇怪为什么Lucene的全文检索性能和准确性如此优异,机器学习领域专家Burak Kanber在一篇博客中为我们详尽剖析了全文本检索背后的概念,并且对TF-IDF(词频-逆文档频率)和当今最优秀的全文检索算法Okapi-25的原理和实现进行了代码级的阐释,推荐大家参考学习。
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: