如果说得不对还请指正:
Sphinx是一个类似Lucene东东,同样没有爬虫部分。
源代码是c++写得,国内很多人一说到高效高速就想到c++,我也不会C++(为什么说也呢,因为我用lucene写过搜索,但不会java),但不耽误我看代码,代码写得很漂亮,有兴趣的可以读读,一齐交流交流。
索引部分是将内容分词按照指定格式存储。锁有两个,一个是文件锁,另一个是mlock。
排序算法和某书说得有类似,但有所不同。
搜索部分先将索引必要信息拉到内存,然后进行搜索一系列动作(过滤,排序等),最终找到对应的id数组,然后一个个的到数据库(现在支持mysql,pgsql)拿。(lucene的必要索引信息似乎比它大多了,从我们应用的角度来看,感觉可以缩减索引,有兴趣的可以到lucene的wiki上找pruning)
sphinx是通过一个叫searchd,感觉就是个daemon来提供对外服务,技术参考管道,进程
性能很强,中文分词支持目前比较稀缺,只有一两个开源的。
有时候我觉得分词随便哪个都行,只要能找到。快慢也一般,又不是做百度,google,只要不离谱也能承受。因为我觉得最关键还是搜索结果的排序,就是如何让更优的信息能排在最前面。
想从中文词语之间来分析相关性,我觉得还是歇歇把,理论和实践差得太远了。字典也许更可靠点,但这意味着中文分词要完全重写。
垂直搜索从业务角度来分析每条信息的重要性,这个还比较靠谱,问题是每行每业都有差别,很难统一,只能根据业务来定制。
分享到:
相关推荐
⑶、创建数据库“Sphinx”和相对应的Sphinx表(SQL语句): 15 示例SQL: 15 四、如何通过SQL语句调用搜索引擎: 15 1、搜索应用实例 15 ⑴、XX网北京出租房搜索 15 ⑵、XX网北京小区搜索 15 ⑶、在指定字段中...
php 搜索Sphinx,英文版,详细的介绍Sphinx
这是一个C++开发的sphinx-2.2.11-release.zip压缩包。
Sphinx 中文搜索优化和pdf生成方法_20181103.pdf,由于 sphinx 编译 PDF 的过程中使⽤用了了 latexpdf 组件,该组件在 windows/macOS/Linux 上安装⽅方 式和使⽤用⽅方式均有不不同,建议直接使⽤用 Docker 环境来...
sphinx全文搜索引擎,支持中文分词。内置sphinx安装包及coreseek安装包
Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更...Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。
带有sphinx搜索功能的yii2框架实例
PHP搜索引擎Sphinx使用教程.zip JAVA有ElasticSearch搜索引擎,我们PHP也有
Sphinx搜索引擎架构与使用文档(和MySQL结合)
使用PHP+Sphinx建立高效的站内搜索引擎
这时Sphinx1.2.1的英文文档。这里的Sphinx指的是文档生成工具而不是全文搜索引擎。 全英文。
Docker 支持中文分词的Sphinx搜索引擎
数据库 搜索引擎,通过web实现,对数据库的搜索
Sphinx是一个基于SQL的...Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。 Sphinx 单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒
中文搜索解决方案之sphinx
sphinx3.x是基于C语言的最新版本,sphinx和 sphinx2请大家不要去研究了。 sphinx for ppc是一个在PocketPc上实现的嵌入式语音识别系统。 而 sphinx4是完全用JAVA编写实现的语音识别系统, 因为JAVA的特性,在平台...
本文档介绍Sphinx4在Windows下的中文训练过程及注意事项,与本文档配套的是我自己的训练实例bergtrain和用到的软件。 本文档编写日期 2013-04-23 1、为什么要训练? sphinx4目前的版本中仅提供了英文等语音识别库。...
sphinx_UTF全文搜索sphinx_UTF全文搜索sphinx_UTF全文搜索sphinx_UTF全文搜索sphinx_UTF全文搜索
Thinking Sphinx - ActiveRecord/Rails的Sphinx全文搜索插件
Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。 Sphinx单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Sphinx创建...