9 Jan

增强typecho的搜索功能

By 苏剑林 | 2018-01-09 | 90588位读者 |

科学空间是使用typecho程序搭建的博客，侧边栏提供了搜索功能，然而typecho内置搜索功能仅仅是基于字符串的全匹配查找，因此导致很多合理的查询都没法得到结果，比如“2018天象”、“新词算法”都没法给出结果，原因就是文章中都不包含这些字符串。

于是就萌生了加强搜索功能的想法，之前也有读者建议过这个事情。这两天搜索了一下，本来计划用Python下的Whoosh库来建立一个全文检索引擎，但感觉整合和后期维护的工作量太大，还是放弃了。后来想到在typecho自身的搜索上加强，在公司同事（大佬）的帮助下，完成了这个改进。

由于是直接修改typecho源文件实现的改进，因此如果typecho升级后就可能被覆盖，因此在这里做个备忘。

探索 #

通过在Github检索我发现，typecho的搜索功能是在var/Widget/Archive.php中实现的，具体代码大概在1185～1192行：

        if (!$hasPushed) {
            $searchQuery = '%' . str_replace(' ', '%', $keywords) . '%';
            /**搜索无法进入隐私项保护归档 */

            $select->where('table.contents.password IS NULL')
            ->where('table.contents.title LIKE ? OR table.contents.text LIKE ?', $searchQuery, $searchQuery)
            ->where('table.contents.type = ?', 'post');
        }

可见，搜索结果是通过在SQL中匹配keywords返回的，其中%是SQL中的通配符。因此我们还发现，如果我们输入查询语句是自带空格的话，那么空格也会被替换成通配符，这样搜索起来就灵活一点。

因此很自然的一个想法是，不管查询语句有没有空格，我们人工对查询语句进行分词，然后用通配符连接分词结果，从而实现在没有空格的情况下也更灵活搜索。这确实是我实践的第一个思路。然而这样做存在的问题是：尽管进行了分词，然而还是要匹配完所有的词才出结果，如果有一个词在博客中从未出现过，那么就匹配不到了。于是要想更好，那么需要考虑每个词都只是候选词而不是必选词的做法。

实践 #

为了实现上述目的，我用Python写了个http接口，放到服务器上，这个http接口负责分词并生成SQL语句，然后将$keywords = $this->request->filter('url', 'search')->keywords;替换为$keywords = $this->request->keywords;，并改写上述代码为

        if (!$hasPushed) {
            $url = 'http://127.0.0.1:7777/token?text=' . $keywords;
            $url = str_replace(' ', '%20', $url);
            $searchQuery = file_get_contents($url);

            /**当接口失效时使用简单全匹配 */
            if (!$searchQuery) {
                $searchQuery = 'SIGN(INSTR(table.contents.title, "' . $keywords . '"))';
                $searchQuery = $searchQuery . ' + SIGN(INSTR(table.contents.text, "' . $keywords . '"))';
            }

            /**搜索无法进入隐私项保护归档 */
            $select->where('table.contents.password IS NULL')
            ->where($searchQuery . ' > 0')
            ->where('table.contents.type = ?', 'post')
            ->order($searchQuery, Typecho_Db::SORT_DESC);
        }

其中接口http://127.0.0.1:7777/token?text=是Python程序：

#! -*- coding:utf-8 -*-

import bottle
import jieba
jieba.initialize()

def convert(s):
    ws = jieba.cut(s)
    search = []
    for i in ws:
        search.append('2*SIGN(INSTR(table.contents.title, "%s"))'%i)
        search.append('SIGN(INSTR(table.contents.text, "%s"))'%i)
    return '(%s)'%(' + '.join(search))

@bottle.route('/token', method='GET')
def token_home():
    text = bottle.request.GET.get('text')
    if not text:
        text = ''
    return convert(text)

if __name__ == '__main__':
    bottle.run(host='0.0.0.0', port=7777, server='gunicorn')

这个接口返回的是SQL语句的算分部分，具体算法是：先分词，如果文章标题中包含一个词，那么加2分，如果文章内容包含一个词，加1分，最后算个总分，用到的函数SIGN、INSTR等，大家百度一下就知道了。这里推荐一下，用bottle这个轻量级的库写http接口是非常方便的～

还有要修改的是：因为我们修改的php部分，用了order($searchQuery, Typecho_Db::SORT_DESC);来希望按分数降序排列。然而这不会直接生效，因为typecho中默认全部按时间降序排列，因此我们还要修改同一个文件的1396～1397行，将原来是

 $select->order('table.contents.created', Typecho_Db::SORT_DESC)
        ->page($this->_currentPage, $this->parameter->pageSize);

改为

        if (strpos($select, 'INSTR') === false) {
            $select->page($this->_currentPage, $this->parameter->pageSize)
            ->order('table.contents.created', Typecho_Db::SORT_DESC);
        } else {
            $select->page($this->_currentPage, $this->parameter->pageSize);
        }

大概意思是判断一下是不是搜索语句，如果是的话，那么就不按时间排列；如果不是的话，就按时间排列。直接去掉按时间排列是不行的，因为这一句也包含了首页的输出，首页的输出必须按照时间排序。

结语 #

为什么要用这种Python和PHP结合的方案，而不纯写成PHP版？没错，写成纯PHP也可以，结巴分词的确也有PHP版，然而最重要的问题是我不会PHP！而且PHP版的结巴也需要额外配置，略麻烦。像这样用Python对我来说就简单多了，如果有什么要改进的，修改Python脚本即可。

最后，也许有使用者会担心这么粗暴的解决方法会不会存在效率问题，事实上，如果文章多达几十万的话，那么上述做法肯定有很严重的效率问题，然而对于一个只有几百篇文章的博客来说，这个问题并不需要考虑了。

终于可以用更自由地搜索了～欢迎大家更多的建议。

转载到请包括本文地址：https://www.spaces.ac.cn/archives/4797

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (Jan. 09, 2018). 《增强typecho的搜索功能》[Blog post]. Retrieved from https://www.spaces.ac.cn/archives/4797

@online{kexuefm-4797,
        title={增强typecho的搜索功能},
        author={苏剑林},
        year={2018},
        month={Jan},
        url={\url{https://www.spaces.ac.cn/archives/4797}},
}

分类：信息时代标签：网站, python 13 评论

< 《Attention is All You Need》浅读（简介+代码） | 分享一个slide：花式自然语言处理 >

你也许还对下面的内容感兴趣

发表你的看法

holmesian

January 18th, 2018

请尝试更新Typecho-AMP插件，测试是否解决问题。

回复评论

zhujiwiki

April 21st, 2018

麻烦问下，出现了这样的问题
Traceback (most recent call last):
File "soso.py", line 4, in
import jieba
File "/www/wwwroot/xxxxx.com/jieba.py", line 5, in
AttributeError: 'module' object has no attribute 'initialize'
是什么原因呢？

jieba安装好了，py2.7

回复评论

苏剑林发表于 April 21st, 2018

你写的脚本不要命名为jieba.py

回复评论

泽泽

November 19th, 2018

\$keywords这个关键词你是怎么获取的啊，用这个\$keywords = \$this->request->filter('url', 'search')->keywords;貌似会自动过滤空格和特殊字符

回复评论

苏剑林发表于 November 20th, 2018

文章已经详细说了呀

回复评论

好室研研创始人·研叔

June 6th, 2020

我觉得可以另辟蹊径，也就是调用外部搜索的结果，然后包一下替换自带的搜索页。比如用Google的站内搜索

回复评论

苏剑林发表于 June 6th, 2020

谢谢建议，不过这样做终究可能会有遗漏，取决于搜索引擎的收录程度。

回复评论

卢卡斯大家发过啦

August 31st, 2020

现在好像还不能对评论进行搜索？

回复评论

卢卡斯大家发过啦发表于 August 31st, 2020

而且只能看到最近几条评论，导致想找自己之前的评论根本找不到（捂脸）

回复评论

苏剑林发表于 August 31st, 2020

不能，内置没有这个功能，我也不懂php开发。

回复评论

while

November 14th, 2020

然后将$keywords = $this->request->filter('url', 'search')->keywords;替换为$keywords = $this->request->keywords;

============》会不会导致漏洞呢？

回复评论

苏剑林发表于 November 15th, 2020

不大了解php，请赐教，谢谢。

回复评论

Enhancing the search function of Typecho with a word - Technology Blog

February 1st, 2022

[...]After seeing the Su Swordwood article enhanced typecho’s search function, at first it was too much trouble, and instead of thinking about using it, it went on the Internet to find some plugs to [...]

回复评论

内容速览

探索

实践

结语

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

增强typecho的搜索功能

探索 #

实践 #

结语 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接