博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Lucene4.3开发之第七步之合体后期(七)
阅读量:7186 次
发布时间:2019-06-29

本文共 2526 字,大约阅读时间需要 8 分钟。

hot3.png

    本篇要写的是关于Lucene里面Collector这个东西,暂且称他为收集器吧,先看下Lucene内置的Collector类的继承图。

142952_Drmj_1417419.jpg

我们先来回顾一下,一个基本的搜索流程是怎么完成的:

1、得到一个索引目录的Directory(可能基于内存的或者磁盘的);

2、得到一个DirectoryReader;

3、实例化查询组件IndexSearch;

4、检索得到TopDoc查询结果集;

5、遍历ScoresDocs处理结果。

前1、2、3算是准备工作,后面的2步是我们经常需要进行数据处理的方法,那么我们Collector到底工作在哪一步呢?其实Collector真正的起作用是在3~4之间的。

那么Collector的作用是干什么的?为什么需要使用Collector?

    在这之前先分析下TopDocs这个类,这个类的工作原理,其实在后台使用的也是一个收集器,搜集我们检索的结果,通过TopDocsCollector这个基类下面的2个子类收集器,来收集一次我们检索的命中数据。

    所以collector的作用就是收集某些我们需要定制化的结果集,某些情况下使用collector科室极大地提升我们程序的性能,通过collector可以让我们对每一个匹配上的文档做一些特有的定制化操作,当然前提是在我们需要使用的情况下。

下面是collector基类的几个方法:

143828_SZRL_1417419.png

下面我们来看下自定义的一个collector来实现ScoreDoc类的功能,代码如下:

package com.piaoxuexianjing;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.lucene.index.AtomicReaderContext;import org.apache.lucene.search.Collector;import org.apache.lucene.search.ScoreDoc;import org.apache.lucene.search.Scorer;/** * @author 三劫散仙 * @version 1.0 *  * 自定义收集器 * 实现评分收集 * **/public class MyScoreCollector extends Collector {	//private HashMap
 documents=new HashMap
(); List
 docs=new ArrayList
(); private Scorer scorer;//scorer类 private int docBase;//全局相对段基数   @Override public boolean acceptsDocsOutOfOrder() { // TODO Auto-generated method stub //返回true是允许无次序的ID //返回false必须是有次序的 return true; } @Override public void collect(int arg0) throws IOException { /**  * 匹配上一个文档  * 就记录其docid与打分情况  *   * */ docs.add(new ScoreDoc(arg0+docBase,scorer.score()));// }// BinaryDocValues names;//字符类型的内置存储// BinaryDocValues bookNames;//字符类型的内置存储// BinaryDocValues ids;//字符类型的内置存储// BinaryDocValues prices;//字符类型的内置存储// FieldCache.Doubles d ; //数值类型的内置存储// FieldCache.Ints ints;//数值类型的内置存储 @Override public void setNextReader(AtomicReaderContext arg0) throws IOException { this.docBase=arg0.docBase;//记录每个索引段结构的相对位置 } @Override public void setScorer(Scorer arg0) throws IOException { // TODO Auto-generated method stub this.scorer=arg0;//记录改匹配的打分情况 }}

测试类的核心代码

    //自定义收集器    MyScoreCollector  scoreCollector=new MyScoreCollector();    searcher.search(new MatchAllDocsQuery(), scoreCollector);    /**    * 自定义的收集类,实现效果===>ScoreDocs类    * **/    List
 s=scoreCollector.docs;        for(ScoreDoc sc:s){            System.out.println(sc.doc+"===="+sc.score);        }

输出结果

0====1.01====1.02====1.03====1.04====1.05====1.06====1.07====1.0

至此,我们就利用自定义的collector完成了一个简单的收集评分功能,当然我们可以根据自己的业务,来实现各式各样的collector。

转载于:https://my.oschina.net/heroShane/blog/201809

你可能感兴趣的文章
设计自己解析XML字段,并反射到对应类
查看>>
linux 下安装maven + git直接编译项目
查看>>
oracle用sum函数实现累加
查看>>
java中创建对象的方法
查看>>
UNIX/Linux系统取证之信息采集案例
查看>>
Python知识点总结篇(五)
查看>>
一致性算法探寻(扩展版)1
查看>>
这几个 Chrome 的 Tab 增强插件你都用上了吗?
查看>>
Java中的浅拷贝与深拷贝
查看>>
微信小程序联盟:官方文档+精品教程+demo集合(6月9日更新,持续更新中……)...
查看>>
spring 事务的传播特性
查看>>
react学习(1)-Why React?
查看>>
RESTful风格的API接口开发教程
查看>>
用 Lua 实现一个微型虚拟机-基本篇
查看>>
php 安装 memcached 扩展出现 zlib 错误
查看>>
CentOS中服务程序随系统启动
查看>>
我的友情链接
查看>>
永久关闭selinux
查看>>
zTree 树使用$('#test').load("url"),后树不能使用
查看>>
C文件的编译、链接和运行指令
查看>>