Lucene源码解析

需要主题适配以支持
Lucene源码系列(四):FastVectorHighlighter高亮算法实现 Lucene是一个开源的全文搜索引擎库,提供了强大的全文检索功能。在Lucene中,FastVectorHighlighter是一个用于文本高亮的工具类,它能够根据搜索结果中的关键词对文本进行高亮显示。本文将深入探讨FastVectorHighlighter的高亮算法实现。 FastVectorHi
发布于 2024-08-19
Lucene源码系列(三):Highlighter高亮算法实现 背景介绍 在搜索引擎中,一般对于检索出来的相关文档会对query中的关键字进行高亮,借以直观地表示引擎检索结果的相关性。如下图所示,我们在Google中搜索“lucene engine”,搜索的结果列表中的摘要对query词中关键字的匹配进行了红色高亮表示。这种高亮的功能在引擎背后到底是怎么实现的,
发布于 2024-08-19
lucene源码系列(二):向量数据读写分析 前提 在Lucene 9.1.0中,向量的近邻检索算法只提供了HNSW,因此本文介绍的Lucene向量数据的读写就是介绍Lucene中HNSW相关数据文件的读写。 在学习Lucene中HNSW相关数据文件结构的持久化和解析之前,建议先阅读下 历史文章《lucene源码系列:HNSW实现》,以便了解H
发布于 2024-08-19
大白话理解HNSW 概念引导 HNSW(Hierarchical Navigable Small World)是一种用于近似最近邻搜索(ANN)的算法。在大白话中,我们可以将其理解为一种高效的数据结构,它可以帮助我们快速找到与给定数据点最接近的其他数据点。 想象一下,我们有一个巨大的图书馆,里面有成千上万本书。现在,我
发布于 2024-08-15