96SEO 2026-02-20 01:40 6
否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息或选择合适的工具以给出用户最符合预期的回答。

在本篇文章中我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索稠密向量
下面会先对混合检索BGE-M3以及Milvus向量数据库做一个介绍后面再对BGE-M3官方提供的使用Milvus的示例代码进行讲解并基于自定义数据进行混合检索的实验效果进行呈现和分析。
其实就是将多种单一检索技术结合起来使用的一种检索方式目的是充分利用不同检索技术各自的优势以达到更好的检索效果。
接下来介绍两种比较常用的检索技术嵌入检索稠密检索和
向量中大部分元素非零是高维的实数向量通常由深度学习模型生成重点在于向量空间中的相似性计算一般使用余弦相似度、点积等计算方法。
这允许语义上相似的文本可以被较好理解即使它们的词语重叠较少能够捕捉文本的语义信息而不是仅仅匹配关键词但计算成本较高需要更强大的计算资源。
权重向量中大部分元素为零主要基于关键词匹配使用余弦相似度等方法计算向量之间的相似性计算效率高对语义理解能力有限。
等传统方法生成捕捉信息语义信息关键词信息计算复杂度高低应用场景语义搜索问答系统基于关键词的搜索引擎
总之嵌入检索和稀疏检索是两种不同的信息检索方法它们各有优缺点实际应用中常常结合使用形成混合检索系统以达到更好的检索效果。
是一个由北京人工智能研究院BAAI开源的嵌入模型主要用于生成文本嵌入text
embeddings。
它是一个多功能、多语言、多粒度的模型。
M3指的就是多功能性Multi-Functionality、多语言性Multi-Linguality和多粒度Multi-Granularity。
该模型可以同时执行嵌入式模型的三个常见检索功能稠密检索、多向量检索和稀疏检索。
这意味着它能够灵活地应对不同的检索需求并结合不同检索方法的优势。
该模型能够处理不同粒度的输入从短句到长达8192个词元的长文档。
https://github.com/milvus-io/milvus
是一个以高效检索和高扩展性为特点的开源向量数据库支持对大量的非结构化数据如文本图像还有多模态数据信息等进行组织和检索。
提供多种本地部署方式以适应不同规模和需求的应用场景引导Gemini
处理数万甚至数十万每秒查询请求向量数据规模达到数十亿级别的大规模应用。
需要高可扩展性和实时数据更新能力。
关键特性:
小型应用、测试、开发和概念验证项目。
相比全分布式模式部署更简单。
关键特性:
可扩展性和功能最受限制。
主要用于学习和原型设计不适合生产环境部署或大型数据集。
简而言之选择哪种部署模式取决于应用的规模和需求。
对于海量数据集和高查询量基于
https://huggingface.co/BAAI/bge-m3模型大小
在后续结合bge-m3模型实现基于语义的混合检索实验中我们使用docker
https://github.com/milvus-io/milvus/releases/download/v2.5.0-beta/milvus-standalone-docker-compose.yml
donepymilvus和FlagEmbedding此库方便我们加载bge模型安装命令
因为我后期想搭一个基于提问内容自动匹配合适的api去调用并将返回结果作为大语言模型推理上下文信息的问答机器人小应用所以我准备了对不同api调用功能目进行描述的几条**中文**短文本作为检索知识库内容。
黄金数据提供黄金品种查询服务支持黄金现货、黄金期货等品种查询提供黄金价格查询服务支持查询最新价、开盘价、最高价、最低价等价格信息。
股票数据根据股票编号查询股票信息包括涨跌额、股票名称、开盘价、收盘价、当前价格、最高最低价、竞买价等信息支持沪深、香港、美国三个市场的股票数据查询覆盖全球各地的股票信息。
新闻头条提供最新的新闻头条信息包括国内、国际、体育、娱乐、科技等各类资讯让用户获取及时的新闻报道支持按照不同的新闻分类进行查询用户可以选择感兴趣的领域如体育、科技、娱乐等获取相关的新闻内容。
[提供黄金品种查询服务支持黄金现货、黄金期货等品种查询提供黄金价格查询服务支持查询最新价、开盘价、最高价、最低价等价格信息。
,根据股票编号查询股票信息包括涨跌额、股票名称、开盘价、收盘价、当前价格、最高最低价、竞买价等信息支持沪深、香港、美国三个市场的股票数据查询覆盖全球各地的股票信息。
,提供最新的新闻头条信息包括国内、国际、体育、娱乐、科技等各类资讯让用户获取及时的新闻报道支持按照不同的新闻分类进行查询用户可以选择感兴趣的领域如体育、科技、娱乐等获取相关的新闻内容。
]代码实现
模型生成稀疏稠密向量搭配Milvus向量数据库实现混合检索的示例代码本次实验将以该代码作为参考在其基础上进行适当修改调整。
https://milvus.io/docs/install_standalone-docker.md
)指定bge-m3模型路径并以fp32精度全精度浮点数加载模型
[提供黄金品种查询服务支持黄金现货、黄金期货等品种查询提供黄金价格查询服务支持查询最新价、开盘价、最高价、最低价等价格信息。
,根据股票编号查询股票信息包括涨跌额、股票名称、开盘价、收盘价、当前价格、最高最低价、竞买价等信息支持沪深、香港、美国三个市场的股票数据查询覆盖全球各地的股票信息。
,提供最新的新闻头条信息包括国内、国际、体育、娱乐、科技等各类资讯让用户获取及时的新闻报道支持按照不同的新闻分类进行查询用户可以选择感兴趣的领域如体育、科技、娱乐等获取相关的新闻内容。
请问黄金品种AU99.99价格如何将检索文本列表编码为稀疏和稠密向量
passage_embeddings[dense_vecs].shape
passage_embeddings[lexical_weights]
passage_embeddings[colbert_vecs]
dtypeDataType.VARCHAR,is_primaryTrue,
vectors.FieldSchema(namesparse_vector,
dtypeDataType.SPARSE_FLOAT_VECTOR),#
vector的精度保持一致即fp32FieldSchema(namedense_vector,
dtypeDataType.FLOAT_VECTOR,dim1024),
consistency_levelStrong)接着我们需要为每一个向量字段创建index创建的indices会被加载到内存中以实现高效检索。
col.create_index(sparse_vector,
col.load()将生成的表示检索文本内容的稀疏稠密向量加入到创建的collection中
passage_embeddings[lexical_weights]
query_embeddings_raw[dense_vecs]
[dict(query_embeddings_raw[lexical_weights][0])]因为检索文档数量较少只有三条所以top
AnnSearchRequest(query_embeddings[sparse],sparse_vector,
AnnSearchRequest(query_embeddings[dense],dense_vector,
提供黄金品种查询服务支持黄金现货、黄金期货等品种查询提供黄金价格查询服务支持查询最新价、开盘价、最高价、最低价等价格信息。
}]再试两个query
提供最新的新闻头条信息包括国内、国际、体育、娱乐、科技等各类资讯让用户获取及时的新闻报道支持按照不同的新闻分类进行查询用户可以选择感兴趣的领域如体育、科技、娱乐等获取相关的新闻内容。
}]Query
根据股票编号查询股票信息包括涨跌额、股票名称、开盘价、收盘价、当前价格、最高最低价、竞买价等信息支持沪深、香港、美国三个市场的股票数据查询覆盖全球各地的股票信息。
}]效果还是不错的。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback