96SEO 2026-05-26 15:42 0
两周浅学RAG后:我的疑问与思考
Zui近两周,我深入学习了RAG技术,并动手实践了一个demo。在这个过程中,我积累了一些经验,也产生了不少疑问。本文将分享我的学习心得、实践过程以及仍待解决的问题。
RAG初探:从理论到实践RAG是一种结合信息检索与大模型的系统架构模式,旨在提升内容生成的质量。其核心思路是:将文档切片、向量化,然后根据语义相似度寻找Zui相关的文本块,作为提示词的上下文提供给大模型。

起初,我以为RAG只是简单的关键字匹配,但实际操作后才发现,其中的“检索”二字远比我想象的复杂。RAG需要的是语义相似,而非简单的字面匹配。
graph LR
A --> AI{Claude Code}
AI --> B1
AI --> B2
AI --> B3
AI --> B4
AI --> B5
关键技术与实现细节
在实现RAG的过程中,我接触到了几个关键技术:
词嵌入通过模型将词汇映射到高维空间,实现语义层面的相似度计算。
向量检索利用FAISS等库进行高效的向量相似度搜索。
混合检索结合BM25和向量检索,提升召回率和准确率。
Cross-encoder重排对初步检索结果进行精细化排序,进一步提升结果的相关性。
graph TD
subgraph 离线索引阶段
D1 --> D2
D2 --> D3
D3 --> D4
D2 --> D5
end
subgraph 在线检索阶段
Q --> Q1
Q1 --> R1
Q --> R2
D4 -.加载.-> R1
D5 -.加载.-> R2
R1 --> F
R2 --> F
F --> RR
RR --> CT
end
subgraph 生成阶段
CT --> P
P --> LLM
LLM --> A
end
subgraph 评估闭环
A --> E
E -.调参.-> D2
E -.调参.-> F
E -.调参.-> P
end
实践中的疑问与反思
尽管完成了demo的搭建,但在过程中仍有几个问题尚未彻底搞清楚:
Chunk_size与Overlap的选择不同的文档类型和任务需求对分块大小和重叠度的敏感性不同,缺乏普适性的参数调优指南。
Ablation实验的重要性在组件选型时未进行详细的Ablation研究,仅凭直觉组合了多个组件,未Neng量化各模块的实际贡献。
HNSW图结构的细节理解对其实现机制仅停留于“小世界图+多层跳跃”的概念层面缺乏对底层公式和工程细节的深入探究。
Vibe Coding心得:AI协作的新体验这个demo并非完全由我独立完成,而是与Claude Code共同“Vibe Coding”的成果。这种协作模式让我意识到AI不仅Neng加速开发流程,还Neng在理论讲解、Bug定位、参数实验等方面提供有力支持。
prompt = ChatPromptTemplate.from_messages()
chain = prompt | llm
两周的学习让我对RAG有了初步的理解,但仍有hen多待深入探索的技术点。未来我计划进一步研究HNSW的实现细节,进行geng全面的Ablation实验,并尝试在geng大规模的数据集上验证当前的结论。
Yi知不足,欢迎拍砖文章中如有偏颇或未尽之处,欢迎读者在评论区指出,我将持续geng新,以此作为自己的学习追踪记录。
graph LR
A --> B
B --> C
C --> D
style B fill:#FFE4B5
style D fill:#90EE90
这篇文章是我学习RAG两周后的一个阶段性既是对Yi学知识的梳理,也是在向自己交代每一次学习的可见输出。希望它Neng对同样探索RAG的朋友们有所启发或帮助。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback