docs:更新 RAG 专栏

Java-Edge · Java-Edge · commit 06f07d911dbf · 2024-04-14T18:19:48.000+08:00
diff --git a/docs/.vuepress/config.js b/docs/.vuepress/config.js
@@ -1161,6 +1161,9 @@ module.exports = {
                         children: [
                             "00-为什么要学习大模型",
                             "00-“消灭”LLM幻觉的利器 - RAG介绍",
+                            "01-RAG应用框架和解析器",
+                            "02-相似性检索的关键 - Embedding",
+                            "03-RAG的核心 -结果召回和重排序",
                         ]
                     },
                 
diff --git a/docs/md/AI/01-RAG应用框架和解析器.md b/docs/md/AI/01-RAG应用框架和解析器.md
@@ -0,0 +1,108 @@
+# 01-RAG应用框架和解析器
+
+## 1 开源解析和拆分文档
+
+第三方的工具去对文件解析拆分，去将我们的文件内容给提取出来，并将我们的文档内容去拆分成一个小的chunk。常见的PDF word mark down, JSON、HTML。都可以有很好的一些模块去把这些文件去进行一个东西去提取。
+
+### 优势
+
+- 支持丰富的文档类型
+- 每种文档多样化选择
+- 与开源框架无缝集成
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240411205330424.png)
+
+但有时效果非常差，来内容跟原始的文件内容差别大。
+
+## 2 PDF格式多样性
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240411205413747.png)
+
+**复杂多变的文档格式，提高解析效果十分困难**。
+
+## 3 复杂文档格式解析问题
+
+文档内容质量将很大程度影响最终效果，文档处理过程涉及问题：
+
+### 内容不完整
+
+对文档的内容进行提取的时候，可能会发现提取出来的文档它的内容是会被截断的。跨页形式，提取出来它的上下页其实两部分内容就会被截断，导致文档内部分内容丢失，我们去解析图片或者是说双栏复杂的这种格式。它会有一部分内容的丢失。
+
+### 内容错误
+
+同一页PDF文件可能存在文本、表格、图片等混合。
+
+PDF解析过程中，同一页它不同段落其实会也会有不同标准的一些格式。按通用格式去提取解析就遇到同页不同段落格式不标准情况。
+
+### 文档格式
+
+像常见PDF md文件，需要去支持把这些各类型的文档格式的文件都给提取。
+
+### 边界场景
+
+代码块还有单元格这些，都是我们去去解析一个复杂文档格式中会遇到一些问题。
+
+## 4 PDF内容提取流程
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240411215521843.png)
+
+## 5 为什么解析文档后需要做知识片段拆分
+
+### Token限制
+
+- 绝大部分开源限制 <= 512 Tokens
+- bge_base、e5_large、m3e_base、text2vector_large_chinese、multilingnal-e5-base..
+
+### 效果影响
+
+- 召回效果：有限向量维度下表达较多的文档信息易产生失真
+- 回答效果：召回内容中包含与问题无关信息对LLM增加干扰
+
+### 成本控制
+
+- LLM费用：按照Token计费
+- 网络费用：按照流量计费
+
+## 6 Chunk拆分对最终效果的影响
+
+
+
+**Chunk太长** 
+
+信息压缩失真
+
+**Chunk太短** 
+
+表达缺失上下文；匹配分数容易变高
+
+**Chunk跨主题** 
+
+内容关系脱节
+
+**原文连续内容（含表格）被截断** 
+
+单个Chunk信息表达不完整，或含义相反
+
+**干扰信息** 
+
+如空白、HTML、XML等格式，同等长度下减少有效信息、增加干扰信息
+
+**主题和关系丢失** 
+
+缺失了主题和知识点之间的关系
+
+## 7 改进知识的拆分方案
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240411220752800.png)
+
+## 8 腾讯云向量数据库AI套件
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240411220851274.png)
diff --git a/docs/md/AI/02-相似性检索的关键 - Embedding.md b/docs/md/AI/02-相似性检索的关键 - Embedding.md
@@ -0,0 +1,112 @@
+# 02-相似性检索的关键 - Embedding
+
+## 1 文本Embedding
+
+将整个文本转化为实数向量的技术。
+
+Embedding优点是可将离散的词语或句子转化为连续的向量，就可用数学方法来处理词语或句子，捕捉到文本的语义信息，文本和文本的关系信息。
+
+◉ 优质的Embedding通常会让语义相似的文本在空间中彼此接近
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414171159521.png)
+
+◉ 优质的Embedding相似的语义关系可以通过向量的算术运算来表示：
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414171236237.png)
+
+## 2 文本Embedding模型的演进与选型
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414171349237.png)
+
+目前的向量模型从单纯的基于 NLI 数据集（对称数据集）发展到基于混合数据（对称+非对称）进行训练，即可以做 QQ召回任务也能够做 QD 召回任务，通过添加 Instruction 来区分这两类任务，只有在进行 QD 召回的时候，需要对用户 query 添加上 Instruction 前缀。
+
+## 3 VDB通用Embedding模型
+
+模型选择：
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414171529413.png)
+
+### GPU资源：
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414171604449.png)
+
+## 4 VDB垂类Embedding模型
+
+用户提供垂类文档数据，VDB对模型进行微调，助力垂类应用效果更进一步。
+
+优化1：对比学习拉近同义文本的距离，推远不同文本的距离
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414171841703.png)
+
+优化2：短文本匹配和长文本匹配使用不同prompt，提升非对称类文本效果
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414171906692.png)
+
+优化3：预训练阶段提升基座模型面向检索的能力，对比学习阶段提高负样本数
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414171927786.png)
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414171944616.png)
+
+## 5 存储、检索向量数据
+
+### 5.1 为啥需要一个专用的向量数据库
+
+1. 查询方式与传统数据库存在区别
+2. 简单易用，无需关心细节
+3. 为相似性检索设计，天生性能优势
+
+### 5.2 腾讯云向量数据库的优势
+
+“首家”：
+
+- 通过信通院的标准化性能和规模测试
+- 支持千亿级向量规模和最高500W QPS
+
+自研：
+
+- 内核源自集团自研OLAMA引擎
+- 内部已有**40+**业务接入
+
+性价比：
+
+- 性能领先业内平均水平**1.5**倍
+- 同时客户成本降低20%
+
+## 6 VDB优势
+
+### 流程简化
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414172239208.png)
+
+模型简化：
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414172322436.png)
+
+共享GPU集群：
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414172401162.png)
+
+## 7 腾讯云向量数据库：消除大模型幻觉，加速大模型在企业落地
+
+### 7.1 端到端AI套件，AGI时代的知识库解决方案
+
+提供**一站式**知识检索方案，实现业界内**最高召回率、大幅降低开发门槛**，帮助企业快速搭建RAG应用，解决大模型幻觉问题。
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414172516389.png)
+
+### 7.2 源自集团多年积累，产品能力行业领先
+
+源自腾讯自研向量检索引擎OLAMA，集团内部**40+**业务线上使用，日均处理**1600亿次**检索请求。
+
+- 『首家』通过中国信通院向量数据库标准测试
+- 单索引支持最高**千亿级**超大数据规模
+- 单实例最高可达**500万 QPS**
diff --git a/docs/md/AI/03-RAG的核心 -结果召回和重排序.md b/docs/md/AI/03-RAG的核心 -结果召回和重排序.md
@@ -0,0 +1,135 @@
+# 03-RAG的核心 -结果召回和重排序
+
+## 1 完整RAG应用的检索流程
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414173436869.png)
+
+## 2 Query预处理
+
+### 2.1 意图识别
+
+判断query问的是什么类型的问题，从而决定是否走RAG链路。
+
+示例1：
+
+- 深圳有什么好玩的 闲聊问题
+- VDB支持哪些检索算法 产品常见问题
+
+示例2：
+
+- 为什么某个MongoDB实例内存占用过高 检查类问题
+- 云Redis如何扩容 产品常见问题
+
+#### 流程图
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414174957382.png)
+
+### 2.2 生成同义query
+
+针对query生成同义句，不同问法提高召回，检索结果做合并。
+
+示例1：**VDB支持哪些检索算法**
+
+- 列举一下VDB所支持的检索算法
+- VDB有哪些可用的检索算法
+
+示例2： **腾讯云向量数据库的优势是什么**
+
+- 腾讯云向量数据库有哪些主要优点
+- 腾讯云向量数据库的核心竞争力是什么
+
+#### 流程图
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414175138044.png)
+
+### 2.3 query标准化
+
+针对query中的专有名词、简写、英文做标准化处理。
+
+示例1：VDB支持哪些检索算法
+
+腾讯云向量数据库支持哪些检索算法
+
+示例2：COS如何上传对象
+
+腾讯云对象存储如何上传对象
+
+#### 流程图
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414175519594.png)
+
+## 3 检索召回
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414175607157.png)
+
+每次召回时，如何提升结果的排序效果，使与Query更相关的结果更靠前？
+
+1. **使用更有效的索引技术**：使用更高级的索引技术如倒排索引、压缩倒排索引等可以加速检索过程并提高结果的相关性。这些技术可以使得相似的文档在索引中更靠近，从而使得相关的结果更容易被召回。
+2. **优化检索模型**：使用适合任务的检索模型如BM25、BERT等，这些模型可以更好地捕捉文档之间的语义和相关性，从而提升召回结果的质量。
+3. **利用用户反馈**：收集用户的点击、浏览、收藏等行为反馈信息，通过机器学习算法不断优化排序模型，使得更符合用户兴趣的结果更容易被召回并排在前面。
+4. **引入上下文信息**：考虑查询的上下文信息，比如用户的地理位置、设备信息、搜索历史等，可以更好地理解用户意图，提升召回结果的相关性。
+5. **使用深度学习技术**：利用深度学习技术如卷积神经网络、循环神经网络等，可以更好地学习文档之间的语义关系，从而提高结果的排序效果。
+6. **结合多种特征**：结合文本特征、结构特征、用户特征等多种特征进行综合排序，可以更全面地考虑到文档与查询之间的相关性。
+
+综合运用以上方法，可以在召回阶段有效提升结果排序效果，使得与Query更相关的结果更靠前。
+
+Query预处理中，做了生成同义Query，最终应该如何合并检索结果？
+
+1. **加权融合**：给每个查询生成的同义Query分配一个权重，并根据权重对检索结果进行加权融合。权重可以根据同义Query的相似性、生成方法的可靠性等因素来确定。
+2. **组合排序**：将原始查询和同义查询的检索结果分别进行排序，然后将两个排序结果进行组合排序。可以根据不同的排序方法（如TF-IDF、BM25等）来进行组合排序，也可以采用机器学习模型进行组合排序。
+3. **基于规则的合并**：制定一些规则来合并检索结果，例如保留两个查询中都包含的结果、去除重复的结果等。这种方法比较简单直接，但需要根据具体场景制定合适的规则。
+4. **交叉验证**：将生成的同义Query和原始Query分别用于检索，并根据评估指标（如准确率、召回率等）来选择最优的检索结果。可以通过交叉验证或者在线评估来验证合并结果的效果。
+5. **利用用户反馈**：收集用户对不同查询结果的反馈信息，根据反馈信息调整查询结果的排序和合并策略，使得更符合用户需求的结果更容易被展示在前面。
+
+无论采用哪种方法，都需要结合具体的业务需求和数据特点来选择合适的合并检索结果的策略，以确保最终展示给用户的结果具有更高的相关性和质量。
+
+如何在召回阶段，将召回的结果效果做得更优质，减少干扰信息对LLM的影响？
+
+1. **使用更精准的召回模型**：使用更高效和精准的召回模型，如基于BERT、RoBERTa等预训练语言模型的语义匹配模型，能够更好地捕捉文本之间的语义关系，减少不相关文档的召回。
+2. **利用领域知识和规则过滤**：结合领域知识和规则，对召回结果进行过滤和筛选，去除明显不相关或低质量的文档。例如，可以使用领域词典、实体识别等技术进行过滤。
+3. **考虑上下文信息**：在召回阶段考虑用户的上下文信息，如搜索历史、用户兴趣等，通过个性化的方式调整召回结果，提高相关性。
+4. **引入负采样**：在训练召回模型时引入负采样技术，增加负样本的多样性和难度，使得模型更好地区分干扰信息和相关信息。
+5. **加入用户反馈机制**：收集用户对召回结果的反馈信息，如点击、滑动、停留时间等，根据反馈信息调整召回模型和排序策略，提高用户满意度和相关性。
+6. **优化评估指标**：在评估召回结果时，不仅要关注传统的准确率、召回率等指标，还要考虑到与LLM输入的匹配度、语义相似度等指标，以更全面地评估召回结果的质量。
+
+通过综合利用以上方法，在召回阶段可以更有效地优化召回结果，减少干扰信息对LLM的影响，提高模型的性能和效果。
+
+## 4 排序
+
+### 4.1 为啥要排序（Rerank）
+
+Rerank：RAG中百尺竿头更进一步
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414180259423.png)
+
+**Embedding模型存在一定的局限性**：实际召回结果中，embedding没办法完全反应出语义的相似性，至少这K个文件的排名并不是我们认为的从高分到低分排序的。
+
+
+
+排序模型的目的在于对召回内容有一个更合理的排序结果，减少提供给模型的上下文长度，长度越长，对模型来说压力越大。
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414180419790.png)
+
+基于Learning2Rank的思路提升文本语义排序效果：
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414180449705.png)
+
+### Listwise的优化
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414180547671.png)
+
+指示函数做近似：
+
+![image-20240414180613515](/Users/javaedge/Downloads/IDEAProjects/java-edge-master/assets/image-20240414180613515.png)
+
+最终loss function：
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414181059672.png)
+
+
+
+![](https://javaedge-1256172393.cos.ap-shanghai.myqcloud.com/image-20240414181113460.png)

Original file line number	Diff line number	Diff line change
`@@ -1161,6 +1161,9 @@ module.exports = {`
`1161`	`1161`	`children: [`
`1162`	`1162`	`"00-为什么要学习大模型",`
`1163`	`1163`	`"00-“消灭”LLM幻觉的利器 - RAG介绍",`
	`1164`	`+ "01-RAG应用框架和解析器",`
	`1165`	`+ "02-相似性检索的关键 - Embedding",`
	`1166`	`+ "03-RAG的核心 -结果召回和重排序",`
`1164`	`1167`	`]`
`1165`	`1168`	`},`
`1166`	`1169`