docs:新增文档

Java-Edge · Java-Edge · commit 9b4975cb645c · 2024-06-09T21:38:16.000+08:00
diff --git a/docs/.vuepress/config.js b/docs/.vuepress/config.js
@@ -1323,6 +1323,7 @@ module.exports = {
                             children: [
                                 "Claude3到底多强",
                                 "GPTs推荐",
+                                "ChatGPT为啥不用Websocket而是EventSource？",
                             ]
                         },
                         {
@@ -1346,7 +1347,7 @@ module.exports = {
                                 "03-为啥LLM还没能完全替代你？",
                                 "04-产业拆解",
                                 "05-应用级开发者 AI 时代破局点",
-                                "06-智能体(agent)命理大师虚拟项目",
+                                "06-智能体项目案例",
                             ]
                         },
                         {
@@ -1359,6 +1360,8 @@ module.exports = {
                                 "02-LangChain实战：用prompts模板调教LLM的输入出",
                                 "03-示例选择器",
                                 "04-LLMs和Chat Models",
+                                "05-Loader机制",
+                                "06-文档转换实战",
                             ]
                         },
                         {
@@ -1396,6 +1399,7 @@ module.exports = {
                                 "模板方法设计模式（Template Pattern）",
                                 "策略模式Strategy Pattern",
                                 "建造者模式",
+                                "代理模式Proxy Pattern",
                             ]
                         },
                     ],
diff --git a/docs/md/AI/05-Loader机制.md b/docs/md/AI/05-Loader机制.md
@@ -0,0 +1,150 @@
+#  05-Loader机制
+
+loader机制让大模型具备实时学习的能力：
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/cbf5df8cd1b29adecec27fc658f7f3fd.png)
+
+## 0 Loader机制
+
+案例环境准备：
+
+```python
+import os
+
+os.environ["OPENAI_API_KEY"] = "sk-javaedge"
+os.environ["OPENAI_PROXY"] = "https://api.chatanywhere.tech"
+
+
+import os
+from dotenv import load_dotenv
+# Load environment variables from openai.env file
+load_dotenv("openai.env")
+
+# Read the OPENAI_API_KEY from the environment
+api_key = os.getenv("OPENAI_API_KEY")
+api_base = os.getenv("OPENAI_API_BASE")
+os.environ["OPENAI_API_KEY"] = api_key
+os.environ["OPENAI_API_BASE"] = api_base
+```
+
+## 1 加载markdown
+
+准备一个 md 文件：
+
+```markdown
+# 我是一个markdown加载示例
+- 第一项目
+- 第二个项目
+- 第三个项目
+
+## 第一个项目
+编程严选网，最厉害专业的AI研究基地
+
+## 第二个项目
+AIGC打造未来AI应用天地
+
+## 第三个项目
+编程严选网是一个非常牛逼的AI媒体
+```
+
+```python
+#使用loader来加载markdown文本
+from langchain.document_loaders import TextLoader
+
+loader = TextLoader("loader.md")
+loader.load()
+```
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/afda3b9852f22f5db86ae87d4596f409.png)
+
+## 2 加载cvs
+
+```csv
+Project,DES,Price,People,Location
+AI GC培训,培训课程,500,100,北京
+AI工程师认证,微软AI认证,6000,200,西安
+AI应用大会,AI应用创新大会,200门票,300,深圳
+AI 应用咨询服务,AI与场景结合,1000/小时,50,香港
+AI项目可研,可行性报告,20000,60,上海
+```
+
+```python
+#使用 CSVLoader 来加载 csv 文件
+from langchain.document_loaders.csv_loader import CSVLoader
+
+#loader = Loader(file_path="loader.")
+loader = CSVLoader(file_path="loader.csv")
+data = loader.load()
+print(data)
+```
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/b73e5f8fc222172accbb969f244e34c8.png)
+
+## 3 加载html
+
+先下包：
+
+```python
+! pip install "unstructured[xlsx]"
+```
+
+加载文件目录
+
+```python
+from langchain.document_loaders import UnstructuredHTMLLoader
+
+loader = UnstructuredHTMLLoader("loader.html")
+data = loader.load()
+data
+```
+
+会加载 html 所有内容。
+
+```python
+from langchain.document_loaders import BSHTMLLoader
+loader = BSHTMLLoader("loader.html")
+data = loader.load()
+data
+```
+
+只加载去除标签后的关键内容：
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/c4bf9ca3d5fa7552b4d146074a3d2a3b.png)
+
+## 4 加载JSON
+
+先装 jq 包：
+
+```python
+ ! pip install jq
+```
+
+
+
+```python
+from langchain.document_loaders import JSONLoader
+loader = JSONLoader(
+    file_path = "simple_prompt.json",jq_schema=".template",text_content=True
+)
+data = loader.load()
+print(data)
+```
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/8dc7055c72a7d75008d45b9dcc395a1e.png)
+
+## 5 加载PDF
+
+先装包：
+
+```python
+! pip install pypdf
+```
+
+```python
+from langchain.document_loaders import PyPDFLoader
+loader = PyPDFLoader("loader.pdf")
+pages = loader.load_and_split()
+pages[0]
+```
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/fc1407f642d6549421f3c4cf10dbddc0.png)
diff --git a/docs/md/AI/06-文档转换实战.md b/docs/md/AI/06-文档转换实战.md
@@ -0,0 +1,175 @@
+# 06-文档转换实战
+
+##  1 文档切割器和按字符分割
+
+### 1.1 原理
+
+1. 将文档分成小的、有意义的块(句子).
+2. 将小的块组合成为一个更大的块，直到达到一定的大小.
+3. 一旦达到一定的大小，接着开始创建与下一个块重叠的部分.
+
+### 1.2 示例
+
+#### 第一个文档分割
+
+```python
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+
+#加载要切割的文档
+with open("test.txt") as f:
+    zuizhonghuanxiang = f.read()
+
+#初始化切割器
+text_splitter = RecursiveCharacterTextSplitter(
+    chunk_size=50,#切分的文本块大小，一般通过长度函数计算
+    chunk_overlap=20,#切分的文本块重叠大小，一般通过长度函数计算
+    length_function=len,#长度函数,也可以传递tokenize函数
+    add_start_index=True,#是否添加起始索引
+)
+
+text = text_splitter.create_documents([zuizhonghuanxiang])
+text[0]
+text[1]
+```
+
+#### 按字符切割
+
+```python
+from langchain.text_splitter import CharacterTextSplitter
+
+#加载要切分的文档
+with open("test.txt") as f:
+    zuizhonghuanxiang = f.read()
+
+#初始化切分器
+text_splitter = CharacterTextSplitter(
+    separator="。",#切割的标志字符，默认是\n\n
+    chunk_size=50,#切分的文本块大小，一般通过长度函数计算
+    chunk_overlap=20,#切分的文本块重叠大小，一般通过长度函数计算
+    length_function=len,#长度函数,也可以传递tokenize函数
+    add_start_index=True,#是否添加起始索引
+    is_separator_regex=False,#是否是正则表达式
+)
+text = text_splitter.create_documents([zuizhonghuanxiang])
+print(text[0])
+```
+
+
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/38130dccedf0a3a1791edf13b05ab4bc.png)
+
+## 2 代码文档分割器
+
+```python
+from langchain.text_splitter import (
+    RecursiveCharacterTextSplitter,
+    Language,
+)
+
+#支持解析的编程语言
+#[e.value for e in Language]
+
+#要切割的代码文档
+PYTHON_CODE = """
+def hello_world():
+    print("Hello, World!")
+#调用函数
+hello_world()
+"""
+py_spliter = RecursiveCharacterTextSplitter.from_language(
+    language=Language.PYTHON,
+    chunk_size=50,
+    chunk_overlap=10,
+)
+python_docs = py_spliter.create_documents([PYTHON_CODE])
+python_docs
+```
+
+## 3 按token分割文档
+
+```python
+from langchain.text_splitter import CharacterTextSplitter
+
+#要切割的文档
+with open("test.txt") as f:
+    zuizhonghuanxiang = f.read()
+
+#初始化切分器
+text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
+    chunk_size=4000,#切分的文本块大小，一般通过长度函数计算
+    chunk_overlap=30,#切分的文本块重叠大小，一般通过长度函数计算
+)
+
+text = text_splitter.create_documents([zuizhonghuanxiang])
+print(text[0])
+```
+
+
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/d4f2372aa6f8bf137c49ecfcd7c14e42.png)
+
+
+
+## 4 文档总结、精炼、翻译
+
+先装包：
+
+```python
+! pip install doctran==0.0.14
+```
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/b4296386a8f14c5b5d0257b5056e8d9b.png)
+
+先加载文档：
+
+```python
+with open("letter.txt") as f:
+    content = f.read()
+```
+
+```python
+from dotenv import load_dotenv
+import os
+load_dotenv("openai.env")
+OPENAI_API_KEY = os.environ.get("OPEN_API_KEY")
+OPENAI_API_BASE = os.environ.get("OPENAI_API_BASE")
+OPENAI_MODEL = "gpt-3.5-turbo-16k"
+OPENAI_TOKEN_LIMIT = 8000
+
+from doctran import Doctran
+doctrans = Doctran(
+    openai_api_key=OPENAI_API_KEY,
+    openai_model=OPENAI_MODEL,
+    openai_token_limit=OPENAI_TOKEN_LIMIT,
+)
+documents = doctrans.parse(content=content)
+```
+
+### 4.1 总结
+
+```python
+summary = documents.summarize(token_limit=100).execute()
+print(summary.transformed_content)
+```
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/25f938b757391d3193f7d905f1f9903f.png)
+
+### 4.2 翻译
+
+```python
+translation = documents.translate(language="chinese").execute()
+print(translation.transformed_content)
+```
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/348287dc54a058c2373bf61b6b4fc0dd.png)
+
+### 4.3 精炼
+
+删除除了某个主题或关键词之外的内容，仅保留与主题相关的内容
+
+```python
+refined = documents.refine(topics=["marketing","Development"]).execute()
+print(refined.transformed_content)
+```
+
+![](https://my-img.javaedge.com.cn/javaedge-blog/2024/06/4ca5b18bc96b5a497f08acdc6380ac9a.png)
diff --git a/docs/md/AI/06-智能体项目案例.md b/docs/md/AI/06-智能体项目案例.md
@@ -1,4 +1,4 @@
-# 06-智能体(agent)命理大师虚拟项目
+# 06-智能体项目案例
 
 需求分析、技术选型、技术分解
 
diff --git a/docs/md/AI/ChatGPT为啥不用Websocket而是EventSource？.md b/docs/md/AI/ChatGPT为啥不用Websocket而是EventSource？.md
diff --git a/docs/md/design/代理模式Proxy Pattern.md b/docs/md/design/代理模式Proxy Pattern.md

Original file line number	Diff line number	Diff line change
`@@ -1323,6 +1323,7 @@ module.exports = {`
`1323`	`1323`	`children: [`
`1324`	`1324`	`"Claude3到底多强",`
`1325`	`1325`	`"GPTs推荐",`
	`1326`	`+ "ChatGPT为啥不用Websocket而是EventSource？",`
`1326`	`1327`	`]`
`1327`	`1328`	`},`
`1328`	`1329`	`{`
`@@ -1346,7 +1347,7 @@ module.exports = {`
`1346`	`1347`	`"03-为啥LLM还没能完全替代你？",`
`1347`	`1348`	`"04-产业拆解",`
`1348`	`1349`	`"05-应用级开发者 AI 时代破局点",`
`1349`		`- "06-智能体(agent)命理大师虚拟项目",`
	`1350`	`+ "06-智能体项目案例",`
`1350`	`1351`	`]`
`1351`	`1352`	`},`
`1352`	`1353`	`{`
`@@ -1359,6 +1360,8 @@ module.exports = {`
`1359`	`1360`	`"02-LangChain实战：用prompts模板调教LLM的输入出",`
`1360`	`1361`	`"03-示例选择器",`
`1361`	`1362`	`"04-LLMs和Chat Models",`
	`1363`	`+ "05-Loader机制",`
	`1364`	`+ "06-文档转换实战",`
`1362`	`1365`	`]`
`1363`	`1366`	`},`
`1364`	`1367`	`{`
`@@ -1396,6 +1399,7 @@ module.exports = {`
`1396`	`1399`	`"模板方法设计模式（Template Pattern）",`
`1397`	`1400`	`"策略模式Strategy Pattern",`
`1398`	`1401`	`"建造者模式",`
	`1402`	`+ "代理模式Proxy Pattern",`
`1399`	`1403`	`]`
`1400`	`1404`	`},`
`1401`	`1405`	`],`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-# 06-智能体(agent)命理大师虚拟项目`
	`1`	`+# 06-智能体项目案例`
`2`	`2`
`3`	`3`	`需求分析、技术选型、技术分解`
`4`	`4`