🎈 Trie study

fengyuan-liang · fengyuan-liang · commit 2b48a043ef41 · 2023-06-25T22:22:53.000+08:00
diff --git a/AlgorithmAndDataStructure/15-哈夫曼编码.md b/AlgorithmAndDataStructure/15-哈夫曼编码.md
@@ -0,0 +1,205 @@
+# 哈弗曼编码
+
+## 1. 哈夫曼编码（Huffman Coding）
+
+>哈夫曼编码，又称为霍夫曼编码，它是现代压缩算法的基础
+
+问题引入：假设要把字符串`【ABBBCCCCCCCCDDDDDDEE】`转成二进制编码进行传输，怎么办？
+
+可以转成ASCII编码（65~69，1000001~1000101），但是有点冗长，如果希望编码更短呢？
+
+可以先约定5个字母对应的二进制
+
+| A    | B    | C    | D    | E    |
+| ---- | ---- | ---- | ---- | ---- |
+| 000  | 001  | 010  | 011  | 100  |
+
+- 对应的二进制编码：`000`**001001001**`010010010010010010010010`**011011011011011011**100100
+- 一共20个字母，转成了60个二进制位
+
+>如果我们不按照固定位数进行编码，压缩效率会更高。但是这样会存在一些问题，比如有些字母的二进制位可能是其他编码的`前缀`，在解析的时候会存在问题
+
+如果使用哈夫曼编码，可以压缩至41个二进制位，约为原来长度的`68.3%`
+
+先计算出每个字母的出现频率（权值，这里直接用出现次数），`【ABBBCCCCCCCCDDDDDDEE】`
+
+| A    | B    | C    | D    | E    |
+| ---- | ---- | ---- | ---- | ---- |
+| 1    | 3    | 8    | 6    | 2    |
+
+利用这些权值，构建一棵哈夫曼树（又称为霍夫曼树、最优二叉树）
+
+>那么如何构建一棵哈夫曼树呢？（假设有n个权值）
+>
+>1. 以权值作为根节点构建 n 棵二叉树，组成森林
+>2. 在森林中选出 2 个根节点最小的树合并，作为一棵新树的左右子树，且新树的根节点为其左右子树根节点之和
+>3. 从森林中删除刚才选取的 2 棵树，并将新树加入森林
+>4. 重复 2、3 步骤，直到森林只剩一棵树为止，该树即为哈夫曼树
+
+## 1.2 编码实例
+
+我们对上面出现的字母进行哈夫曼树构建
+
+1. 首先组成森林
+
+   ![image-20230623120106971](https://cdn.fengxianhub.top/resources-master/202306231201286.png)
+
+2. 找到两个根结点最小的树`A、E`，组成一棵新树，新树根结点的值为`1 + 2 = 3`
+
+   ![image-20230623124928576](https://cdn.fengxianhub.top/resources-master/202306231249769.png)
+
+3. 以此类推
+
+   ![image-20230623125244098](https://cdn.fengxianhub.top/resources-master/202306231252208.png)
+
+   ![image-20230623125311624](https://cdn.fengxianhub.top/resources-master/202306231253737.png)
+
+接下来构建哈夫曼编码
+
+![image-20230623131123481](https://cdn.fengxianhub.top/resources-master/202306231311620.png)
+
+通过哈夫曼编码的编码有以下特点：
+
+- 出现次数比较多的字母，会用较少bit位来表示
+- 任意一个字母的编码都不会是其他字母编码的前缀，这个特点让解码时不会出现歧义
+
+总结：
+
+- n个权值构建出现的哈夫曼树拥有`n`个叶子结点
+- 每个哈夫曼编码都不是其他哈弗曼编码的前缀（因为我们要编码的结点都是`叶子结点`，而我们的编码其实是根结点到叶子节点的具体路径，**当然不会产生冲突**）
+- 哈夫曼树是`带权路径长度最短的树`，**权值较大的结点离根节点较近**
+- 带权路径长度：树中所有的叶子结点的权值乘上其到根结点的路径长度。**与最终的哈夫曼编码长度成正比关系**
+
+## 1.3 实现哈弗曼编码
+
+```java
+package com.fx.huffman;
+
+import java.util.Comparator;
+import java.util.HashMap;
+import java.util.PriorityQueue;
+import java.util.Scanner;
+
+/**
+ * 哈夫曼编码
+ *
+ * @author eureka
+ * @since 2023/6/23 13:29
+ */
+
+class HuffmanNode {
+    int data;
+    char c;
+    HuffmanNode left;
+    HuffmanNode right;
+}
+
+class MyComparator implements Comparator<HuffmanNode> {
+    public int compare(HuffmanNode x, HuffmanNode y) {
+        return x.data - y.data;
+    }
+}
+
+public class Huffman {
+
+    public static void printCode(HuffmanNode root, String s) {
+        if (root.left == null && root.right == null && Character.isLetter(root.c)) {
+            System.out.println(root.c + ":" + s);
+            return;
+        }
+        assert root.left != null;
+        printCode(root.left, s + "0");
+        printCode(root.right, s + "1");
+    }
+
+    public static void main(String[] args) {
+        Scanner sc = new Scanner(System.in);
+
+        System.out.print("Enter the input string: ");
+        String inputString = sc.nextLine();
+
+        HashMap<Character, Integer> freqMap = new HashMap<>();
+
+        for (int i = 0; i < inputString.length(); i++) {
+            char c = inputString.charAt(i);
+            if (Character.isLetter(c)) {
+                freqMap.put(c, freqMap.getOrDefault(c, 0) + 1);
+            }
+        }
+
+        PriorityQueue<HuffmanNode> pq
+                = new PriorityQueue<>(new MyComparator());
+
+        for (char c : freqMap.keySet()) {
+            HuffmanNode hn = new HuffmanNode();
+            hn.c = c;
+            hn.data = freqMap.get(c);
+            hn.left = null;
+            hn.right = null;
+            pq.add(hn);
+        }
+
+        while (pq.size() > 1) {
+
+            HuffmanNode x = pq.peek();
+            pq.poll();
+
+            HuffmanNode y = pq.peek();
+            pq.poll();
+
+            HuffmanNode f = new HuffmanNode();
+            f.data = x.data + y.data;
+            f.c = '-';
+            f.left = x;
+            f.right = y;
+            pq.add(f);
+        }
+
+        HuffmanNode root = pq.peek();
+
+        printCode(root, "");
+    }
+}
+```
+
+测试
+
+```java
+Enter the input string: aaaaabbbbccd
+a:0
+d:100
+c:101
+b:11
+    
+Enter the input string: ABBBCCCCCCCCDDDDDDEE
+C:0
+D:10
+B:110
+A:1110
+E:1111
+```
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
diff --git a/AlgorithmAndDataStructure/16-Trie前缀树.md b/AlgorithmAndDataStructure/16-Trie前缀树.md
@@ -0,0 +1,75 @@
+# Trie前缀树
+
+>我们现在有个需求，如何判断一堆不重复的字符串是否以某个前缀开头
+>
+>可以用`Set/Map`存储字符串（保证字符串不重复）
+>
+>- 遍历所有的字符串进行判断
+>- 时间复杂度`O(n)`
+
+有没有更优的数据结构来实现前缀搜索呢？
+
+我们可以使用`Trie前缀树`
+
+## 1. Trie前缀树
+
+>- Trie也叫字典树、前缀树（prefix Tree）、单词查找树
+>- Trie搜索字符串的效率主要跟**字符串的长度**有关
+>
+>假设使用`Trie`存储cat、dog、doggy、does、cast、add六个单词
+>
+>![image-20230623171950532](https://cdn.fengxianhub.top/resources-master/202306231719742.png)
+
+## 2. 接口设计
+
+```java
+// 接口设计1
+int size();
+boolean isEmpty();
+void clear();
+boolean contains(String str);
+void add(String str);
+void remove(String str);
+boolean starsWith(String prefix);
+// 接口设计2
+int size();
+boolean isEmpty();
+void clear();
+boolean contains(String str);
+V add(String str, V value);
+V remove(String str);
+boolean starsWith(String prefix);
+```
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
diff --git a/README.md b/README.md
@@ -108,7 +108,7 @@
 
 **树**
 
-[二叉树](/AlgorithmAndDataStructure/4-二叉树.md)     |   [二叉树搜索树](/AlgorithmAndDataStructure/5-二叉树搜索树.md)    |  [AVL树](/AlgorithmAndDataStructure/6-AVL树.md)  |    [B树](/AlgorithmAndDataStructure/7-B树.md)   |    [红黑树](/AlgorithmAndDataStructure/8-红黑树.md)           
+[二叉树](/AlgorithmAndDataStructure/4-二叉树.md)     |   [二叉树搜索树](/AlgorithmAndDataStructure/5-二叉树搜索树.md)    |  [AVL树](/AlgorithmAndDataStructure/6-AVL树.md)  |    [B树](/AlgorithmAndDataStructure/7-B树.md)   |    [红黑树](/AlgorithmAndDataStructure/8-红黑树.md)   |    [Trie前缀树](/AlgorithmAndDataStructure/16-Trie前缀树.md)
 
 **字典**
 
@@ -122,6 +122,10 @@
 
 [二叉堆](/AlgorithmAndDataStructure/13-二叉堆.md) | [优先级队列](/AlgorithmAndDataStructure/14-优先级队列.md) 
 
+**编解码**
+
+[哈夫曼编码](/AlgorithmAndDataStructure/15-哈夫曼编码.md) 
+
 ## 🎈 大数据
 
 [MapReduce基本使用](/大数据/hadoop/2-MapReduce/5-MapReduce学习.md)    |    [MapReduce原理剖析](/大数据/hadoop/2-MapReduce/6-MapReduce原理剖析.md)   |    [yarn学习](/大数据/hadoop/3-yarn/yarn学习.md)      
diff --git a/项目/爱心雨伞/爱心雨伞.md b/项目/爱心雨伞/爱心雨伞.md
@@ -16,7 +16,7 @@ SpringCloud版本：
 
 技术栈
 
-<img src="https://cdn.fengxianhub.top/resources-master/202207010821960.png" alt="爱心雨伞微服务版" style="zoom: 8%;" />
+![爱心雨伞微服务版](https://cdn.fengxianhub.top/resources-master/202207010821960.png)
 
 集群规划：