|
1 | 1 | ## ERNIE: **E**nhanced **R**epresentation from k**N**owledge **I**nt**E**gration |
2 | 2 |
|
3 | | -*ERNIE* 通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于 *BERT* 学习局部语言共现的语义表示,*ERNIE* 直接对语义知识进行建模,增强了模型语义表示能力。 |
| 3 | +**ERNIE** 通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于 **BERT** 学习局部语言共现的语义表示,**ERNIE** 直接对语义知识进行建模,增强了模型语义表示能力。 |
4 | 4 |
|
5 | 5 | 这里我们举个例子: |
6 | 6 |
|
7 | 7 | ```Learnt by BERT :哈 [mask] 滨是 [mask] 龙江的省会,[mask] 际冰 [mask] 文化名城。``` |
8 | 8 |
|
9 | 9 | ```Learnt by ERNIE:[mask] [mask] [mask] 是黑龙江的省会,国际 [mask] [mask] 文化名城。``` |
10 | 10 |
|
11 | | -在 *BERT* 模型中,我们通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习与『哈尔滨』相关的任何知识。而 *ERNIE* 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是 『黑龙江』的省会以及『哈尔滨』是个冰雪城市。 |
| 11 | +在 **BERT** 模型中,我们通过『哈』与『滨』的局部共现,即可判断出『尔』字,模型没有学习与『哈尔滨』相关的任何知识。而 **ERNIE** 通过学习词与实体的表达,使模型能够建模出『哈尔滨』与『黑龙江』的关系,学到『哈尔滨』是 『黑龙江』的省会以及『哈尔滨』是个冰雪城市。 |
12 | 12 |
|
13 | | -训练数据方面,除百科类、资讯类中文语料外,*ERNIE* 还引入了论坛对话类数据,利用 **DLM**(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,进一步提升模型的语义表示能力。 |
| 13 | +训练数据方面,除百科类、资讯类中文语料外,**ERNIE** 还引入了论坛对话类数据,利用 **DLM**(Dialogue Language Model)建模 Query-Response 对话结构,将对话 Pair 对作为输入,引入 Dialogue Embedding 标识对话的角色,利用 Dialogue Response Loss 学习对话的隐式关系,进一步提升模型的语义表示能力。 |
14 | 14 |
|
15 | | -我们在自然语言推断,语义相似度,命名实体识别,情感分析,问答匹配 5 个公开的中文数据集合上进行了效果验证,*ERNIE* 模型相较 *BERT* 取得了更好的效果。 |
| 15 | +我们在自然语言推断,语义相似度,命名实体识别,情感分析,问答匹配 5 个公开的中文数据集合上进行了效果验证,**ERNIE** 模型相较 **BERT** 取得了更好的效果。 |
16 | 16 |
|
17 | 17 | <table> |
18 | 18 | <tbody> |
@@ -136,13 +136,13 @@ XNLI 由 Facebook 和纽约大学的研究者联合构建,旨在评测模型 |
136 | 136 | - **语义相似度** LCQMC |
137 | 137 |
|
138 | 138 | ```text |
139 | | -LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问答匹配数据集其目标是判断两个问题的语义是否相同。[链接: http://aclweb.org/anthology/C18-1166] |
| 139 | +LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问答匹配数据集,其目标是判断两个问题的语义是否相同。[链接: http://aclweb.org/anthology/C18-1166] |
140 | 140 | ``` |
141 | 141 |
|
142 | 142 | - **命名实体识别任务** MSRA-NER |
143 | 143 |
|
144 | 144 | ```text |
145 | | -MSRA-NER 数据集由微软亚研院发布,其目标是命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名等。[链接: http://sighan.cs.uchicago.edu/bakeoff2005/] |
| 145 | +MSRA-NER 数据集由微软亚研院发布,其目标是命名实体识别,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名等。 |
146 | 146 | ``` |
147 | 147 |
|
148 | 148 | - **情感分析任务** ChnSentiCorp |
@@ -193,9 +193,9 @@ epoch: 1, progress: 1/1, step: 50, loss: 10.360563, ppl: 16398.287109, next_sent |
193 | 193 | ``` |
194 | 194 | 如果用自定义的真实数据进行训练,请参照[`script/pretrain.sh`](./script/pretrain.sh)脚本对参数做相应修改。 |
195 | 195 |
|
196 | | -### Finetune 任务 |
| 196 | +### Fine-tuning 任务 |
197 | 197 |
|
198 | | -在完成 ERNIE 模型的预训练后,即可利用预训练参数在特定的 NLP 任务上做 Fine-tuning。以下基于 ERNIE 的预训练模型,示例如何进行分类任务和序列标注任务的 Fine-tuning,如果要运行这些任务,请通过 [模型&数据](#模型&数据) 一节提供的链接预先下载好对应的预训练模型。 |
| 198 | +在完成 ERNIE 模型的预训练后,即可利用预训练参数在特定的 NLP 任务上做 Fine-tuning。以下基于 ERNIE 的预训练模型,示例如何进行分类任务和序列标注任务的 Fine-tuning,如果要运行这些任务,请通过 [模型&数据](#模型-数据) 一节提供的链接预先下载好对应的预训练模型。 |
199 | 199 |
|
200 | 200 | 将下载的模型解压到 `${MODEL_PATH}` 路径下,`${MODEL_PATH}` 路径下包含模型参数目录 `params`; |
201 | 201 |
|
|
0 commit comments