【论文笔记】《基于深度学习的中文命名实体识别研究》阅读笔记

作者及其单位:北京邮电大学,张俊遥,2019年6月,硕士论文

摘要

实验数据:来源于网络公开的新闻文本数据;用随机欠采样和过采样的方法解决分类不均衡问题;使用BIO格式的标签识别5类命名实体,标注11种标签。

学习模型:基于RNN-CRF框架,提出Bi-GRU-Attention模型;基于改进的ELMo可移植模型。

一,绪论

1,研究背景及意义

研究背景主要介绍的是时代背景及NER的应用领域。

2,研究现状

1)基于规则和词典的方法;

2)基于统计的方法:语言的N元模型,隐马尔科夫模型,最大熵模型,条件随机场,支持向量机,决策树,基于转换的学习方法;

3)基于深度学习的方法:基于双向循环神经网络与条件随机场结合的框架;基于标签转移与窗口滑动的方法;注意力机制(Attention);

4)基于迁移学习的方法。

面临挑战:

1)中文命名实体界限难划分;

2)中文命名实体结构更多样复杂;

3)中文命名实体分类标准不同,划分标注结果不同。

3,研究内容

1)数据集收集与预处理;

2)基于双向循环神经网络与条件随机场模型的研究;

3)基于ELMo的可移植模型研究。

二,相关技术

1,基于循环神经网络方法的技术

1)神经单元结构:循环是指一个神经单元的计算是按照时间顺序展开依次进行的过程。具有记忆特征,常用来处理与序列相关的问题。

2)循环神经网络的发展:LSTM取代CNN,主要是解决CNN单元的反向传播的计算问题。

3)深层网络搭建:Dropout常被用作防止模型过拟合,减少网络冗余度,增加模型鲁棒性;批量归一化策略是批量梯度下降算法过程的一项操作;clip是一种有效控制梯度爆炸的算法。

4)目标函数,即损失函数,衡量经过模型计算的预测结果和事实上的结果之间的差距。如:平方差,交叉熵,softmax

5)注意力机制:论文研究了在LSTM中引入注意力机制。

6)Adam优化算法:适合解决梯度稀疏或噪音较高的优化问题。

2,基于迁移学习方法的技术

1)基本思想:

(1)预训练的两种基本思路:

a)基于共同表示形式的思路:电子文本大多以某种向量形式(词,句,段,文本)表示输入到网络中,如ELMo模型。

b)基于网络微调的思想:借鉴机器视觉领域的模型思想,在预训练好的模型上加入针对任务的功能层,在对后几层进行结构和参数设置的精调。

2)语言模型:双向语言模型

3)词向量技术:One-hot向量,稀疏向量和稠密向量。

(1)基于统计的方法

a)基于共现矩阵的方法:在设定的窗口大小内,统计了一个句子中词语前后相邻出现的次数,使用这个次数构成的向量当作词向量,这个向量比较稀疏。

b)奇异值分解的方法:可以看作一种降维过程,把稀疏矩阵压缩为稠密矩阵的过程。

(2)基于语言模型的方法:

a)跳字模型(skip-gram):使用一个词来预测上下文词语;

b)连续词袋模型(CBOW):使用周围词语预测中心词;

c)ELMo模型:词向量表达过程是动态的,即一词多义下的词向量完全不同。

4)混淆矩阵:数据科学,数据分析和机器学习中统计分类的实际结果和预测结果的表格表示。

三,命名实体识别任务与数据集

1,命名实体识别任务

1)定义:命名实体识别属于序列标注类问题,分为三大类(实体类,数量类,时间类),七小类(人名,地名,组织名,日期,时间,货币或者百分比)。

2)任务过程:准确划分出命名实体的边界,并将命名实体进行正确的分类。

3)判别标准:(1)准确划分出命名实体的边界;(2)命名实体的标注分类正确;(3)命名实体内部位置标注有序。

2,数据集收集与处理

1)数据源:本论文数据来源于搜狗实验室公开的2012年6月到7月期间的国内外国际、体育、社会、娱乐等18类新闻文本。

2)数据处理:jieba+盘古工具,本文研究NER分为五类:人名(58136),地名(87412),机构名(5142),时间(75491),数量(148392)。数据集(句子个数)分:训练集(197828),验证集(8994),测试集(3485)。

四,基于改进的神经网络与注意力机制结合的研究

1,RNN-CRF框架

1)框架结构:以Bi-LSTM-CRF模型为例,包括字嵌入层(字量化表示,输入到神经网络),Bi-LSTM神经网络层(双向网络记录了上下文信息,据此共同训练计算当前的字的新向量表示,其输出字或词的向量维度与神经单元数量有关),CRF层(进行进一步标签顺序的规则学习)。

2)模型原理:将输入的语句转换为词向量,然后输入到LSTM网络计算,接着在CRF层中计算输出标签,根据定义的目标函数计算损失,使用梯度下降等算法更新模型中的参数。

2,改进与设计

1)改进的思想与结构设计:改进思路就是简化神经单元结构,本文使用双向的GRU结构代替LSTM单元结构,使用神经网络与注意力机制结合。

2)改进的模型设计

3,实验与分析

1)实验思路是以Bi-LSTM-CRF为基础,并进行网络优化,对比本文提出的Bi-GRU-Attention模型。

实验一:Bi-LSTM网络参数

参数名称 数值
batch_size 20
max_num_steps 20
优化器 Admin
初始学习率 0.001
衰减率 0.8
clip 5
one-hot_dim 11

实验二:GRU-Attention模型实验参数

参数 数值
batch_size 20
char_dim 100
max_num_steps 20
神经单元数 128
优化器 Adam
初始学习率 0.001
衰减率 0.8
one-hot_dim 11
epoch 100

实验结果如下:

分类/F1/模型 Bi-LSTM-CRF Bi-LSTM-Attention Bi-GRU-CRF Bi-GRU-Attention
人名 82.32% 82.45% 82.22% 82.42%
地名 89.97% 90.19% 89.93% 91.06%
机构名 91.94% 91.96% 91.94% 91.95%
数量 94.98% 95.06% 95.01% 95.26%
时间 96.05% 96.14% 96.06% 96.14%

五,基于ELMo的可移植模型研究

1,改进的ELMo模型设计

ELMo模型在2018年由Peter提出,Peter团队使用双层的循环神经网络实现模型的预先训练。本章基于PeterELMo模型设计,提出了直通结构,实现词向量的提前训练模型。

1)模型原理:Peters使用CNN-BIG-LSTM网络实现模型,使用卷积神经网络实现字符编码,使用两层双向循环神经网络实现词向量的训练模型。

2)改进与设计:本文使用改进的ELMo预先训练模型包含输入层,卷积神经网络7层,双向神经网络2层,输出层结构。

2,基于ELMo的嵌入式模型设计

1)连接结构:在模型嵌入的衔接层中,本文使用维度映射的方法,将不同维度的输入输出维度进行统一。

2)模型设计:本文的嵌入ELMo模型,包含ELMo层,衔接层,神经网络层,注意力层和输出调整层结构。

3,实验

实验参数配置如下:

1)ELMo模型实验参数

参数名称 数值
word_dim 100
char_dim 50
activation ReLU
每层神经单元数目 512
优化器 Adam
初始学习率 0.001
lr_decay 0.8
clip 3

2)卷积神经网络参数

卷积层 输出词向量维度 过滤器个数
conv1 32 32
conv2 32 32
conv3 64 64
conv4 128 128
conv5 256 256
conv6 512 512
conv7 1024 1024

3)移植模型实验参数

参数名称 数值
batch_size 20
char_dim 100
max_num_steps 20
神经单元数 128
优化器 Adam
初始化学习率 0.001
clip 5
dropout 0.1
one-hot_dim 11
epoch 100

实验结果对比:

分类/F1/模型 Bi-LSTM-CRF Bi-GRU-Attention 改进的ELMo嵌入模型
人名 82.32% 82.42% 83.14%
地名 89.97% 91.06% 92.36%
机构名 91.94% 91.95% 93.02%
数量 94.98% 95.26% 96.13%
时间 96.05% 96.14% 96.55%

六,总结与展望

1,总结

本文主要研究了基于深度学习的中文命名实体识别任务,提出了Bi-GRU-Attention模型减少训练时间,提升模型准确率;提出了基于改进的ELMo可移植模型,用于应对少量数据集和快速移植不同场景的问题。

2,不足与发展趋势

1)公开的权威的中文文本数据集不足;

2)可以划分更细的领域或分类,分别涉及分类器;

3)基于迁移学习的多任务模型研究是热点。

阅读心得:绪论内容相对详细,结构中规中矩,美中不足缺乏对研究对象现状的介绍,国内外研究现状,要解决的问题以及达到的预期效果未尽阐述。技术要点论述详尽,本文设计实验充分且多角度论证,扩展实验与改进设计也具有一定创新性。通过本篇论文研究学习,在NER领域收获颇多,很多知识有待弥补,如ELMo模型,迁移学习方面需要加强学习。

坚持原创技术分享,您的支持将鼓励我继续创作!