Deep Learning for NER Survey

Li, Jing, et al. "A survey on deep learning for named entity recognition." IEEE Transactions on Knowledge and Data Engineering 34.1 (2020): 50-70.

我们将深入研究深度学习技术在NER中的应用，以启发和指导该领域的研究人员和从业人员。
我们以表格形式整合了NER语料库，即现成的NER系统 (来自学术界和工业界)，为NER研究社区提供有用的资源。
我们提出了一种新的分类法，该分类法沿着三个轴系统地组织基于DL的NER方法: 输入的分布式表示，上下文编码器 (用于捕获标签解码器的上下文相关性) 和标签解码器 (用于预测给定序列中的单词标签)。
此外，我们还调查了在新的NER问题设置和应用程序中最近应用的深度学习技术的最具代表性的方法。
最后，我们向读者介绍了NER系统面临的挑战，并概述了该领域的未来方向。

英文简称	英文全称	中文
NER	Named Entity Recognition	命名实体识别
NE	Named Entity	命名实体
DL	Deep Learning	深度学习

背景

应用与NER的技术：

基于规则的方法，它们不需要带注释的数据，因为它们依赖于手工编制的规则；
无监督学习方法，依赖无监督算法，无需手动标记训练示例；
基于特征的监督学习方法，依赖于监督学习算法和仔细的特征工程；
基于深度学习的方法，自动从原始输入中以端到端的方式发现分类和/或检测所需的表示。我

什么是NER？

命名实体是一个单词或短语，可以从一组具有相似属性的其他项目中清楚地识别一个项目。

命名实体的示例是一般域中的组织、人员和位置名称；生物医学领域的基因、蛋白质、药物和疾病名称。

NER 是将文本中的命名实体定位和分类为预定义实体类别的过程。

例如给了一个序列\(s = <w_1,w_2,...,w_N>\)，NER是一个tuples \(<I_s,I_e,t>\)。

\(I_s,I_e\)分别表示这个NE的起始和结束的index

\(t\)代表这个NE属于哪一类

NER 评估指标

精确匹配评估

NER涉及到识别实体边界和实体类型：当使用”精确匹配评估“时，只有边界和类型都正确的时候才算识别正确。

真阳性(TP)：被NER识别并符合基本事实的实体。
假阳性(FP)：被NER识别但不符合基本事实的实体。
假阴性(FN)：在基本事实中注释的实体，未被NER识别。

Precision 衡量NER系统呈现正确实体的能力 \[ Precision = \frac{TP}{TP+FP} \] Recall 衡量NER系统识别语料库中所有实体的能力 \[ Recall = \frac{TP}{TP+FN} \] F-Score是Precision和Recall的调和平均值 \[ F-score = 2\times \frac{Precision \times Recall}{Precision + Recall} \] 由于大多数NER系统涉及多种实体类型，因此需要评估所有实体类的性能。目前有两种测量方法：

宏观平均F-score

独立计算每一个实体类型的F-score，最后去平均值（同等对待所有的实体类型）
微观平均F-score

聚合来自所有类的实体的贡献来计算平均值（平等对待所有实体），可能会受到大类实体识别质量的严重影响

宽松匹配评估

如果一个实体被分配了其正确的类型，不管其边界，只要与真实情况的边界冲得，就认为正确类型是可信的；无论实体的类型分配，都计入了正确的边界。

NER的传统方法

基于规则
无监督学习
基于特征的监督学习

基于规则

基于规则的 NER 系统依赖于手工制定的规则，可以根据特定领域的地名词典和句法词汇模式设计规则。

使用 Brill 规则推理方法进行语音输入：该系统根据 Brill 的词性标注器自动生成规则。
在生物医学领域，提出了 ProMiner，它利用预处理的同义词词典来识别生物医学文本中的蛋白质提及和潜在基因。
在电子健康记录中提出了一种基于字典的 NER 方法。实验结果表明，该方法提高了召回率，同时对精度的影响有限。

这些系统LaSIE-II, NetOwl, Facile, SAR, FASTUS, LTG主要是基于手工编制的语义和语法字典来识别实体。当字典非常详细时，基于规则的系统工作得很好；由于特定领域的规则和不完整的字典，系统通常有高精度和低召回率，并且无法转移到其他领域

无监督

无监督学习的一种典型方法是聚类。基于聚类的 NER 系统根据上下文相似性从聚类组中提取命名实体。关键思想是，在大型语料库上计算的词汇资源、词汇模式和统计数据可用于推断命名实体的提及。

柯林斯等人观察到，使用未标记数据将监督要求减少到仅 7 个简单的“种子”规则。然后，提出了两种用于命名实体分类的无监督算法。
KNOWITALL利用一组谓词名称作为输入，并从一小组通用提取模式中引导其识别过程
Nadeau 等人提出了一种用于地名录构建和命名实体歧义解决的无监督系统。该系统基于简单而高效的启发式方法结合了实体提取和消歧。
Zhang 和 Elhadad提出了一种从生物医学文本中提取命名实体的无监督方法。他们的模型不是监督，而是使用术语、语料库统计（例如，逆文档频率和上下文向量）和浅句法知识（例如，名词短语分块）

基于特征的监督学习

NER 被转换为多类分类或序列标记任务。给定带注释的数据样本，精心设计特征来表示每个训练示例。然后使用机器学习算法来学习一个模型，以从看不见的数据中识别出相似的模式。

特征向量表示的是对文本的抽象，其中一个词由一个或多个布尔值、数字或标称值表示。

许多机器学习算法已应用于监督 NER：

隐马尔可夫模型 (HMM)
决策树
最大熵模型
支持向量机 (SVM)
条件随机场 ((CRF)。

比克尔等人提出了第一个基于 HMM 的 NER 系统，名为 IdentiFinder，用于识别和分类名称、日期、时间表达式和数字量
Szarvas 等人使用 C4.5 决策树和 AdaBoostM1 学习算法开发了一个多语言 NER 系统。一个主要优点是它提供了一个机会，可以通过不同的特征子集训练几个独立的决策树分类器，然后通过多数投票方案组合它们的决策。
Borthwick 等人通过应用最大熵理论提出了“最大熵命名实体”（MENE）。 MENE 能够在做出标记决策时利用极其多样化的知识源。
McNamee和Mayfield训练SVM分类器。每个分类器都会做出二进制决定，当前令牌是否属于八个类之一，SVM在预测实体标签时不考虑 “相邻” 词；CRF考虑了上下文。
McCallum和Li提出了NER中CRFs的特征归纳法。
Krishnan和Manning提出了一种基于两个耦合CRF分类器的两阶段方法。第二个CRF利用从第一个CRF的输出导出的潜在表示

NER中的深度学习

三大优势：

NER受益于非线性变换，该变换生成从输入到输出的非线性映射。与线性模型（如对数线性HMM和线性链CRF）相比，基于DL的模型能够通过非线性激活函数从数据中学习复杂的特征。
深度学习节省了大量设计NER功能的精力。传统的基于特征的方法需要大量的工程技能和领域专业知识。另一方面，基于DL的模型可以有效地从原始数据中自动学习有用的表示和潜在因素。
通过梯度下降，可以在端到端的范例中训练深层神经网络模型。这个特性使我们能够设计可能复杂的NER系统。

上图就是基于DL的NER的分类

输入的分布式表示考虑了单词和字符级别的嵌入，以及结合了在特征方面有效的附加特征
上下文编码器是使用 CNN、RNN 或其他网络来捕获上下文依赖关系
标签解码器预测输入序列中标记的标签

输入的分布式表示

最简单的单词表示是利用one-hot向量：该向量两两正交并且每个单词还唯一

单词级别表示

什么是word embedding（词嵌入）

Embedding在数学上表示一个maping, f: X -> Y，也就是一个function，其中该函数是injective（就是我们所说的单射函数，每个Y只有唯一的X对应，反之亦然）和structure-preserving (结构保存，比如在X所属的空间上X1 < X2,那么映射后在Y所属空间上同理 Y1 < Y2

通俗的翻译可以认为是单词嵌入，就是把X所属空间的单词映射为到Y空间的多维向量，那么该多维向量相当于嵌入到Y所属空间中，一个萝卜一个坑。

word embedding，就是找到一个映射或者函数，生成在一个新的空间上的表达，该表达就是word representation。

常用的词嵌入：Google Word2Vec、Stanford GloVe、Facebook fastText、SENNA

字符级别表示

字符级表示对于利用显式子词级信息（例如前缀和后缀）很有用。字符级表示的另一个优点是它自然地处理词汇外。因此，基于字符的模型能够推断未见过单词的表示并共享语素级规则的信息。

提取字符级表示有两种广泛使用的架构：基于 CNN 的模型和基于 RNN 的模型。

对于基于 RNN 的模型，长短期记忆 (LSTM) 和门控循环单元 (GRU) 是基本单元的两个典型选择。

混合表示

基于 DL 的表示与基于特征的方法以混合方式相结合。添加额外信息可能会提高 NER 性能，但代价是损害这些系统的通用性。

上下文Encoder

广泛使用的上下文编码器体系结构: 卷积神经网络，循环神经网络，递归神经网络和深度Transformer

神经语言模型

语言模型是描述序列生成的一系列模型，给定一个序列\((t_1,t_2,..t_N)\)，通过前向语言模型计算给定历史序列\((t_1,t_2,...t_{k-1})\)下\(t_k\)的概率 \[ {p(t_1,t_2,..t_N) = \prod_{k=1}^Np(t_k|t_1,...t_{k-1}}) \] 后向语言模型和前向语言模型很像，只不过是相反的顺序 \[ {p(t_1,t_2,..t_N) = \prod_{k=1}^Np(t_k|t_{k+1},...t_{N}}) \] 对于神经语言模型，token\(t_k\)的概率可以通过递归神经网络的输出来计算。在每个位置 k，我们可以获得两个上下文相关的表示（前向和后向），然后将它们组合为令牌\(t_k\)的最终语言模型嵌入。这种语言模型增强的知识已被经验证明有助于许多序列标记任务。

深度Transformer

神经序列标记模型通常基于复杂的卷积或递归网络，该网络由编码器和解码器组成。由Vaswani等人提出的Transformer完全免除递归和卷积。Transformer利用堆叠的自我注意和逐点的全连接层来构建编码器和解码器的基本块。对各种任务的实验表明Transformer在质量上优越，同时需要更少的时间来训练。

标签解码器

标签解码器是 NER 模型的最后阶段。它将上下文相关的表示作为输入，并生成与输入序列相对应的标签序列。总结了标签解码器的四种架构：

MLP + softmax 层
条件随机场 (CRF)
循环神经网络
指针网络。

NER 通常被表述为一个序列标记问题。使用多层 Perceptron + Softmax 层作为标签解码器层，将序列标注任务转换为多类分类问题。每个单词的标签是根据上下文相关的表示独立预测的，而不考虑其邻居。

条件随机场是全局以观测序列为条件的随机场。CRF已广泛用于基于特征的监督学习方法。许多基于深度学习的NER模型使用CRF层作为标签解码器。然而，CRF 不能充分利用段级信息，因为段的内部属性不能用词级表示完全编码

RNN标签解码器的性能优于CRF，并且在实体类型数量较多时训练速度更快，其用作贪婪地产生标签序列的语言模型。

指针网络应用 RNN 来学习输出序列的条件概率，其元素是与输入序列中的位置相对应的离散标记。它通过使用 softmax 概率分布作为“指针”来表示可变长度字典。

NER最新技术

NER深度多任务学习

多任务学习是一种将一组相关任务一起学习的方法。通过考虑不同任务之间的关系，多任务学习算法有望获得比单独学习每个任务的算法更好的结果。

除了与其他序列标记任务一起考虑神经网络误差外，多任务学习框架可用于实体和关系的联合提取，或者将神经网络建模为两个相关的子任务：实体分割和实体类别预测。

NER深度迁移学习

迁移学习旨在通过利用从源域学习的知识在目标域上执行机器学习任务。在 NLP 中，迁移学习也称为域适应。

NER深度主动学习

主动学习背后的关键思想是：如果允许机器学习算法选择从中学习的数据，那么机器学习算法可以用更少的训练数据表现得更好。

深度学习通常需要大量的训练数据，这些数据的获取成本很高。因此，将深度学习与主动学习相结合有望减少数据注释工作。

NER深度强化学习

强化学习 (RL) 是受行为主义心理学启发的机器学习的一个分支，它关注软件代理如何在环境中采取行动以最大化一些累积奖励。

这个想法是一个代理将通过与环境交互并获得执行动作的奖励来从环境中学习。

具体来说，RL 问题可以表述如下：环境被建模为具有输入（来自代理的动作）和输出（对代理的观察和奖励）的随机有限状态机。它由三个关键部分组成：

状态转换函数
观察（即输出）函数
奖励函数。

代理也被建模为具有输入（来自环境的观察/奖励）和输出（对环境的动作）的随机有限状态机。它由两部分组成：

状态转换函数
策略/输出函数。

代理的最终目标是通过尝试最大化累积奖励来学习良好的状态更新函数和策略。

NER深度对抗网络

对抗性学习是明确训练对抗性示例模型的过程。目的是使模型更易于攻击或减少其在干净输入上的测试误差。

对抗性网络通过2人游戏学习从训练分发中生成: 一个网络生成候选人 (生成网络)，另一个对其进行评估 (判别网络)。

生成网络学习从潜在空间映射到感兴趣的特定数据分布，而判别网络区分由生成器生成的候选和来自现实世界数据分布的实例。

NER神经注意

注意机制基于人类中发现的视觉注意机制。例如，人们通常以“高分辨率”关注图像的某个区域，而以“低分辨率”感知周围区域。神经注意力机制允许神经网络有能力专注于其输入的一个子集。通过应用注意力机制，NER 模型可以捕获输入中信息量最大的元素。