第4章 实体识别:CRF及LSTM+CRF

第四章 实体识别:CRF及LSTM+CRF

命名实体识别的发展历史

命名实体识别的任务

一般而言,主要是识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命
名实体
两个任务:实体边界识别实体类别标注(Entity Typing)

实体识别基本概念

  • 实体识别的任务是识别出文本中三大类命名实体(实体类、时间类和数字类), 具体如下所示:
    - 实体识别
    - 序列标

目前方法

基于机器学习的方法

生成式方法
原理:首先建立学习样本的生成模型,再利用模型对预测结果进行间接推理
典型算法: HMM等

判别式方法
原理:由字构词的命名实体识别理念,将NER问题转化为判别式分类问题(序列标注问题)
典型算法:Maxent,CRF

基于深度学习的方法

基于预训练的方法


BERT模型重新设计了语言模型预训练阶段的目标任务,提出了遮挡语言模型Masked LM和下一个句子预测(NSP)。

Masked LM是在输入的词序列中,随机选15%的词进行[MASK],然后在这15%的词中,有80%的词被真正打上[MASK]标签,有10%的词被随机替换成任意词汇,10%的词不做任何处理。模型的任务是去正确预测带有MASK标签的词。相比于传统的语言模型,MaskedLM可以从前后两个方向预测这些带有MMASK标签的词。

NSP实质上是一个二分类任务,以50%的概率输入一个句子和下一个句子的拼接,标签属于正例:另外50%的概率输入一个句子和非下一个随机句子的拼接,对应标签为负例。

条件随机场(CRF)

定义:已知一组输入随机变量条件下,另一组输出随机变量的条件概率分布模型
特点:假设输出随机变量构成马尔可夫随机场
应用:可以应用于不同类型的标注问题,例如:

  • 单个目标的标注、序列结构的标注、图结构的标注

CRF和HMM

  • HMM:生成式模型,难以考虑复杂的特征
  • CRF:判别式模型,可以考虑复杂的特征

基于CRF的命名实体识别

采用CRF模型对每个汉字标注对应实体类型的BIO标记
例如:句子“白居易是中国杰出的诗人”

  • 观察序列: 白 1 居 2 易 3 是 4 中 5 国 6 杰 7 出 8 的 9 诗 10 人 11 白_1 居_2 易_3 是_4 中_5 国_6 杰_7 出_8 的_9 诗_{10} 人_{11} 1234567891011
  • 标注序列: B − P E R 1 I − P E R 2 I − P E R 3 O 4 O 5 O 6 O 7 O 8 O 9 O 10 O 11 B−PER_1 I−PER_2 I−PER_3 O_4 O_5 O_6 O_7 O_8 O_9 O_{10} O_{11} BPER1IPER2IPER3O4O5O6O7O8O9O10O11

特征函数:可以构建不同种类的特征

  • 上下文特征,词性,词本身等

CRF示例

LSTM+CRF命名实体识别(Lample, NAACL16)

每个句子按照词序逐个输入双向LSTM中,结合正反向隐层输出得到每个词属于每个实体类别标签的概
率,输入CRF中,优化目标函数,从而得到每个词所属的实体类别

BiLSTM层输入与输出

BiLSTM层的输入:每个词的向量表示
BiLSTM层的输出:当前时刻的输入属于每个实体类别标签的概率

如果模型不包含CRF层

CRF层为模型效果提升带来了什么?
CRF层可以加入一些约束来保证最终预测结果是有效的。这些约束可以在训练数据时被CRF层自动学习得到。
可能的约束条件有:
(1)句子的开头应该是“B-”或“O”,而不是“I-”;
(2)“B-label1 I-label2 I-label3…”,在该模式中类别1,2,3应该是同一种实体类别。比如,“B-Person I-Person” 是正确的,而“B-Person I-Organization”则是错误的;
(3)“O I-label”是错误的,命名实体的开头应该是“B-”而不是“I-”。

Emission得分

举例: w 0 w_0 w0被标记为B-Person的分数为1.5, w 1 w_1 w1被标记为B-Person的分数为0.2 。

Transition得分

CRF路径得分


可能的路径是
对于5个词组成的句子,其可能的类别序列为:

  1. START B-PERSON B-PERSON B-PERSON B-PERSON B-PERSON END
  2. START B-PERSON I-PERSON B-PERSON B-PERSON B-PERSON END …
  3. SRART B-PERSON I-PERSON O B-Oraganization O END … N) O O O O O O O

CRF损失函数

对于5个词组成的句子,假定类别标签有5个(B-Person, I- Person, B-Organization,
I-Organization, O),其可能的类别序列有55 = 3125种,即NN = 3125。

CRF损失函数计算示例

x = [ w 0 , w 1 , w 2 ] x = [w_0,w_1,w_2] x=[w0,w1,w2]
L A B E L = [ l 1 , l 2 ] LABEL = [l_1,l_2] LABEL=[l1,l2]
Emission 得分

Transition 得分
全部路径得分计算方法

变量

previous:上一步的得分
obs:当前步骤的词的信息

假设句子只有1个词 w 0 w_0 w0

假设句子有2个词 { w 0 , w 1 } \{w_0,w_1\} {w0,w1}

  1. 扩展previous
  2. 扩展obs
  3. 对previous,obs 以及transition 得分求和
  4. 修改previous的值

    总路径得分

    假设句子有3个词 w 0 , w 1 , w 2 w_0, w_1, w_2 w0,w1,w2

1.扩展previous

2.扩展obs

3.对previous,obs 以及transition 得分求和

4.修改previous的值
全部路径得分

CRF-推断


BiLSTM层获得了发射(状态)得分矩阵,从CRF层得到了转移得分矩阵
假设句子只有1个词 w 0 w_0 w0
假设 o b s = [ x 01 = 0.2 , x 02 = 0.8 ] obs=[x_{01}=0.2, x_{02}=0.8] obs=[x01=0.2,x02=0.8]
previous=none
显然 w 0 w_0 w0的最好标签是 l 2 l_2 l2

假设句子有2个词 w 0 , w 1 w_0, w_1 w0,w1

0.5表示第二个词的标签应该是表示 l 1 l_1 l1, ( 1 , 1 ) [ 1 ] (1,1)[1] (1,1)[1]前一个标签应该是表示 l 2 l_2 l2, ( 1 , 1 ) [ 0 ] = 1 (1,1)[0]=1 (1,1)[0]=1前一个标签
应该是 l 2 l_2 l2

假设句子有3个词 w 0 , w 1 , w 2 w_0, w_1, w_2 w0,w1,w2
0.9表示第三个词的标签应该是 l 2 l_2 l2 ( 1 , 0 ) [ 1 ] = 0 (1,0)[1]=0 (1,0)[1]=0表示前一个标签应该是 l 1 l_1 l1 ( 1 , 1 ) [ 0 ] = 1 (1,1)[0]=1 (1,1)[0]=1表示前一个标签应该是 l 2 l_2 l2

命名实体识别研究热点

  • 利用词(词典)信息
  • 嵌套命名实体识别
  • 匮乏资源下的命名实体识别
  • 细粒度命名实体识别

参考

东南大学课件
深蓝笔记

命名实体识别(NER):LSTM + CRF
Unyielding will
10-22 3813
LSTM+CRF:框架 对观测序列X,状态序列y,其误差函数 利用Softmax函数,我们为每一个正确的tag序列定义一个概率值(Y_x代表所有的tag序列,包括不可能出现的) 因而在训练中,我们只需要最大化似然概率即可,这里我们利用对数似然 最难理解的就是上面公式的log部分的计算,这里用一种简便的方法,对于到词w_(...
LSTM+CRF
qq1344574215的博客
09-28 1048
1.为什么不直接使用LSTM? 关于标注任务,我们自然而然的可以想到,使用RNN序列模型,在每一时刻输出对应的隐状态Ht,然后进行每一时刻的逐帧softmax。为什么不行呢?主要原因在于,RNN模型(比如LSTM)没有考虑到输出类标之间的关联性,比如NER任务中,一些输出的类标之间是有顺序性的,而RNN虽然利用隐变量Ht学到了X之间的顺序关系,但是没有考虑到输出序列的顺序性。 于是,我们将二者结合起来,使用RNN序列模型提取X之间的转移关系,使用CRF层来处理输出序列的顺序。 2.CRF原理 在CR
双层LSTM+CRF实体识别,详细过程,看不懂我自罚三杯!!!
cuipanguo的博客
09-11 3902
BiLSTM+CRF: 如果看了之后还看不懂,我自罚三杯!!! 参考的是国外一个很好的博客,原文链接:https://createmomo.github.io/2017/12/06/CRF-Layer-on-the-Top-of-BiLSTM-7/ 现在抽空学习一下知识图谱方面的知识 1、Introduction: 1.1 开始之前: 假设我们有两个实体类别:person...
双向LSTM+CRF中文命名实体识别工具
06-04
双向LSTM+CRF中文命名实体识别工具,可以使用自己的语料进行训练,欢迎大家交流学习。训练数据需要自己进行获取
LSTM+CRF序列标注-昇思25天打开
最新发布
bearang的博客
07-23 878
LSTM+CRF序列标注-昇思25天打开
lstm+crf
aozhilian7961的博客
05-15 459
1.介绍 基于神经网络的方法,在命名实体识别任务中非常流行和普遍。在文献【1】中,作者提出了Bi-LSTM模型用于实体识别任务中,在模型中用到了字嵌入和词嵌入。本文将向你展示CRF层是如何工作的。 如果你不知道Bi-LSTMCRF是什么,你只需要记住他们分别是命名实体识别模型中的两个层。 1.1开始之前 我们假设我们的数据集中有两...
基于tensorflow LSTM+CNN+CRF的命名实体识别算法python源码+项目说明.zip
03-07
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和...基于tensorflow LSTM+CNN+CRF的命名实体识别算法python源码+项目说明.zip
lstm+crf、bilstm+crfLSTM CRF pytorch 命名实体识别代码
04-21
在这个PyTorch实现中,`lstm+crf`模型将LSTM的上下文表示与CRF的全局序列模型相结合,使得模型在识别连续实体时更为准确。`bilstm+crf`模型则进一步增强了这种能力,因为它利用了双向的信息流。 项目提供的代码应该...
中文命名实体识别包括多种模型:BILSTM+CRF、IDCNN+CRF、BERT+BILSTM+CRF进行识别的python源码
01-20
中文命名实体识别包括多种模型:BILSTM+CRF、IDCNN+CRF、BERT+BILSTM+CRF进行识别python源码 NER(中文实体命名识别) 光健字: 中文命名实体识别 NER BILSTM CRF IDCNN BERT 摘要:对中文命名实体识别一直处于知道...
人工智能-项目实践-实体识别-用BILSTM+CRF做医疗实体识别,框架为pytorch
05-26
用BILSTM+CRF做医疗实体识别,框架为pytorch。 注意,代码已经修改了!! 由于pytorch-crf这个包在计算loss时会自动加上和的转移矩阵,所以我们不用再自己手动在样本和标签前后加这俩标记。 然后评估方法改为了...
中文命名实体识别包括多种模型BILSTM+CRF、IDCNN+CRF、BERT+BILSTM+CRF进行识别的python源码
06-05
中文命名实体识别包括多种模型BILSTM+CRF、IDCNN+CRF、BERT+BILSTM+CRF进行识别的python源码专为大学期间课程设计和期末大作业开发的高分设计项目,可作为高分课程设计和期末大作业的参考,含有代码注释小白也可看的...
实体识别:lstm+crf
woshiliulei0的专栏
07-16 1894
一、前言 1.实体识别的计算算法 一般来说实体识别可以通过以下几种算法,准确率依次提升: (1)HMM (2)CRF (3)Bilstm+crf (4)Bert+Bilstm+crf 本节讲一下Bilstm+crf 2.实体识别基础知识 1.2.1:序列标注 实体识别可以通过序列标注实现,常见标签有:B、I、E、O 1.2.2实体的分类 一般来说实体识别的分为:人名、地名、组织结构三种 二、Lst...
【深度学习、工程实践】基于BERT-LSTM-CRF的命名实体识别(PyTorch 实现)
热门推荐
Dong_ZH的博客
12-28 1万+
命名实体识别(NER)是自然语言处理的基础任务,处于工程性任务的上游,很多的下游任务依赖于命名实体识别的效果,所以命名实体识别也是自然语言处理中非常重要的一环。命名实体识别的任务非常简单,给出一段文本,识别出文本中的人名、机构名称、歌曲名称、专辑名称、地点名称等名词(或者称之为实体
lstm+crf进行实体识别
randomaccessRAM的博客
11-04 885
实体识别intro新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文UML 图表FLowchart流程图导出与导入导出导入 intro 参考https://www.ji...
CRF实体识别
qq_34438672的博客
07-18 231
转载:::https://www.jianshu.com/p/235d3aaf0929
命名实体识别实践 - CRF
zenRRan的博客
03-11 1130
每天给你送来NLP技术干货!来自:ChallengeHub作者:致Great完整代码 https://www.heywhale.com/home/competition/6216f7457...
CRF进行实体识别
摆渡者
11-08 3581
最近在研究实体识别,之前在博客中介绍过基于深度学习的实体识别。实验效果还可以!后来对我们所使用的语料进行了分析发现,语料的描述都是很像的,于是在想用传统的机器学习算法效果如何呢?于是尝试了CRF 什么是CRF Conditional Random Field:条件随机场,一种机器学习技术(模型) 语料格式 训练和测试文件必须包含多个tokens,每个token包含多个列。token的...
NER学习系列之-BILSTM+CRF
Jasminexjf的博客
03-11 2364
做了一段时间的Sequence Labeling的工作,发现在NER任务上面,很多论文都采用LSTM-CRFs的结构。CRF在最后一层应用进来可以考虑到概率最大的最优label路径,可以提高指标。 一般的深度学习框架是没有CRF layer的,需要手动实现。最近在学习PyTorch,里面有一个Bi-LSTM-CRF的tutorial实现。不得不说PyTorch的tutorial真是太良心了,基本...
465
原创
634
点赞
3142
收藏
5320
粉丝
关注
私信
写文章

热门文章

  • BERT模型 27727
  • conda使用yaml创建虚拟环境 24882
  • Pymol入门教程--基础 16843
  • GPT模型 12538
  • Pymol教程--surface/cartoon透明度的调节(静电势能) 11927

分类专栏

  • 预训练模型 35篇
  • 强化学习 11篇
  • 数据预处理
  • DrugAi 186篇
  • 算法 43篇
  • 数学基础原理 6篇
  • PyTorch框架 52篇
  • 生成模型 11篇
  • CV模型 5篇
  • python基础 10篇
  • 生物信息学 2篇
  • 量子力学 2篇
  • 工具类 13篇
  • 文本摘要 3篇
  • 分类模型 1篇
  • RASA与对话系统 28篇
  • C++基础 5篇
  • 文本匹配 7篇
  • 运维管理 44篇
  • 实战 11篇
  • 比赛 5篇
  • Paper 3篇
  • 文本信息抽取与知识图谱 16篇
  • 图神经网络 62篇
  • 剑指offer 5篇
  • 软件开发 15篇
  • 机器学习 11篇

最新评论

  • 基于知识图谱和推荐系统的统一药物靶点相互作用预测框架

    random也是一种规律: 冷启动用的什么算法啊,没说清楚唉

  • 基于药效团的药物设计(Pharmacophore Construction)

    客242: 你好,就是那个数据库是怎么准备的呀,能够告知一下吗?快崩溃啦

  • CADD课程学习(13)-- 研究蛋白小分子动态相互作用-III(蛋白配体复合物 GROMACS)

    g944142624: 你好,能分享一下在蛋白配体相互作用能分析中用到的ie.mdp文件吗

  • BM25算法介绍

    gjwm1120: 能否提供一下完整代码,有许多运行时错误无法解决

  • schrodinger 薛定谔安装与卸载

    2301_80141398: 我也遇到了,请问您解决了吗?

最新文章

  • 大型语言模型的生物医学知识图优化提示生成
  • 中药垂直大模型汇总
  • Nginx安装
2024年2篇
2023年198篇
2022年244篇
2021年133篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发呆的比目鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

天下网标王鄞州区网站优化报价域名影响网站优化的因素香蜜湖网站优化方案枝江网站优化汉中网站优化服务石龙东莞外贸网站建设优化网站内部链接怎么优化峰峰矿区网站seo优化排名新网站优化是什么如何进行网站优化陵城区网站seo优化排名开平专业的网站优化收费标准laravel网站地址优化十堰低成本网站优化哪里好运城网站目标关键词优化西昌网站优化选哪家下城区网站排名优化服务温州网站优化公司网站外部优化笔记余庆网站优化公司奉化高端百度网站优化天台网站优化费用重庆网站优化外包服务宁波江东区网站优化怎么样做优化用什么网站模板网站导航优化具体包括怎么做网站的排名和优化网站优化重点工作道里网站优化荆门网站优化报价香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化