IEEEJAS的个人博客 分享 http://blog.sciencenet.cn/u/IEEEJAS

博文

基于预训练表示模型的英语词语简化方法

已有 2163 次阅读 2022-8-9 16:37 |系统分类: 博客资讯

引用本文

 

强继朋, 钱镇宇, 李云, 袁运浩, 朱毅. 基于预训练表示模型的英语词语简化方法. 自动化学报, 2022, 48(8): 2075−2087 doi: 10.16383/j.aas.c200723

Qiang Ji-Peng, Qian Zhen-Yu, Li Yun, Yuan Yun-Hao, Zhu Yi. English lexical simplification based on pretrained language representation modeling. Acta Automatica Sinica, 2022, 48(8): 2075−2087 doi: 10.16383/j.aas.c200723

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200723

 

关键词

 

词语简化,候选词生成,候选词排序,预训练语言表示模型 

 

摘要

 

词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的. 已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词, 这将不可避免地产生大量的虚假候选词. 为此, 提出了一种基于预语言训练表示模型的词语简化方法, 利用预训练语言表示模进行候选替换词的生成和排序. 基于预语言训练表示模型的词语简化方法在候选词生成过程中, 不仅不需要任何语义词典和平行语料, 而且能够充分考虑复杂词本身和上下文信息产生候选替代词. 在候选替代词排序过程中, 基于预语言训练表示模型的词语简化方法采用了5个高效的特征, 除了常用的词频和词语之间相似度特征之外, 还利用了预训练语言表示模的预测排名、基于基于预语言训练表示模型的上、下文产生概率和复述数据库PPDB三个新特征. 通过3个基准数据集进行验证, 基于预语言训练表示模型的词语简化方法取得了明显的进步, 整体性能平均比最先进的方法准确率高出29.8%.

 

文章导读

 

在阅读资料时, 如果句子中包含不认识的词语, 将直接影响对文本内容的理解, 特别是阅读非母语的文本. Hirsh[ 1]Nation[ 2]的研究表明, 英语学习者需要熟悉文本中95%的词汇才能基本理解其内容, 熟悉98%的词汇才能轻易地进行阅读. 词汇简化 (Lexical simplification, LS) 任务要求在不改变文本的语义、不破坏文本语法结构的情况下降低文本的阅读难度, 常采用的方法是用更简单的词语替换句子中的复杂词语. 词语简化有助于降低文本的阅读难度, 针对的人群包括且不限于儿童[ 3]、非母语人士[ 4]、有阅读障碍的人[ 5- 6]. 词语简化作为文本简化方法的一类, 已经有20多年的发展历史.

 

早期的LS系统主要使用人工制定或者自动学习的简化规则来完成词汇简化任务[ 7]. 例如, 使用WordNet生成复杂词的简单同义词[ 8- 10]. 从简单维基百科和普通的维基百科组成的平行语料库中提取复杂词语与简单词语的对应关系[ 11- 13]. 但是这两类方法有很多的局限性. 除了语义词典数据库的制作成本高昂和平行语料库提取困难, 这些规则只能提供有限数量的复杂单词与部分简单同义词的对应关系, 不能够覆盖所有需要简化的单词, 也不能囊括所有合理的简单替换词.

 

为了解决上述问题, 最近的一些词汇简化方法使用词嵌入模型来获取目标复杂词的简单候选词, 选择在向量空间中与复杂词的词向量余弦相似度最高的一些词语作为候选替代词[ 14- 16]. Glavaš [ 14]在未注释的文本语料库中训练词嵌入模型, Paetzold[ 15- 16]在带有词性标签的文本上训练语境感知词嵌入模型. 这些方法解决了基于规则方法的局限性. 但是它们生成候选词时没有考虑复杂词的上、下文语境信息, 生成候选替代词集合中不可避免的生成了大量的虚假候选词.

 

本文提出了一种与已有LS系统完全不同的方法, 利用预训练语言表示模型 (Bidirectional encoder representations from transformers, BERT)[ 17]获得复杂词的简单替代词. BERT是无监督的通用语义表示模型, 使用掩码语言模型和下一句预测2个任务进行优化. 掩码语言模型通过随机掩码一定比例的输入, 然后根据上、下文对掩码的词进行预测, 这与LS任务中为目标复杂词生成符合语境的简单替代词的模式是可关联的. 本文将句子中的目标复杂词进行掩码后输入BERT模型进行预测, 从掩码词语的预测中选择高概率的词作为候选词, 并对它们进行排序. 具体方法是将两个原句进行串联, 随机掩盖前一个句子中一定比例的单词, 并对后一个句子的复杂词进行掩盖, 将其输入BERT模型, 预测出后一句中掩盖位置的词汇概率分布.

 

得到生成的候选替代词后, 基于预语言训练表示模型的词语简化方法(BERT-LS)使用5个特征对所有候选词进行排序, 选择平均值排名最高的词作为最佳替代词. 除了已有方法常使用的词频和候选替代词之间的相似度的特征外, 还结合了BERT本身的特色, 利用了BERT的预测顺序和基于BERT的语言模型作为特征, 还额外采用复述数据库PPDB作为特征. 最后, 最佳替代词是否替换原词需要考虑替代词与原词之间的简单程度和替代词与原有上、下文信息之间的流畅性.

 

1展示了在词汇简化任务中, 两个基线系统PaetzoldNE[ 16]Rec-LS[ 18]BERT-LS对句子进行简化的实例. 对于句子“John composed these verses.”中的复杂词“composed”“verses”, 已有的2LS系统在生成候选词时只关注复杂词本身, 而没有考虑上、下文语境, 因此这些系统没有能捕获复杂词在句子中的准确词意, 生成的候选词也不符合具体的语境. BERT-LS生成的候选词不仅与复杂词在句子中的词义一致, 而且非常契合上、下文. 通过对生成的候选词进行排序后, 可以很容易地选择“wrote”“poems”作为“composed”“verses”的最终替代词. 替换后的句子“John wrote these poems”不仅没有改变句意, 而且保持了句子的语法结构, 达到了句子简化的目的.

 1  三种词语简化方法产生的候选替换词进行对比

 

本文的主要贡献总结如下:

1)提出了一种新的基于预语言训练表示模型的词语简化方法BERT-LS, 充分利用BERT的优势来生成候选替代词. 从查阅到的已有文献可知, BERT-LS是最先尝试利用预训练语言模型进行词语简化的方法. 与现有方法相比, 此方法不仅考虑了复杂词的上、下文信息, 而且生成的候选词无需考虑任何词形的变化.

2)提出了一种新的候选词排序方法. 最先采用了BERT的预测排名和基于BERT的上、下文产生概率, 还首次利用复述数据库PPDB作为一个特征. 这些特征能够充分地考虑候选词本身的简单性和它们与句子的契合程度.

3)BERT-LS在实验评估中优于基线算法, 候选词生成过程的性能比较之前最好的的方法的F值提升了41%, 整体系统的效果在准确率上提升了29.8%. 论文的源代码已公开在https://github.comqiang2100/BERT-LS.

 2  BERT-LS使用BERT模型生成候选词, 其中输入为“the cat perched on the mat”

 5  不同生成候选词数量的评估结果

 

本文提出了一种基于预语言训练表示模型的词语简化方法BERT-LS, 利用BERT的掩码语言模型进行候选词的生成和排序. 在不依赖平行语料库或语言数据库的情况下, BERT-LS在生成候选替换过程中既考虑了复杂词又考虑了复杂词的上、下文. 3个的基准数据集上进行实验, 实验结果验证了BERT-LS取得了最好的性能. 由于BERT只利用了原始文本上进行训练, 针对不同语言的BERT模型(如中文、德语、法语和日语等)也被提出来, 因此该方法可以应用到对应语言中进行词语简化.

 

BERT-LS的一个限制是只能生成一个词而不是多个词来替换复杂的词. 下一步计划扩展BERT-LS支持多个词的替代, 进一步提高模型的实用性.

 

作者简介

 

强继朋

扬州大学信息工程学院副教授. 2016年获合肥工业大学计算机博士学位. 主要研究方向为数据挖掘和自然语言处理. E-mail: jpqiang@yzu.edu.cn

 

钱镇宇

扬州大学信息工程学院硕士研究生. 主要研究方向为主题建模和数据挖掘.E-mail: qzyjnwss@126.com

 

李云

中国扬州大学信息工程学院教授. 主要研究方向为数据挖掘和云计算. 本文通信作者. E-mail: liyun@yzu.edu.cn

 

袁运浩

扬州大学信息工程学院副教授. 2013年获南京理工大学模式识别与智能系统博士学位. 主要研究方向为模式识别, 数据挖掘和图像处理. E-mail: yhyuan@yzu.edu.cn

 

朱毅

扬州大学信息工程学院讲师. 2018年获合肥工业大学软件工程博士学位. 主要研究方向为数据挖掘和知识图谱. E-mail: zhuyi@yzu.edu.cn



https://blog.sciencenet.cn/blog-3291369-1350565.html

上一篇: 递归最小二乘循环神经网络
下一篇: 基于梯形网络和改进三训练法的半监督分类
收藏 IP: 222.131.244.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
返回顶部

欧彦

  • 加为好友
  • 给我留言
  • 打个招呼
  • 发送消息
扫一扫,分享此博文

全部作者的精选博文

  • • 2023年度自动化领域国家自然科学基金申请与资助情况

全部作者的其他最新博文

  • • 基于孪生网络与多重通道融合的脱机笔迹鉴别
  • • CJCR发布:自动化学报各项主要指标蝉联第1
  • • 目标跟踪中基于IoU和中心点距离预测的尺度估计
  • • 联合深度超参数卷积和交叉关联注意力的大位移光流估计
  • • 会议日程‖ IEEE/CAA JAS创刊10周年专题研讨会
  • • [转载]2024 IEEE/CAA JAS Conference 工业自动化5.0:建模、优化、监测与控制

全部精选博文导读

  • • 研究生学位论文开题的十大注意事项
  • • 科学网2024年8月十佳博文榜单公布!
  • • 李约瑟之问与大模型
  • • 算计与计算之间的相互校正
  • • 7000项微塑料研究表明,我们有一个真正的大问题
  • • 早期北美树木园及其与欧洲的联系

Archiver| 手机版| 科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-23 00:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部

天下网标王黄冈品牌网站优化要多少钱南山网站优化托管江西省网站推广优化网站优化哪个公司好薛城网站优化深圳网站优化费用芝罘网站优化报价合肥网站优化选申麦尔二十一侯马网站关键词排名优化福州行业网站优化收费抚州市网站优化平台杭州搜索网站优化排名软件深圳网站排名优化哪家强重庆网站优化一站式服务已解决如何优化房地产网站电影站如何优化网站金华网站优化关键词优化内江网站权重优化长沙推荐网站推广与优化淮北网站运营优化系统网站优化有什么版本遂宁德阳网站优化方案优化排名网站文云速捷seo优化网站排名宝山网站优化选哪家政务网站如何优化合肥市pc网站优化巴音郭楞网站优化安新网站站外优化信息网站优化排名香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化