论文阅读_中文医疗模型_ eHealth

90 篇文章 7 订阅
订阅专栏

英文题目:Building Chinese Biomedical Language Models via Multi-Level Text Discrimination
中文题目:基于多层次文本辨析构建中文生物医学语言模型
论文地址:https://arxiv.org/pdf/2110.07244.pdf
领域:自然语言处理,生物医学
发表时间:2021
作者:Quan Wang等,百度
模型下载:https://huggingface.co/nghuyong/ernie-health-zh
模型介绍:https://github.com/PaddlePaddle/Research/tree/master/KG/eHealth
模型代码:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-health
阅读时间:22.06.25

读后感

目前效果最好的生物医学预训练模型,在 CBLUE 比赛数据上亲测真的有明显提升。

介绍

之前生物医疗领域的预训练模型只是使用专门的数据训练,且大多是英文模型,垂直领域的模型常在通用模型的基础上训练,也有一些实验证明,直接用领域数据训练效果更好。

PCL-MedBERT 和 MC-BERT 是中文的医疗领域模型,但它在医学和通用领域使用的效果不是很明显; SMedBERT 和 EMBERT 利用领域知识提升模型效果,但它引入了外部知识,而用到的知识图尚未公开(译者注:SMedBERT 提供模型下载)。

本篇论文提出了eHealth中文语言表示模型,它基于大量生物医疗数据预训练,且修改了模型框架。它基于eHealth模型,包含生成和判别两部分。并在 ELECTRA 的基础上把判别模型又细分为 token 层面和 sequence 层面。eHealth不依赖外部资源,因此,精调模型也比较方便。

它在CBLUE的11项医学NLP任务中效果优于以往的预训练模型,仅用正常的模型大小(非大模型),就在医学和通用领域达到很好效果,甚至超过了大模型。

文章主要贡献如下:

  • 建立了中文医学预训练模型,它只依赖文本本身,方便精调
  • 提出了预训练的新方法,可将其迁移到医学以外的其它领域中

方法

对抗模型包括一般生成器和判别器两部分,其主要原理是:生成器尽量生成更贴近真实的数据,而判别器尽量把生成的假文本判别出来,通过对抗快速改进。

image.png

生成器

文中的生成器G是一个 Transforer 编码器,使用MLM方式训练,对于输入文本x=[x1,…,xn],遮蔽其中部分单词,生成xM,然后将其送入编码器生成隐藏层表示hG(xM),再将隐藏表示送入一个softmax来预测每个token的是否为遮蔽后的词:

共中xt指的是第t位置的token,hg(xM)是结合了上下文后对t位置的表示,e是词嵌入,V是包含所有token的词表。损失函数计算方法如下:

这里只关注真正被遮蔽的token,损失函数的目标是生成最能以假乱真的篡改文本。生成器生成的数据被送入判别器处理。

判别器

判别器D也是最终的编码器,也使用Transformer结构,它的输入是由生成模型篡改过的字符串,训练两层判别器。

Token级判别

Token级别判别器又分为两种,一种是token替换 RTD,另一种是 token 选择 MTS。RTD是在 ELECTRA 中提出的,它用于识别句中被篡改的token,MTS是2020年Xu等提出的,它的目标是从给定的选项中选择被篡改处的原始文本应该是什么。

RTD
设生成篡改后的文本为xR,RTD用于辨别其中的每个token是否被篡改。将模型生成的隐藏层hD(xR)代入二分类sigmoid层,输出每个位置t的token被篡改的概率:

对应的损失函数如下,它对每个位置的结果加和。

MTS
MTS可作为对RTD的强化,进一步判别被篡改位置的原始文本应该是什么,从候选项中选出该位置最可能是哪一个token。

对应的损失函数如下:

可选项集S是针对所有篡改位置,生成的最能以假乱真的k个token作为候选项,MTS从本质上,是一个k+1类的分类器

Sequence级判别

另外,还针对序列,设计了对比序列预测CSP (2020年Chen提出),对于每一句原始输入,建立了两个版本的篡改结果。如图-1中左右两部分所示,分别用 XRi 和 XRj 表示,将它们作为一个正例对;选择训练时同一minibatch中的其它序列作为反例,由正例和反例组成候选集N(x)。CSP任务的目标是在已知XRi的条件下,从候选项 N(x) 中选择正确的 XRj。

其中s()用于度量相似度, τ 是超参数。

模型训练

最终的目标函数综合了上述损失,λ是超参数:

实验

实验包含预训练和针对各个任务的精调。

数据

使用四个中文数据集预训练模型,包含:

  • 100 million 个未标注的医患对话
  • 6.5 million 医疗领域热门文章
  • 6.5 million 份电子病历
  • 1500本教材包括医学和临床病理学
    如表-1所示:

领域内词汇表

之前的实验证明,从一开始就使用领域词表训练的模型效果更好,本文实验中先建立了领域词表:使用Tensor2Tensor library3创建生物医学领域的WordPiece词汇表,丢弃出现次数少于5次的token,并将词汇量保持在20K左右,与通用域中文BERT相似。

如表-2所示,新词表对中文效果并不明显,但能更好的识别英文缩写。

主实验结果

医疗卫生行业中的领域模型
lifegame的专栏
02-17 9221
关于软件工程,领域模型,以及电子健康档案。
国内有数十个医疗模型,大模型如何赋能智慧医疗
kaka0722ww的博客
06-20 1198
目前国内至少有40个医疗模型,足见这个行业的重要性,以及有着不错的发展前景。不过,大模型的本质是基于数据给出合理的判断和预测,帮助医生减负。在这种情况下,相同功能的大模型会逐渐拉开差距,性能差的医疗模型将会被逐步淘汰,市场确实不需要如此多的医疗模型
详解国内医疗模型,非常详细收藏我这一篇就够了
最新发布
2401_85390073的博客
08-05 2089
医疗模型是近年来随着人工智能技术的发展而兴起的一种新型工具,它们利用大数据和先进的机器学习算法来改善医疗服务和医疗决策。下面将介绍几种代表性的医疗模型,并探讨其未来的发展趋势。医疗模型概述医疗模型通常指的是那些基于大规模数据训练的人工智能模型,它们能够在多个方面为医疗行业提供支持,比如诊断辅助、治疗规划、疾病预防、药物研发等。这些模型通常需要大量的医疗数据进行训练,以便更准确地理解和模拟复杂的医学知识和患者状况。代表性医疗模型未来发展趋势。
215篇【大模型医疗论文合集(附PDF)
sqchi1991的专栏
09-27 429
通过大规模的数据和模型训练,实现对医疗领域中各种问题的预测、诊断和治疗的应用的医疗模型,正迎来全新的变局,为了让大家更好的抢占先机,我们整理了2022-2023年大模型医疗领域的研究文献,供大家学习。ChatGPT的横空出世引发了新一轮生成式大模型热潮,作为最新技术的"试验场",医疗也成为众多大模型的热门首选。,供大家学习和参考。
医疗AI | 梳理全球医疗模型
simoncool23的博客
10-11 7302
在辅助诊疗方面,灵医大模型可实现通过多轮对话了解病人病情,实时辅助医生确诊疾病,推荐治疗方案,提升就诊全流程的效率和体验,并成为患者的24小时“健康管家”,提供智能客服服务。所有知识来源都已经过验证,因而可为大模型输出的结果提供权威依据。卫宁健康已于2023年1月开展了医疗垂直领域的大语言模型WiNGPT的研发和训练工作,截至4月、6月和9月的模型训练参数量达到或将达到60亿、156亿、650亿,目前正在探索更多的医疗应用场景,计划于10月正式发布由GPT技术加持的新产品WiNEX Copilot。
BioMistral 7B——医疗领域的新方法,专为医疗领域设计的大规模语言模型
知来者逆的博客
05-24 1409
本文提出了生物医学领域专用的开源大规模语言模型BioMistral 7B,利用在 PubMed Central 进一步预训练的底层模型 Mistral,展示了医学领域专用大规模语言模型的新可能性。.该模型基于 PubMed Central 的高质量资源,是 Mistral 7B Instruct 的进一步演化,采用了量化和模型集成等技术。因此,与现有的开源 7B 模型相比,BioMistral 7B 在多语种医学评估基准中取得了卓越的性能。
用于心血管和脑血管疾病检测的自动eHealth平台
03-19
为了应对这一重大健康挑战,本文介绍了一种用于心血管和脑血管疾病检测的自动eHealth平台,该平台利用了三层架构设计,以提高对这些疾病的诊断效率和准确性。 首先,让我们深入探讨该平台的三层架构设计: 1. 用户...
带有移动客户端的自动eHealth平台的体系结构,可用于脑血管疾病检测
03-03
基于给定文件的信息,本段文字主要探讨了如何通过自动电子健康(eHealth)平台来检测脑血管疾病,并且详细说明了该平台的体系结构以及核心技术。自动eHealth平台主要为脑血管疾病检测设计,具有移动客户端,能够实现脑...
12330333吴晓彤_61
08-03
文章部分内容则详细介绍了Christopher Meli和George Fernandez在eHealth Education领域的一篇论文,探讨了医疗保健工作流程自动化中事务处理的挑战和解决方案。 这篇论文主要关注的是长期运行的医疗保健工作流程...
低资源环境下老年人无创健康监测的电子健康生物传感器平台-研究论文
06-10
使用生物传感器系统对患者进行无创生命体征监测的远程医疗领域的新技术正在涌现,尤其是需要长期护理的老年人和难以获得医疗保健服务的边缘地区。 一项涉及心脏领域内自我护理方法的研究被提议,其中晚期检测增加了...
先进的HIS软件架构设计,HAP医疗应用软件平台技术白皮书
07-11
1 先进的软件架构设计 2 1.1 真正的三层架构中间件平台 2 1.2 完全采用面向对象思想设计的业务领域模型 4 1.3 采用工作流引擎技术的业务流程模型 5 2 灵活的适应能力 7 2.1 支持多平台 7 2.2 支持多种后台数据库 8 2.3 支持多种客户端类型 8 3 强大的二次开发能力 9 3.1 产品化和项目化相结合 9 3.2 开放的体系架构和插件式设计 11 3.3 支持多种开发语言 12 3.4 动态编译和脚本执行 12 3.5 完全自由定制的报表系统 12 4 高速的性能 14 4.1 事务数据和分析数据分离 14 4.2 采用高速的嵌入式数据库 14 4.3 异步处理体系结构 15 4.4 负载均衡处理能力 16 4.5 多级高速缓存 17 4.6 分布式消息机制 18 4.7 为64位处理器专门优化 19 4.8 清晰的结构与合理的设计 19 5 稳固的质量 19 5.1 完备的自动化单元测试 19 5.2 严格的配置管理 20
移动医疗技术在COVID-19流行中的应用及其潜力
Kalankesh b,c,*a伊朗大不里士大不里士医科大学学生研究委员会b伊朗大不里士大不里士医科大学管理和医疗信息学院卫生信息技术系c伊朗大不里士大不里士医科大学卫生服务管理研究中心A R T I C L EI N FO关键词:...
医疗数据到数学模型
lushanghuafei的博客
02-04 867
本次血液检测项目只有链球菌x1和葡萄球菌x2两种,身体血液中对于不同的球菌组合会呈现不同的病原体(不同的病症)。现在假设有两个分类,分别是病原体I和病原体2,x轴表示链球菌的值,y轴表示葡萄球菌的值、在对本例中的数据归一化处理后,数据的分布集中在【-2,2】之间。 我们的目标是通过训练一个3层的人工神经网络ANN模型(输入层、隐层、输出层),对给出不同血液检测项目(x1,x2)的数据进行分类判别该...
bert中文预训练模型_[中文医疗预训练模型] MC-BERT
weixin_42127020的博客
12-29 3370
Conceptualized Representation Learning for Chinese Biomedical Text Mining作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua作者单位:Alibaba Group项目地址:https://github.com/alibab...
[AI医学] 医学领域几个微调&预训练大模型的项目
chenyang2203的博客
05-15 6317
一是对海量领域数据继续进行生成式语言模型预训练(continue pretrain);二是在通用大模型的基础上引入领域数据进行指令微调训练(通用大模型底座+领域数据指令微调);生成式语言模型继续预训练对数据量和计算资源的要求较高,目前大部分项目的工作多是集中在对通用模型进行领域数据指令微调训练。在指令微调训练方面,差异性的工作主要表现在「领域样本数据的生成」(如各种self-instruct生成样本)和「低资源训练」上(如各种PEFT方法进行部分参数的微调)。医学领域大模型建设是有其必要性的。
医院信息化-6 大模型医疗
代码还是得自己扣
12-26 1362
大多数人对大模型的了解只是知道ChatGPT-3、ChatGPT-3.5、ChatGPT-4、文心一言3.5等大模型,并且其功能就是能够聊天对话。其实大模型不是一个,哪怕是ChatGPT-3也存在多个大模型,如果你有用过ChatGPT的API,你就会了解到ChatGPT的API就有很多个。这时候会存在疑惑就是这些大模型都是干什么的?下面通过大模型分类和国内外一些常见大模型让你认识一下大模型一些基本内容。
利用AI大模型,破解医疗数据困境
m0_59235945的博客
05-16 732
基础模型的发展和应用在医疗领域掀起了一阵浪潮,为高效诊疗等提供了新机会。在这一浪潮中,大规模医疗数据的收集、处理、分析等成为了至关重要的研究课题。为了解决医疗数据中长久存在的问题,包括数据量的缺乏、数据标注的高成本、多模态数据融合、数据隐私问题等,研究者们探索了基础模型带来的新解决方案。同时,在医疗领域应用基础模型的安全问题同样不容忽视。从基础模型的训练数据所导致的幻觉、偏见,到基础模型的监督管理,都是我们必须重视并解决的问题。
写文章

热门文章

  • python数据统计分析 89076
  • Arduino简单实例之十_舵机 60769
  • Arduino简单实例之五_红外避障传感器模块 59258
  • Python之DataFrame数据处理 56871
  • Python获取国内股票数据 53731

分类专栏

  • 大模型 44篇
  • 论文阅读 90篇
  • 机器学习 40篇
  • 研究思考 1篇
  • 深度学习 45篇
  • 算法实战 28篇
  • Pytorch 14篇
  • 时序 3篇
  • Docker 4篇
  • 股票数据分析 9篇
  • 大数据 30篇
  • 少儿编程 3篇
  • 移动开发 112篇
  • linux 34篇
  • 工具 45篇
  • 搭建网站和服务 9篇
  • Arduino 18篇
  • Python 26篇
  • 图形图像 20篇
  • 区块链
  • 随笔 9篇
  • 自然语言处理 28篇
  • 未发 1篇

最新评论

  • 论文阅读_检索增强生成 RAG 综述

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

  • Obsidian+llama3:终于搭建了自己的知识库

    艾学习: 有使用案例吗?

  • 论文阅读_OpenAI嵌入+Lucene

    征途黯然.: The article is fantastic, and 论文阅读OpenAI嵌入Lucene is truly impressive.表情包

  • 论文阅读_基于嵌入的Facebook搜索

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

  • 论文阅读_基本于文本嵌入的信息提取

    CSDN-Ada助手: 你好,CSDN 开始提供 #论文阅读# 的列表服务了。请看:https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求,请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

  • 吐血整理(最全论文指令手册),还有 ChatGPT 3.5/4.0 新手使用手册~ 【亲测好用】 759
  • 使用二分查找提高点击进度条时检索字幕索引的效率 232
  • SIGIR2024 best short paper!RAG中如何评估检索质量
  • 如何在Java中实现高效的强化学习模型:从Q-learning到深度强化学习 844
  • 亲测好用,ChatGPT 3.5/4.0新手使用手册,最好论文指令手册~

最新文章

  • 大模型代理框架AutoGen_实战篇
  • 论文阅读_检索增强生成 RAG 综述
  • Agent实战
2024
09月 2篇
08月 2篇
07月 3篇
06月 9篇
05月 8篇
04月 6篇
03月 16篇
02月 10篇
01月 17篇
2023年85篇
2022年77篇
2021年16篇
2020年56篇
2019年40篇
2018年50篇
2017年83篇
2014年3篇
2013年10篇
2012年22篇
2011年10篇
2010年60篇
2009年25篇
2006年1篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

天下网标王南京网站优化注意事项网站内容如何优化企业网站优化 sit专业网站优化推广中山靠谱的佛山网站优化方案邢台网站免费优化网站seo优化平台优化网站哪家好延安网站优化哪家好淮北网站优化多少钱一年东莞怎么选择免费网站优化禹州网站优化排名郴州网站排名优化费用个性化网站优化推广报价扬州专业网站seo优化公司厦门百度网站快速优化泉州网站排名优化怀柔网站优化推广罗湖服务网站优化的有效方式网站优化培训课密云外贸网站建设优化河南知名网站优化首选罗湖付费网站优化怎么做网站关键词搜索优化二级网站可以做优化吗网站视频和图片如何优化网站结构优化中的理想结构南京营销网站设计优化价格东莞网站优化简历鸡西网站优化seo培训香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

天下网标王 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化