SCI论文上新 - 数之联提出了一种基于数据增强的领域预训练方法

近日,中国电子科技集团公司第十研究所甘翼、路高勇、苏智慧、成都数之联科技股份有限公司王磊、周俊临、蒋家玮与电子科技大学陈端兵在SCI期刊《Applied Sciences》合作发表了题为《A Joint Domain-Specific Pre-Training Method Based on Data Enhancement》的学术论文甘翼为论文第一作者,陈端兵为论文通讯作者。该论文提出了一种基于数据增强的领域预训练方法。

论文下载链接:https://www.mdpi.com/2076-3417/13/7/4115

近年来,随着人工智能领域飞速发展,特别是在深度学习的支持下,自然语言处理技术(NLP)在各项任务中取得了巨大进展。在这些任务中,预训练技术起到了至关重要的作用。随着预训练模型越来越准确,微调所需预训练语料库规模越来越大。然而,很少有研究探讨预训练语料库的选择。


在传统的预训练过程往往存在两个问题:

1 在对下游任务进行微调后,往往会忘记在预训练阶段学到的知识,导致灾难性的遗忘。

2 预训练过程与下游微调联合训练是一种可以有效缓解灾难性遗忘问题的解决方案。然而,由于预训练语料库的规模很大,需要大量的计算资源和时间。

基于此,本文提出了一种基于数据增强的领域预训练方法来解决这两个问题。

该方法首先将预训练任务和下游微调任务进行联合训练,以缓解现有经典预训练方法产生的灾难性遗忘问题。然后,基于从下游任务反馈的难分样本,本方法从领域语料中选择相似文本来重建预训练语料库。通过对重建的预训练语料库的学习可以加深模型对无法确定的文本表达的理解,从而增强模型对领域文本的特征提取能力。在没有对预训练语料库进行任何预处理的情况下,分别对命名实体识别(NER)和文本分类(CLS)这两个任务进行了实验。

实验结果表明,与其他基准方法相比,学习所提出方法选择的领域语料库可以补充模型对领域特定信息的理解,并提高基本预训练模型的性能,以获得最佳结果


《Applied Sciences》作为综合性期刊,提供了一个关于应用自然科学各个方面的高级论坛。发表评论,研究论文和通讯。目标是鼓励科学家尽可能详细地发表他们的实验和理论结果,目前被18个国际数据库收录和摘要。2022年影响因子/JCR分区:2.838/Q2。

展开阅读全文

页面更新:2024-04-05

标签:语料库   语料   领域   方法   论文   灾难性   下游   模型   文本   期刊   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top