SCI论文上新 - 数之联提出了一种基于数据增强的领域预训练方法

近日，中国电子科技集团公司第十研究所甘翼、路高勇、苏智慧、成都数之联科技股份有限公司王磊、周俊临、蒋家玮与电子科技大学陈端兵在SCI期刊《Applied Sciences》合作发表了题为《A Joint Domain-Specific Pre-Training Method Based on Data Enhancement》的学术论文。甘翼为论文第一作者，陈端兵为论文通讯作者。该论文提出了一种基于数据增强的领域预训练方法。

论文下载链接：https://www.mdpi.com/2076-3417/13/7/4115

近年来，随着人工智能领域飞速发展，特别是在深度学习的支持下，自然语言处理技术（NLP）在各项任务中取得了巨大进展。在这些任务中，预训练技术起到了至关重要的作用。随着预训练模型越来越准确，微调所需预训练语料库规模越来越大。然而，很少有研究探讨预训练语料库的选择。

在传统的预训练过程往往存在两个问题：

1 在对下游任务进行微调后，往往会忘记在预训练阶段学到的知识，导致灾难性的遗忘。

2 预训练过程与下游微调联合训练是一种可以有效缓解灾难性遗忘问题的解决方案。然而，由于预训练语料库的规模很大，需要大量的计算资源和时间。

基于此，本文提出了一种基于数据增强的领域预训练方法来解决这两个问题。

该方法首先将预训练任务和下游微调任务进行联合训练，以缓解现有经典预训练方法产生的灾难性遗忘问题。然后，基于从下游任务反馈的难分样本，本方法从领域语料中选择相似文本来重建预训练语料库。通过对重建的预训练语料库的学习可以加深模型对无法确定的文本表达的理解，从而增强模型对领域文本的特征提取能力。在没有对预训练语料库进行任何预处理的情况下，分别对命名实体识别（NER）和文本分类（CLS）这两个任务进行了实验。

实验结果表明，与其他基准方法相比，学习所提出方法选择的领域语料库可以补充模型对领域特定信息的理解，并提高基本预训练模型的性能，以获得最佳结果。

《Applied Sciences》作为综合性期刊，提供了一个关于应用自然科学各个方面的高级论坛。发表评论，研究论文和通讯。目标是鼓励科学家尽可能详细地发表他们的实验和理论结果，目前被18个国际数据库收录和摘要。2022年影响因子/JCR分区：2.838/Q2。

展开阅读全文

页面更新：2024-04-05

标签：语料库语料领域方法论文灾难性下游模型文本期刊数据

1 2 3 4 5

SCI论文上新 - 数之联提出了一种基于数据增强的领域预训练方法

中英双语必应AI与后搜索时代之前奏

"半导体技术：改变世界的力量"

一降价就疯狂卡罗拉降价3万 30天卖近1.3万辆

浙江5人入选！“35岁以下科技创新35人”中国榜正式发布

1.3万颗，中国版星链将上阵，美国占领低轨卫星空间图谋破灭

直接「乱杀」？魅族20系列正式发布：顶配卖到了8499元！

奇瑞新能源姗姗来迟，小蚂蚁最高直降9000元，最低3.59万起售

马老板回归，阿里巴巴指日可待？哪个板块先起飞？

马斯克的警告是对的，但他的呼吁一定没用

影像大提升！曝iPhone 15 Pro Max搭载潜望式长焦

哔哩哔哩副董事长兼COO李旎：AIGC为创作者带来无限机遇

别把红米Note12 Turbo“神化”，虽有性价比，与红米K60还是没法比

发布会后实体店上手红米Note 12 T，感觉和卢总讲的不太一样

碧桂园服务：年末现金流希望达到200亿元，核心净利润增长10%以上

为“性”买单，百亿情趣用品市场春风乍起

2023年1-2月中国存储部件进口数据统计分析：进口量同比

度盘不限速下载的最新方法，30M/s吃满宽带！

大数据扫黄：如何认定你涉黄？支付记录能否作为证据？

微软圣何塞数据中心的净零排放之路

服务器数据恢复Windows服务器对VMFS改写的数据恢复案

新能源行业热度不减上市公司扎堆跨界布局新能源领域

《普拉西亚战记》下载教程，官网打不开、下载慢延迟高的

3个月孩子眼轴回退0.18毫米，家长用了以下这5个方法

周鸿祎演示自研类ChatGPT模型现场回答观众多个问题

经常在夜里睡不着？这些方法或许能缓解！