预训练语言模型在自动作文评分中的应用

一、什么是自动作文评分

自动作文评分（Automated Essay Scoring，AES）是指作文评分系统自动对一篇作文进行评分。AES主要包括表征和评分两个模块，其中表征模块用于将作文文本转化为一个数值向量，评分模块使用该向量计算作文分数。

二、相关工作及问题

AES可以分为基于手工特征的AES，基于深度学习的AES和基于预训练模型的AES。

基于手工特征的AES：该类方法通过提取影响评分的相关特征（如语法、词汇、连贯性等），使用回归、分类或者排序模型进行评分。由于特征的设计考虑了语言学知识，该方法在小规模数据中也能获得不错的结果，但特征工程耗时耗力，在不同的AES任务上扩展性较差。

基于深度学习的AES：该类方法通过LSTM、CNN等神经网络自动学习作文表征，获得了更好的评分效果[1-2]。其端到端的训练方式不仅节省了特征工程的时间，也增强了在不同AES任务上的可扩展性，但在数据规模较小时，神经网络方法的效果较差。有些AES通过集成手工特征和深度学习方法获得更好的效果，但依然需要较多的时间去做特征工程。

基于预训练语言模型的AES：该类方法使用预训练语言模型如BERT、XLNet等，通过在训练集上对其进行微调更好地表征作文。但在AES任务上，该类方法的大部分工作[3-5]尚未超过传统的深度学习方法[1-2]。通过训练任务、训练策略或损失函数的优化，部分工作如[6-7]可以获得更好的效果。但是当训练方案相同时，该类方法与传统深度学习方法效果接近或者更低。

三、基于预训练语言模型的评分方法

在流利说的AES系统优化进程中，也经历了上述三个阶段。本篇文章我们主要介绍我们是如何改进已有的基于预训练模型的方案，并在内部数据集和ASAP[8]数据集上，效果显著超过基于传统深度学习（LSTM、CNN）的方法。

问题分析

对于目前预训练语言模型在AES任务上效果不佳的问题，我们经分析认为：目前的预训练语言模型预训练时使用的都是句子或者文本片段，而AES需要对整篇作文编码，和预训练输入存在不一致；另外由于作文数量少，直接finetune预训练模型，很难获得较好的文档表征模型。我们进一步分析认为，老师对学生作文进行评分时会从多个粒度进行评估：词汇、句子、段落、文章，如词汇是否正确、句子是否通顺、段落内语句是否连贯、整篇作文的描述是否一致等。不仅如此，老师在对作文评分时，也可能考虑所有学生分数的分布信息，以及作文之间的比较信息。

由于预训练模型能够较好地捕获片段的特征，我们可考虑将文章按照某个尺度切分成多个片段，先使用预训练模型对片段编码，再汇总多个片段的编码来对文章进行评分。另外，由于老师在进行作文评分时会考虑作文的多粒度信息，我们可以使用多个尺度分别对作文评分，并融合多个尺度的评分结果作为最终的分数。为了使用作文分数的分布信息和作文之间的比较信息，我们引入相关的损失函数来训练模型。

模型结构

我们的模型结构如图1所示，图1的左半部分用于提取作文的文档尺度和词汇尺度特征并评分，右半部分提取作文的多个片段尺度特征并评分，最后将作文的文档和词汇尺度的评分、以及所有片段尺度对应的评分相加，获得最终的分数。在图1结构中，可以用XLNet，RoBERTa，Longformer等预训练模型代替BERT组件。在我们的工作中，因使用BERT时效果最好，因此我们以BERT组件来进行说明。

文档和词汇尺度特征：将作文输入BERT tokenizer进行分词，分词后结果对应的token向量、segment向量、position向量相加，输入BERT模型。由于BERT除特殊标记CLS和SEP外，最多支持510个词汇，当分词结果数量超过510后我们做截断处理。BERT对应CLS位置的输出作为文档尺度特征，对应每个分词位置的输出经Max Pooling得到词汇尺度特征。

多尺度片段特征：分词方式同上，对于尺度集合K=[k1, k2, … ks]中的每个尺度ki, 将分词结果以ki为尺度切分为⌈n/ki⌉个片段，其中n为词汇个数。我们将每个片段对应的token向量、segment向量、position向量相加后输入BERT，对应CLS位置的输出作为该片段特征。对应尺度ki的所有片段特征经LSTM、Attention处理后，获得作文对应尺度ki的片段特征。

分数预测：将作文的文档和词汇尺度特征拼接后输入多层感知器，获得作文在文档和词汇尺度的评测分数；将作文对应尺度ki的片段特征输入多层感知器，获得作文在片段尺度ki的评测分数；将作文对应的文档和词汇尺度评测分数、以及多个片段尺度k1, k2, … ks的评测分数相加，获得最终的作文分数。

图1：基于BERT的多尺度作文评测模型

损失函数

为了考虑作文分数的预测误差、分布信息、作文之间比较信息，我们使用了3个损失函数。

MSE(Mean Squared Error)：均方误差损失函数，其中N为一个batch内样本个数，和分别表示第i个样本的预测值和标签。

SIM(Similarity)：用于衡量一个batch内的样本预测分数和真实分数分布是否相似，具体如下所示，其中y和分别表示batch内样本的预测分数向量和标签向量。

MR(Margin Ranking)：用于衡量batch内样本的pairwise排序是否合理，具体如下所示：

其中为batch内pair的个数，表示batch内第i个样本的预测分数，b为超参数(我们实验中设置为0)，的取值根据样本的label 和确定，如下所示：

将上述3个损失函数加权求和作为模型训练使用的损失函数，对应的权重根据验证集表现确定。

实验结果

我们和其他方法在ASAP数据上的效果对比见表1，和top3方法在ASAP长作文数据上的效果对比见表2。

从表1可以看出，我们的方法12与方法9、方法10为top 3。在ASAP长作文数据上，我们方法的效果（QWK 0.772）超过了其他方法及相关变种（QWK 0.761）。

相对于传统的深度学习方法(方法4和方法6)，我们的方法11同样使用MSE来训练模型，通过引入基于BERT的多尺度编码方式，使效果有了较大提升（QWK 0.764提升至0.782）。传统的使用预训练语言模型方法，效果均未超过方法4和方法6。

表1：ASAP数据上各方法的效果比较，其中模型名为加粗字体代表我们的方法，平均效果排名前三的方法在平均指标的右上侧标有“*”。

表2：在ASAP长作文数据的效果对比，模型名为加粗字体的代表我们的方法。

除了ASAP任务，我们在内部的作文评分，文本难度分级等任务上都使用该方法进行了优化。该方法相对于传统的深度学习方法、及预训练语言模型方法，效果都有不错的提升。目前该方法已被NAACL 2022录用，大家如果有兴趣，可以从arxiv网站[9]下载我们的论文，欢迎一起交流。

四、流利说在AES领域的工作和产品应用

在流利说内部，我们融合多种基于手工特征、深度学习和预训练模型的算法，研发了一套针对口语和写作的AES评测系统，部分产品应用如下所示，同时我们也提供API供外部调用。

1. 流利写作

2. 达尔文口语作业

3. 雅思流利说

五、总结

本文介绍了AES领域的相关方法和问题，并针对预训练模型在AES领域的问题进行分析和改进，在流利说内部和外部数据数据上取得了较好的结果，也为长文本编码提供了一种有效的编码方式。目前流利说AES在多个场景中应用，我们会持续优化AES效果，推动AES技术的进步，也为用户带来更精致的评分体验。

参考文献

[1] Fei Dong, Yue Zhang, and Jie Yang. 2017. Attention- based recurrent convolutional neural network for au- tomatic essay scoring. In Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017), pages 153–162.

[2] Yi Tay, Minh C. Phan, Luu Anh Tuan, and Siu Cheung Hui. 2018. Skipflow: incorporating neural coherence features for end-to-end automatic text scoring. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, pages 5948–5955.

[3] Masaki Uto, Yikuan Xie, and Maomi Ueno. 2020. Neural automated essay scoring incorporating handcrafted features. In Proceedings of the 28th International Conference on Computational Linguistics, pages 6077–6088.

[4] Pedro Uria Rodriguez, Amir Jafari, and Christopher M. Ormerod. 2019. Language models and automated essay scoring. In arXiv: Computation and Language.

[5] Elijah Mayfield and Alan W Black. 2020. Should you fine-tune bert for automated essay scoring? In Pro- ceedings of the 15th Workshop on Innovative Use of NLP for Building Educational Applications, pages 151–162.

[6] Yue Cao, Hanqi Jin, Xiaojun Wan, and Zhiwei Yu. 2020. Domain-adaptive neural automated essay scoring. In SIGIR ’20: Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information, pages 1011–1020.

[7] Ruosong Yang, Jiannong Cao, Zhiyuan Wen, Youzheng Wu, and Xiaodong He. 2020. Enhancing automated essay scoring performance via fine-tuning pre-trained language models with combination of regression and ranking. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1560–1569.

[8] https://www.kaggle.com/c/asap-aes

[9] https://arxiv.org/abs/2205.03835

作者:蓝天

来源:微信公众号:流利说技术团队

出处:https://mp.weixin.qq.com/s/MUzs9VoS7VesHE-rfCa02Q

展开阅读全文

页面更新：2024-04-21

标签：模型评分向量尺度片段词汇分数特征效果语言方法

1 2 3 4 5

预训练语言模型在自动作文评分中的应用

插混及增程式汽车不再享受上海免费绿牌，对理想、问界等品牌影响有多大？

使用 Linux 的优势和劣势

智慧猪场，实现精准养殖

容量高、成本低、更安全，铝电池或成新能源储能优选方案

美团下场“开超市”，要告别社区团购？

全国首个技术转移硕士项目课程体系来了！田野调查、经营模拟等实践课占1/3

荣耀悄然上架“新机”，5000mAh+128GB+骁龙5G芯片，仅售1099元

荣耀80 Pro亮剑，16GB+天玑9000+5300mAh，很有看头

美国3次求购遭拒，重要性堪比光刻机，中国3D金属打印有多强？

三星正式发布One UI 5.0正式版本，将在本月进行推送

一加 N300 将于下个月发布，支持 33W 快充

腾讯回购再度加码！回购金额陡然增至6亿港元，此前单日一直3.5亿港元

疑似OPPO Find X6 Pro影像配置曝光加入IMX766潜望式长焦

荣耀推出了一款专为儿童打造的新型智能手表，支持4G视频通话

Windows阵营天花板？微软推出全新 Surface 设备 Surface Pro 9领衔

磊科Netcore NW715P无线路由器设置方法

谷维素和维生素B1可以长期吃吗？两者一起吃效果更好，是真

养胃的日子-发现一种适合自己的方法，坚持下去

黄斑病变的预防方法你了解吗

孩子提升记忆力的方法有哪些？掌握好这3个方法，效率让人

别小看专柜送的体验SPA，比你在家里自己做的效果好

手机的画面怎么投屏到电视上？分享4种投屏方法，总有一个

「巴马王家」如何提升自己气场？用这5个方法，稳稳提升气

劈柴院封闭改造将彻底“大变样”！效果图出炉有望年内

身上长老年斑，有办法彻底去除吗？告诉你一个从根源祛斑的