“曹植”大语言模型是如何诞生的？来看达观数据CTO的讲述

“曹植七步成诗，他写的最著名的篇章《洛神赋》就是古代文学作品里典型的首屈一指的长文本。这也是‘曹植’大模型的专长，做长文档资料智能化的分析写作工作。”2023年世界人工智能大会（以下简称“WAIC2023”）上，达观数据董事长陈运文正式发布“曹植”垂直领域大语言模型（以下简称“曹植”大模型）时如此介绍道。

这是国内首个垂直行业专用的自主可控的国产GPT大语言模型，可准确完成多类型、复杂结构的长文本写作，自动起草多种类型的文档，未来将实现多模态内容生成，如长文档中的表格、图表、图片等。那么“曹植”是如何诞生的呢？来听达观数据CTO纪达麒的讲述。

深耕NLP领域

达观数据成立于2015年，成长于上海浦东软件园，其创始团队都是与中国文字打过十几年交道的程序老兵，并深耕于NLP（自然语言处理）领域。今年3月，随着垂直、专用、自主可控的国产版ChatGPT“曹植”大模型的发布，达观数据正不断推动着NLP技术向不同行业领域深度结合。

NLP被誉为AI皇冠上的明珠。从互联网拓宽至更广泛行业，达观数据在金融、政务、制造等行业积累了垂直领域的大量数据、人才与NLP传统架构。在与来自金融、政务、制造等行业的客户进行了广泛的交流后，达观数据联合创始人、CTO纪达麒逐渐发现，NLP技术在办公文档方面有着广阔的应用前景。

2017年，谷歌发表的论文中提出，NLP关于“理解”和“生成”的两个技术路线。“基于达观数据当时的优势资源和未来发展，我们一开始就选择了‘理解’这条技术路线。”纪达麒介绍。这一年，纪达麒和研发团队运用知识图谱、文字识别等技术开发的IDP智能文档审阅系统进入市场。

随着人工智能的不断发展，机器智能处理长文本的需求日益紧迫。随后，达观数据便投入到大语言模型的开发工作中，纪达麒担任该项目总负责人。这就是如今的“曹植”大模型诞生的起点。

“培养”出人工智能版“曹植”

“我们想‘培养’出人工智能版的‘曹植’，希望它能像我国的历史名人曹植一样快速地生成长文本。”提及“曹植”大模型这一名称的由来，纪达麒笑言，“这是我们员工在四五十个名字中票选出来的。”

“长文本”是“曹植”大模型的目标任务。区别于一问一答的简单短文本生成，“曹植”大模型可准确完成多类型、复杂结构的长文本写作，自动起草多种类型的文档，同时具有自动排版、智能纠错、文本润色、自动生成摘要等特色功能；还可实现多模态内容生成，比如长文档中的表格、图表、图片等；支持中文、英文、法语、德语、日语、韩语等数十种语言的写作，辅助人工大幅提高办公效率；在长文档翻译方面，对原文的标题、段落等内容实现1:1版式还原，提供实时的翻译体验，广泛应用于多语言文档密集处理的场景。

这也是国内大规模语言模型中首批可落地的产业应用级模型，目前已在金融领域AIGC多场景投入应用。基于“曹植”系统，“曹植”大模型进一步夯实了达观数据产业应用智能化基座，全面增强AI全产品矩阵能力。

文字：路小雨

编辑：吴燕

资料：区科经委

* 转载自浦东发布官方微信

栏目主编：张武文字编辑：程沛

来源：作者：浦东发布

展开阅读全文

页面更新：2024-03-11

标签：达观模型语言数据人工智能文本领域类型文字文档

1 2 3 4 5

“曹植”大语言模型是如何诞生的？来看达观数据CTO的讲述

共话融合转型，共谋聚力发展-中国报业发行暨电商大会在青海召开

河套连深港一起向未来

以人才引领科技创新，2023外滩大会将举办科技招聘会

泰山景区“‘天眼护山’智慧防火系统”入选“山东省地理空间数据十大应用创新案例”

华硕无畏15i BAPE联名限定版笔记本开启预售

“走出去”“迎进来”延边海量跨境商品任你选

上线两年后，谷歌不再提供Pixel Pass综合订阅服务

Apple TV Plus暗示正在制作VR怪物系列：哥斯拉即将登陆Vision Pro

科技改变生活！儿子给妈妈的水壶3D打印了个盖儿

双胞胎青年科学家：跳出舒适圈

微软Edge浏览器116版本新增“复制视频帧”功能，可提取原画

智慧景区方案：AI与视频融合技术如何助力景区监管智能化升级？

eBPF程序注入到内核中的流程，现在就带你研究(上）

30个不寻常的发明创造，使人们的生活变得更加有趣

中国移动可真大方啦，推出13项免费权益，全国都可用

泰山景区“‘天眼护山’智慧防火系统”入选“山东省地

鱼跃吴群：人工智能会成为呼吸治疗、糖尿病护理新增长点

JAMA：降脂药重大突破！全球首个口服降脂蛋白(a)的小分子

文心一言、百川大模型等首批通过备案向公众开放，从三大

基于压控振荡器的模数转换器，因高集成度低功耗，更适合生

信息数据+人工智，药物研发的加速进程，人类生存的又一个

冲击最佳新秀阵容！神秘人官方晒李梦数据：在球场内外都带

外媒：美国帮助下载东航黑匣子数据，或将获取飞行员三人通

中央网信办：生成式人工智能服务发展治理需多方参与

中国4大领域迎来重大突破，比光刻机还振奋，这下轮到美国