业内首个古彝文编码“大字典”发布，AI为古文字打造“身份证”

【环球网科技综合报道】9月26日消息，近日，合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库，该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进，针对现有的《西南彝志》、云贵一带字符，以智能图像处理、智能文字识别等AI技术开展统一编码，使古彝文在数字社会中有了“身份证号码”。

古彝文典籍编码、识别过程（图源：西南彝志）

据悉，为推动古彝文数字化进程，合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室，联合上海大学社会学院组建研究团队，共同解决数据库建设中的学术性、技术性难点。

项目技术负责人、华南理工大学电子与信息学院教授金连文表示，原生态彝文此前没有被系统性地进行数字化编码，古彝文没有公开数据集，标注困难，所以从最初语料的收集开始，就需要做大量的前置工作。再者，古彝文异体字繁多，每个字的异体写法少则两三种，多则几十种，且字体间风格差异大。因此，建立一个专门的数据库，通过基础编号将不同样式归纳，才能“破解”古彝文“一对多”的关系，解决文字查询问题。

在古彝文语料收集过程中，研究团队通过合合信息旗下的“扫描全能王”来进行古籍图片采集。其“智能高清滤镜”功能基于AI技术及智能扫描引擎，可自动检测图像中存在的问题，并智能判定图像的优化方式，一键处理模糊、阴影、手指、屏幕纹等干扰因素，以此减轻后续图片处理工作，缩短内容识别、编码的操作周期。

扫描全能王“智能高清滤镜”古籍扫描效果（图源：西南彝志）

在对7万6千字符的样本进行训练后，团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式，该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法，如同“大字典”一般，帮助人们降低古彝文书籍、文献阅读的门槛。

古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示，古彝文数据库的发布并非一个最终的研究结果，而是一项非常重要的基础性工作。基础编码的发布，意味着这些文字在数字社会里从此拥有了“身份证号码”，能够被更多地展现在网络空间上，被更广泛的人群看见、认识、研究。

来源：环球网

展开阅读全文

页面更新：2024-02-14

标签：华南理工大学滤镜语料古文字环球身份证业内图像数据库智能基础社会信息

1 2 3 4 5

业内首个古彝文编码“大字典”发布，AI为古文字打造“身份证”

优质科普资源下沉社区，长宁新泾镇携手上海动物园举行园社联动蝴蝶主题科普活动

滴滴货运福利站落地苏州，为货运司机送月饼

国产商用飞机在新疆演示飞行，圆满！

常泰长江大桥南主塔顺利封顶

中国节水论坛：节水技术与装备受关注

山东农业大学研发出适合机采的鲜食番茄

网信办发布第一批应用程序分发平台备案编号

科普中国直播｜豫见2023全国科普日河南省青少年科技教育展

我市启动新一轮市级重点实验室布局

中国能制造轰炸机，为何造不好民用大飞机？民用客机很难造吗

内蒙古一小区施工挖出煤层？自然资源局称属实施工队称将继续施工

保护古树名木赓续中华文脉丨青岛古树名木保护科普宣传周启动西海岸古树公园落成

国家大力值计量基准能力建设取得新突破

科创中心“核”动力｜罗森博特：骨折手术的“超级”助手

小时候被父母教育不明所以，长大了身为父母时刻想教育孩子

智能照明系统：让文物更有尊严地展示

环球资源-B2B会展的最佳实践：成功的策划和执行

全球滨海论坛激发国际社会共识，为全球滨海保护提供工具

软通动力：AI端云协同昇腾解决方案目前已赋能150余个央

（社会）“亚洲第一长洞”最新探明连通长度达409.9公里跃

电力行业人工智能创新平台发布，携手华为商汤等企业打造

联想王立平：以新IT为代表的全新智能生产力将推动生产持

“青少年人工智能科普丛书”重磅发布：由人工智能与人类

华为“王者归来”！三季度中国智能手机市场排名公布

小黄人来啦！厦航又一架环球主题涂装飞机首航

业内首个古彝文编码“大字典”发布 ，AI为古文字打造“身份证”

业内首个古彝文编码“大字典”发布，AI为古文字打造“身份证”