业内首个古彝文编码“大字典”发布 ,AI为古文字打造“身份证”

【环球网科技综合报道】9月26日消息,近日,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,使古彝文在数字社会中有了“身份证号码”。

古彝文典籍编码、识别过程(图源:西南彝志)

据悉,为推动古彝文数字化进程,合合信息与华南理工大学共同成立的文档图像分析识别与理解联合实验室,联合上海大学社会学院组建研究团队,共同解决数据库建设中的学术性、技术性难点。

项目技术负责人、华南理工大学电子与信息学院教授金连文表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。

在古彝文语料收集过程中,研究团队通过合合信息旗下的“扫描全能王”来进行古籍图片采集。其“智能高清滤镜”功能基于AI技术及智能扫描引擎,可自动检测图像中存在的问题,并智能判定图像的优化方式,一键处理模糊、阴影、手指、屏幕纹等干扰因素,以此减轻后续图片处理工作,缩短内容识别、编码的操作周期。

扫描全能王“智能高清滤镜”古籍扫描效果(图源:西南彝志)

在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。

古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究。

来源:环球网

展开阅读全文

页面更新:2024-02-14

标签:华南理工大学   滤镜   语料   古文字   环球   身份证   业内   图像   数据库   智能   基础   社会   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top