科大讯飞荣膺ECCV OOV-ST挑战赛文字识别赛道冠军

中证网讯（王珞）近日，在三大计算机视觉顶级会议之一的2022 ECCV（欧洲计算机视觉会议）上，科大讯飞荣膺2022 OOV-ST挑战赛（The ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding ）文字识别赛道冠军，取得了OOV场景和综合场景双指标第一的佳绩。

与以往文本识别比赛不同，OOV-ST挑战赛中测试集的词语从未出现在训练集中，参赛的文本识别系统相当于进行了“闭卷考试”，而且考的还是之前没有学过的内容，难度大大升级。此次比赛夺冠展现了科大讯飞在图文识别领域上的技术实力，这也是科大讯飞连续第五年在图文识别国际比赛上夺冠。

OOV-ST挑战赛是由谷歌、亚马逊和巴塞罗那自治大学共同举办的首个针对集外泛化问题的场景文字理解赛事，较全面地定义了面向集外字词的比赛任务，并提出了相应的数据集。这就要求模型具备较高的集外场景泛化性。此次比赛吸引了包括字节跳动、好未来、NAVER/LINE、清华大学、东京大学等国内外知名公司、机构和高校参赛。

科大讯飞研究院所参与的文本识别赛道中，OOV-ST挑战赛以鲁棒性和泛化性为考察目标，重点要求参赛者方案具备对训练阶段从未见过的“位置词语词汇”的识别能力，同时要求参赛者所提交的解决方案能够兼顾集内已知词汇的识别效果，这就要求模型具备较高的集外场景泛化性。

人类能够通过学习简单样本快速提升知识水平，并具备较好的迁移能力——例如人类通过学习汉字的笔画和偏旁部首知识，就能完成对新汉字的辨认和转写。而这种能力是当前神经网络模型的薄弱项，也是本次比赛的核心考察项。

为此，科大讯飞研究院提出了基于视觉语言自适应权衡的VLADM（Vision-Language Adaptive Mutual Decoder）方案，在复杂场景上取得了集外词59.61%、综合指标70.31%的句正确率效果，最终夺冠。此次比赛所涉及的文字识别能力和集外词识别技术，目前已经在讯飞翻译机、讯飞AI学习机等产品中落地应用，为人们的工作、学习和生活提供了更多便利。

未来，讯飞研究院将在图文识别领域的相关技术上持续发力，并结合实际落地应用探索更多技术赋能场景，让机器拥有更犀利的“眼睛”和智慧的“头脑”。

展开阅读全文

页面更新：2024-05-10

标签：挑战赛赛道汉字外场参赛者模型场景文本视觉冠军能力文字

1 2 3 4 5

科大讯飞荣膺ECCV OOV-ST挑战赛文字识别赛道冠军

国产操作系统破冰，下载量破100万，华为研发

区块链技术的演变史

北斗卫星日定位量已超过2100亿次

新产品刚刚上架2天就被停售，如何快速恢复？

江汽集团新能源花仙子购车指南软硬件配置出色

「超级数据看板」重磅上线，自助式数据分析助力商户管理多店铺！

ESBuild & SWC解析: 距离新一代构建、打包工具有多远？

谁还期待互联网？

教培机构搭建网校平台前，你了解系统需要实现哪些功能吗？

关注 - 埃安高端品牌Hyper昊铂计划独立渠道新车型将于广州车展亮相

江苏南通苏锡通科技产业园区营商环境再提升

美大钟传良：破卷的定力，坚持“高质量”发展之路

工信部“中国医药工业最具投资价值企业”揭晓，上海和黄药业蝉联榜单

预见2023：《2023年中国能源物联网行业全景图谱》

金龙鱼：没有任何计划要收购鲁花，近两年多因素致利润受影响

智能物联网有哪些应用场景？_SKYLAB无线模块带您了解

哈勃太空望远镜捕捉到具有节日气氛的韦斯特豪特5号星

一场8:0让泰山夺冠越来越渺茫，三镇冠军稳了，球迷偷着乐

阳没阳都要看！全天候多场景分阶段防护攻略

从黑夜嗨到白天！数千阿根廷球迷聚集在方尖碑广场，等待冠

“抢”得莫伊塞斯，海港或重温联赛冠军之梦

阿根廷1978年冠军教练梅诺蒂：我认为梅西可以参加下届世

以赛为“媒”！松山湖这个挑战赛，帮企业对接技术需求86项

阿根廷夺冠，中国义乌商家赢麻了！几天前就开始生产冠军球

梅西为球队拿下了世界杯冠军同时还得到了一件黑色的斗