中助数据标注|助力AI企业打造-方言蓝海

序言

伴随虚拟数字人一炮走红,为 AI企业通过人工智能主播播报各地方言新闻等内容,带来了庞大的脑洞空间。如何能够让两个跨方言语种的人,实现语言的相通?无论对于普通人来讲,有多难理解的方言,例如四川方言、吴语、闽南语等——AI均可触达!

方言,是语言的变体,根据性质,方言可分地域方言和社会方言。地域方言是语言因地域方面的差别而形成的变体,是全方言民语言的不同地域上的分支,是语言发展不平衡性而在地域上的反映。

社会方言是同一地域的社会成员因为所在职业、阶层、年龄、性别、文化教养等方面的社会差异而形成不同的社会变体。

随着,智能助手、智能搜索、智能导航、智能音箱等AI语音应用或产品,对于标准普通话的识别精准度越来越高,而对于方言,尤其是面对带有地方重口音的方言,识别精准度远不及标准普通话,且方言语种覆盖范围有限。

针对这样的问题,越来越多的企业已经提前发力、深度布局,探索语音领域中的方言识别能力。例如,百度输入法已经实现方言与方言、方言与普通话的混合语音输入;达摩院语音 AI 技术创新全景不仅有中英自由说,更有方言自由说;科大讯飞输入法迎来升级,离线方言语音输入支持23种方言......

AI遭遇的方言难题是什么?

方言识别与普通话识别差异大,方言的识别更加复杂,不仅体现在文字使用习惯上,例如:(普)我喜欢你-(沪)吾灰系侬,读音上也不同,“我”读“吾”。即使是同一个地区,方言也有不同,比如沪西和沪东的上海话也有分歧。又如:四川方言不同区域片儿叫法差异,成都地区管民工叫“搬运”,重庆地区则叫“棒棒儿”... ...

方言种类细分多样,给方言数据采集带来诸多困难。数据库的采集需要找到对应的发音人,搜罗某个方言对的字、词、句,通过文字、音标、语音的方式记录,最后集成数据库,供人工智能学习。众多方言种类意味着大量的方言语音数据,并且为了实现识别的高准确率,对于数据质量,语言模型多样性也有着更高的要求。

AI学会方言后会有什么变化?

智能应用领域,任何地区的重口音、方言用户都可以普通话混合方言随意说出指令,不会因为口音问题出现听不懂、会错意的问题,即使是只会讲方言的老年人,也可以跟家里智能产品对话,实现无障碍交流,享受到科技带来的美好;输入法领域,不必再担心因为方言出现的错输、漏输问题;当AI掌握方言,对于用户来讲,意味着更加高效、畅通无阻的人机交流的实现。对于AI企业来讲,意味着更大的市场空间,一定程度上不仅能打破方言带来的交流困局,而且将覆盖更广泛的消费人群,有助于扩大产品的市场份额。

除了成品方言数据集产品,中助积累了丰富的语音数据服务项目经验,可以提供定制化数据解决方案及服务。可提供数十个行业场景的语音数据方案设计、语音采集、转录、发音词典制作服务,支持覆盖国内几十种官话语种及方言。

随着城镇化进程和互联网时代的发展,主流或通用语言占据主导,类似于少数民族语言和方言的使用人数逐渐减少,人工智能的发展也为方言保护提供了绝佳的手段。将来,中助数据标注研究所将继续深耕行业,用数据的方式留存方言,覆盖包括国内地域方言到国内稀有语言语种,推动人工智能应用掌握更多语言技能。

展开阅读全文

页面更新:2024-03-08

标签:方言   数据   变体   人工智能   助力   语种   普通话   地域   语音   语言   智能   企业

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top