“词元”定名,不止于名

文/张志文

据中国科学报报道,近日,全国科学技术名词审定委员会发布《关于发布试用人工智能领域名词token中文名“词元”的公告》,决定在综合考量社会各界意见建议的基础上,优先推荐“词元”作为人工智能领域名词token的中文名,并面向全社会发布试用。

技术术语的汉化,向来需要在“信、达、雅”的翻译追求与科学性、实用性之间寻求平衡,而“词元”的出现,为这一难题提供了颇具参考价值的优秀范本。

在“词元”之前,“token”在中文技术圈长期处于“悬置”状态。业内要么直接使用英文,或沿用区块链领域的“令牌”译法。后者在人工智能语境下容易引发歧义。大模型中的token既不承载“令”的授权含义,也非实物凭证,而是语义的最小离散单元。

“令牌”之译,本质是一种“望文生译”的误读。而“词元”则将概念从“身份验证”拉回“语言计算”,完成了一次对术语的“祛魅”。当公众读到“词元”时,不再需要跨越区块链的认知干扰,能直接切入AI的核心逻辑。

以翻译“信、达、雅”的标准审视,“词元”的精妙之处,首先体现在用字的精准考究。“词”取自词汇,点明其与语言模型的本源关联,相较于“字”与“句”,“词”在中文语境中天然暗含可切分的最小意义单位之意,即便token涵盖词缀、子词等形式,也能保留其承载语义的核心特征。

“元”更是点睛之笔,在中文科技术语体系中,“元”本就代表基本单元与本源,从化学中的元素到信息技术中的元数据,这一字早已形成固定的术语认知。将“元”与“词”结合,既精准传递出“语言相关基本单元”的核心定义,又让新概念融入成熟的中文术语谱系,同时双音节的组合符合中文表达习惯,朗朗上口更易传播。

更具前瞻性的是,“词元”的命名展现了中文术语应对技术迭代的包容力。当前大模型已从文本迈向多模态,图像被切分为“图像块”,语音被编码为“离散单元”,它们都被统称为token。此时若固守“词”的字面义,术语将迅速过时。

但“词元”中的“词”并未失效——它借助中文常见的类比思维,自然延伸为“广义的符号单元”。这一用法在中文术语中早有先例:“词云”并非严格意义上的“词”,而是关键词的可视化集合;“词袋模型”中的“词”同样泛指文本特征。

中文的“词”字本身就具备从狭义语言单位向广义符号单元衍生的弹性。正是这种弹性,让“词元”在多模态时代依然站得住脚。

“词元”的定名,意义远不止于一个术语的确定。它意味着我国在人工智能领域正从技术引进走向话语构建。长期以来,计算机科学的中文术语深受英文源词影响,往往采取“被动对译”模式。而“词元”的诞生过程则体现了一种主动的名词构建意识。

它不仅回答“token是什么”,更回答了“在中文知识体系中,应当如何理解与定位这一概念”。

当然,术语的定名从来不是终点,而是一次对话的起点。“词元”走完了从技术原词到中文概念的蜕变之路,但它在实际使用中能否真正取代“token”,能否被开发者、学习者和公众自然接受,还需要时间的检验。

展开阅读全文

更新时间:2026-03-31

标签:科技   中文   术语   单元   人工智能   名词   模型   领域   语言   切分   令牌

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号

Top