中国青年报客户端北京6月19日电(中青报·中青网记者 贾骥业)6月18日至19日,由中国通信标准化协会主办的“2025数据智能大会”在北京举行。会上,中国信息通信研究院(以下简称“中国信通院”)发布了《数据智能研究报告(2025年)》。报告指出,当前,以大模型为代表的人工智能技术正在数据智能产业加速渗透,高质量数据集则是支撑大模型训练、应用的关键基础。
所谓高质量数据集,就是通过系统性筛选、清洗、标注、增强合成、质量评估等环节形成的标准化数据产品,具有格式统一、质量可控、场景适配性强等特点。中国信通院云计算与大数据研究所所长何宝宏表示,在提升模型的准确性、稳定性和泛化能力,减少模型偏差和不公平现象等方面,高质量数据集发挥着重要作用。
近年来,我国高度重视高质量数据集建设工作。国家数据局综合司日前印发的《数字中国建设2025年行动方案》提出,要积极开展人工智能高质量数据集建设,加强交通、医疗、金融、制造、农业等重点领域数据标注,建设行业高质量数据集。“我国的高质量数据集建设进入新阶段。”何宝宏说。
但他也强调,当前,仍然有3大瓶颈限制着行业高质量数据集建设。一方面,业界缺乏高质量数据集建设的系统方法论。同时,相关技术能力还存在短板,比如不同系统产生的数据格式各异,兼容性和一致性问题比较突出。此外,数据的流通机制还不完善,尤其在企业数据层面,出于数据安全、商业竞争、责任规避等原因,数据资产极少以结构化、标准化形式向外部提供,定价机制不清、数据使用授权不规范、数据变现路径模糊等问题依然存在。
何宝宏认为,未来,随着多模态数据处理工具进一步完善,智能化能力的引入将进一步提高多模态数据处理的效率和质量。同时,以可信数据空间为代表的数据基础设施的建设落地,将推动形成高质量数据集协同生态。“协同生态会吸引更多数据提供方与服务方加入,更多数据源被发现,将推动高质量数据集与行业深度融合。”何宝宏说。
6月18日至19日,由中国通信标准化协会主办的“2025数据智能大会”在北京举行。会上,中国信通院云计算与大数据研究所所长何宝宏对《数据智能研究报告(2025年)》进行了发布并解读。主办方供图
来源:中国青年报客户端
更新时间:2025-06-20
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号