数据要素白皮书:2024年用于训练大模型的数据六成将是合成数据

中新经纬10月14日电 (孙庆阳)近日,中国信息通信研究院发布了《数据要素白皮书(2023年)》(下称“报告”),并授权中新经纬研究院联合发布。报告预测,2024年用于训练大模型的数据中有60%将是合成数据,到2030年大模型使用的绝大部分数据都将由人工智能合成。模型训练中必不可少的语言数据将于2030-2040年耗尽,其中能训练出更好性能的高质量语言数据将于2026年耗尽,而视觉数据恐将于2030-2060年耗尽。未来,合成数据将成为模型训练的关键数据。

报告认为,部分行业外部数据采购需求强烈。部分企业期望通过内外部数据的相互融合获得更加精准的市场分析、用户画像等能力来解决业务开展过程中的核心问题,金融机构、互联网平台、广告公司等企业的外部数据采购规模呈稳定增长趋势。截至2022年,金融行业的数据供应商可达2200多家,其中注册资本金在1000万元以上的占67%,公司成立时间不超过10年的接近半数。

据报告统计,2023年1月至8月,国内新成立5家数据交易机构。目前,全国已先后成立53家数据交易机构,其中活跃的数据交易机构已上架数据产品超12000种。

报告指出,中国人工智能领域高质量数据集缺乏、数据供给的产业生态不健全、企业数据资源获取成本高等问题依然严峻。

报告提出四大重要观点,一是公共、企业、个人三类数据有不同重点突破方向。二是企业政府双向发力推进可持续探索。企业和政府构成推进数据要素发展的核心力量。三是数据流通场内外结合推动数据资源最优配置。数据要素市场是实现数据要素价值第三次飞跃的关键。四是数据技术基于业务需求加速创新与体系重构。数据技术是伴随业务要求发展的。

数据要素是数字经济时代的核心资源,能推动传统产业转型升级,推动产业智能化发展。数据要素作为新型生产要素,对经济增长的贡献占比也越来越大。随着“数据二十条”等一系列政策措施相继出台,数据要素市场培育进展加速,畅通数据资源大循环的方向愈加明确。尤其是在人工智能快速迭代、大模型与大数据相得益彰的发展态势中,数据要素战略地位进一步凸显。

(中新经纬APP)

本文由中新经纬研究院选编,因选编产生的作品中新经纬版权所有,未经书面授权,任何单位及个人不得转载、摘编或以其它方式使用。选编内容涉及的观点仅代表原作者,不代表中新经纬观点。

责任编辑:宋亚芬

展开阅读全文

页面更新:2024-02-12

标签:要素   模型   数据   选编   人工智能   白皮书   经纬   研究院   报告   资源   企业

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top