您当前的位置：中国甘肃网 >> 财经新闻 >> 产经

国内多数模型训练使用中文数据占比超60%

2025-08-19 07:49 来源：人民日报

　　本报北京8月18日电（记者王云杉）记者从国家数据局获悉：中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%，有的模型达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能快速提升。

　　在人工智能时代，Token（通常所说的词元）是处理文本的最小数据单元。国家数据局局长刘烈宏介绍，2024年初，我国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。

版权声明：凡注有稿件来源为“中国甘肃网”的稿件，均为本网原创版权稿件，转载必须注明来源。

西北角

西北角

中国甘肃网微信

中国甘肃网微信

中国甘肃网微博

微博甘肃

微博甘肃

学习强国

学习强国

今日头条号

今日头条号

互联网新闻信息服务许可证编号:6212006002 | ICP备案：陇ICP备17001500号 | 经营许可证编号：甘B2-20060006 | 广播电视节目制作经营许可证编号:(甘)字第079号增值电信业务许可证编号:甘B2__20120010

食品药品监管总局投诉举报电话：12331 | 互联网违法和不良信息举报电话：12377

主办：甘肃中甘网传媒有限责任公司 | 本网常年法律顾问团：甘肃和谐律师事务所（0931-8580115）甘肃天旺律师事务所（0931-8864528）

Copyright © 2006 - 2024 中国甘肃网（GSCN.COM.CN） All Rights Reserved

网站简介 | 人才招聘 | 广告服务 | 联系我们 | 违法和不良信息举报电话： 0931-8960109 0931-8960307(传真)

分享到

取消