

国度数据巨匠掂量委员会委员、北京交通大学诠释注解张向宏。东说念主民网记者 翁奇羽摄
东说念主民网自贡6月16日电 (记者栗翘楚)6月16日,由东说念主民网·东说念主民数据主理的“2026东说念主民数据大会”在四川省自贡市举行。国度数据巨匠掂量委员会委员、北京交通大学诠释注解张向宏在大会主旨发言中暗示,东说念主工智能正加快从学习阶段迈入边界化诈欺阶段,而高质地数据供给不及正成为制约其深度落地的要道瓶颈。发展“数据工场”,是完结高质地数据集边界化、圭表化出产的势必采取。
张向宏先容,2025年是东说念主工智能从“检修”走向“诈欺”的起初。数据暴露,2025年国内AI推理数据量达101.34EB,初次至极98.14EB的检修数据量,象征着东说念主工智能已崇拜跨过学习阶段、步入边界化诈欺阶段。全年词元调用量约21100万亿,词元正成为东说念主工智能的新度量衡。有关词,相沿东说念主工智能时间升级的高质地数据集照旧匮乏。存量公域语料捏续供给乏力,海量私域数据、非结构化数据、行业高端数据无法有用供给,导致市面上各样大模子才能趋同,世界杯(中国)难以冲破专考场景诈欺。
张向宏觉得,高端数据匮乏的深层原因在于出产款式滞后。现时,大部分高质地数据集的出产仍处于“作坊式”阶段,大模子公司和东说念主工智能企业大多“自采私用”,亟需一种大概边界化、形势化、圭表化出产高端数据的新式基础形势——“数据工场”。
从缔造旅途看,数据标注企业升级、算力工场转型、东说念主工智能企业数据业务剥离、时间翻新企业引颈,是现时数据工场缔造的四种主要模式。张向宏先容,自前年底提议“数据工场”认识以来,寰球已有28个省、市将数据工场缔造列为2026年职责重心。
张向宏暗示,打造数据工场是完结高质地数据集边界化、圭表化供给的势必采取。在国度数据底座、中枢功能节点、行业与企业基础形势等不同层面布局缔造数据工场,构建从行业通识、行业专属到业务专精的多眉目数据供给体系世界杯(中国),才能鞭策数据身分切实就业于东说念主工智能发展和千行百业的场景需求,为东说念主工智能翻新发展提供饱胀、可捏续的“燃料”。