摘要:
本文对国家数据局向社会公开征求《国家数据基础设施建设指引(征求意见稿)》意见提几点建议。
2024年11月22日,国家数据局发布了关于向社会公开征求《国家数据基础设施建设指引(征求意见稿)》(以下简称《建设指引》)意见的公告。[1]《建设指引》是落实党的二十届三中全会明确提出的“建设和运营国家数据基础设施,促进数据共享”的具体举措,力争在当前情况下,说清楚数据基础设施的概念、发展愿景和建设目标,指导推进数据基础设施建设,推动形成横向联通、纵向贯通、协调有力的国家数据基础设施基本格局,打通数据流通动脉,畅通数据资源循环,促进数据应用开发,培育全国一体化数据市场,夯实数字经济发展基础,为数字中国建设提供有力支撑。
一、关于概念内涵
《建设指引》明确:“国家数据基础设施是从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体。国家数据基础设施在国家统筹下,由区域、行业、企业等各类数据基础设施共同构成。网络设施、算力设施与国家数据基础设施紧密相关,并通过迭代升级,不断支撑数据的流通和利用。”
建议:第一,要在数字中国“2522”整体框架下界定清楚国家数据基础设施的定位,在此基础上定义概念内涵和外延。数字中国有两大基础,即数字基础设施和数据资源体系,国家数据基础设施应在此两大基础范畴内,并且主要属于数据资源体系范畴。
第二,这里关于国家数据基础设施的内涵界定实际上基本覆盖了数据资源体系的各方面,是一个有机整体。因此国家数据基础设施应视为和数据资源体系基本等同的概念,是作为最基础的概念,和数字基础设施概念同等级别,不宜再设置和该概念平齐的其他数据方面的概念。其他关于数据的概念均为此概念下的子概念。
第三,关于国家数据基础设施的外延,这里从区域或领域角度分为区域、行业、企业等各类数据基础设施,作为一种分类方式是合适的。
第四,关于网络设施、算力设施,这里表述为“与国家数据基础设施紧密相关”,显得是和国家数据基础设施平齐的概念,后面又作为国家数据基础设施的组成部分,概念等级有所混乱。希望给予明确。一种方式是,网络设施、算力设施不属于国家数据基础设施,而属于数字基础设施范畴;另一种方式是,网络设施、算力设施既作为国家数据基础设施(数据资源体系)的部分,也作为数字基础设施的部分,即允许数字中国的两大基础设施(数字基础设施和数据资源体系)在网络设施、算力设施上有重叠。总之需要有一个清晰的概念架构。本文后面基本将数据流通利用基础设施和网络设施、算力设施以及安全保障体系平齐,都作为国家数据基础设施的组成部分,暂采取这一概念架构。
二、关于发展愿景
(一)关于主要目标
这里展开了关于国家数据基础设施在数据流通利用基础设施、网络设施、算力设施和安全保障体系四个方面的目标,以及所支撑的应用方面的目标。
(二)关于推进路径
总体上鼓励探索、创新、协同。
关于表述“2027—2028年,建成支撑数据规模化流通、互联互通的数据基础设施,数网、数算相关设施充分融合……”这里的“数网”是指网络设施吗?“数算”是指算力设施吗?建议规范用词。
三、关于总体功能
这里围绕数据流通、网络设施、算力设施和安全保障体系四个方面展开。“国家数据基础设施在高效弹性传输网络的支撑下……”表述有所不清,如果国家数据基础设施和传输网络是整体和部分的关系,就建议删除“国家数据基础设施”几个字。
四、关于总体架构
(一)关于技术架构
建议对“国家数据基础设施总体架构图”进行优化。第一,图示中“功能层”和“设施层”分离,而前述已经将数据基础设施的总体功能围绕数据流通、网络设施、算力设施和安全保障体系四个方面展开。第二,“功能层”应改为“能力层”,正文中表述为“国家数据基础设施具有数据采集、汇聚、传输、加工、流通、利用、运营、安全八大能力”。第三,“应用层”为数据基础设施支撑,但不属于数据基础设施。
这里明确“数据流通利用设施是国家数据基础设施的重要组成部分,为跨层级、跨地域、跨系统、跨部门、跨业务数据流通利用提供安全可信环境,包括可信数据空间、数场、数据元件、数联网、区块链网络、隐私保护计算平台等技术设施。”附录中对相关术语做了解释。但是,这些概念之间边界不清,交叉混合或相互包含,也并非全是“技术设施”。建议使用“可信数据空间”等国家数据局已经发布的《可信数据空间发展行动计划(2024—2028年)》[2]等权威文件中的术语,强化可信数据空间作为数据可信流通体系的基础和核心的定位。
(二)关于主要构成
这里提出了国家数据基础设施的三组分(企业、行业、区域数据基础设施)和一底座,建议在国家数据基础设施图示中体现。
五、关于重点方向
这里提出了一底座四体系。
在“建设数据高效供给体系”部分,疑似混淆了“数据标识”和“数据标注”两个不同的概念。“数据标识”是一种资源互通技术,通过为数据资源分配唯一标识符,实现快速准确的数据检索和定位,实现数据全生命周期的可追溯性和可访问性。[2]这里主要应使用“数据标识”概念。“数据标注”主要用于人工智能大模型预训练,在“制定高质量数据标注与交付规则,提高训练数据质量”一句中可以使用。建议厘清相关概念。
在“建设数据可信流通体系”部分,一是建议对五类可信数据空间与《可信数据空间发展行动计划(2024—2028年)》[2]进行一致性表述,即,积极推广企业可信数据空间,重点培育行业可信数据空间,鼓励创建城市可信数据空间,稳慎探索个人可信数据空间,探索构建跨境可信数据空间。二是建议相关概念统一到“可信数据空间”,理由在“关于技术架构”部分已经说明。三是建议强化可信数据空间建设和运营。事实上,数据可信流通体系的基础和核心就是可信数据空间。
在“建设数据便捷交付体系”部分,一是提到了“构建集约、高效的数据交付基础设施”,这又是一个新名词,建议使用标题中的“数据交付体系”。二是提到打造产学研用“一公里”工作圈,含义不清,建议删掉。
在“建设行业数据应用体系”部分,使用了“数据应用基础设施”新名词,建议改为“数据应用体系”。
六、关于算力底座
算力在前面作为“网络”出现,建议这里不使用“底座”,而统一使用“算力网络”概念。
七、关于附录的技术术语解释
一是建议名词解释的一致性,例如与《可信数据空间发展行动计划(2024—2028年)》[2]中的“隐私计算”“使用控制”等名词解释一致。二是建议相关概念统一到“可信数据空间”,理由在“关于技术架构”部分已经说明。
参考文献:
[1] 关于向社会公开征求《国家数据基础设施建设指引(征求意见稿)》意见的公告.(点击阅读)
[2] 国家数据局印发《可信数据空间发展行动计划(2024—2028年)》.(点击阅读)
作者简介:董学耕,原海南省大数据管理局局长、高级工程师,研究方向:数字政府、数字经济、数据要素。