现在位置:首页 > 要闻动态 > 中心动态
董学耕:可信数据空间的可信根与整体可信
时间:2024-10-21
来源:

摘要:

可信数据空间是数据基础设施的重要组成部分,其核心是数据在不同主体之间的可信流通。本文研究了可信数据空间的实现路径,提出了“可信根”概念,让政府作为经济学、社会学和法律意义上的“可信根”,为可信数据空间背书。同时,可信数据空间还需要对数据来源者(即关联对象)整体可信。

关键词:数据空间;可信数据空间;可信根;整体政府;整体可信

一、数据和数据空间

数据是从物理空间到赛博空间(网络空间或数字空间)的映射。物理世界的元素映射到赛博空间的数据。数据记录了物理世界的元素(关联对象或关联物)在某时某地的某个侧面、属性或行为,成为信息。质而言之,数据记录了人类的实践活动,成为现实世界的实践信息。因此,数据反映了物理世界的某个侧面,即作为信息的“记录”载体。同时,信息便是数据“记录”的内容。

对同一个物理对象(物理世界的元素)可以有多种映射,多种映射所得的不同数据构成对该物理对象的多角度描述,这些数据的集合构成该物理对象的数字空间。例如,对某个人的多种映射所得数据,其集合构成这个人的数字空间,这就是个人数字空间。同样,也有法人数字空间、非法人组织数字空间等。个人、法人、非法人组织的数字空间我们统称为数据关联对象“数字空间”。[1]

数据空间是各种物理元素对应的数字空间的并集,是各种数据相互关联在一起的数据生态体系。数据空间具有内部结构,物理世界的结构、物理元素之间的现实关系决定数据空间的结构、数据相互关联的生态关系。例如,根据物理空间元素属性对数据空间元素赋予范围结构,由此可以有行业数据空间、区域数据空间,等等;根据映射的业务逻辑关系对于数据空间赋予业务结构,由此可以有政务数据空间、科学数据空间、跨境数据空间,等等……这些多重结构构成数据基础设施。带有多重结构的数据空间就是数据资源体系。物理世界的结构反映现实世界的各种关系,通过各种制度进行规制,反映到数据空间的结构,就意味着以数据基础制度对数据空间进行规制。[1,2]

从现实世界的实践逻辑来规制数据空间的结构逻辑,数据具有主权属性、人身属性、公共属性和价值属性等四大属性,其位阶等级顺序是:主权属性>人身属性>公共属性>价值属性。这从根本上规定了数据要素和数据空间的特性。

二、可信数据空间

可信数据空间是数据基础设施的重要组成部分,是其中的数据公共化基础设施的核心。[3]可信数据空间涉及众多主体,包括数据处理者(即数据生产主体和价值载体,包括数据持有者、数据产品开发者、数据基础设施平台运营者等)、数据来源者(关联对象即数据主体)、数据使用者等,是集数据归集共享、开发生产、安全使用、流通交易、价值实现等于一体的场域,可信数据空间的核心是数据在不同主体之间的可信流通。从理论上看,可信数据空间是为数据空间赋予了“可信”结构的数据空间。这个“可信”不仅是技术上的可信,包括可信计算、可信存储、可信传输等,并蕴含着技术安全(包括密码技术、区块链、隐私计算等),更是经济学、社会学和法律意义上的可信,包括对生产、流通、消费等各领域相关数据主体可信,对数据处理者、数据来源者、数据使用者以及社会公众可信,让数据全生命周期合规和可信。也就是说,这个“可信”意味着具有公信力。从实践上看,海南通过“政府+市场”双轮驱动,打造“数据产品超市”的可信数据空间,依托政务数据基础设施,包括政务数据目录体系和政务数据中台等,通过有公信力的政务数据为可信数据空间背书,有效利用政务数据支撑“数据产品超市”,使得“数据产品超市”成为公共数据资源的开发利用平台,同时以政府背书的可信数据空间作为“数据产品超市”公共化数据基础设施的核心。

三、可信数据空间与可信根

形成可信数据空间有两种路径。一种是纯技术路径,假定谁都不可信,用完全去中心化的技术方式实现,例如分布式账本(区块链),典型例子就是比特币。此种形式代价极高,仅限于电子货币等专项应用还差强人意,用于千差万别的数据场景应用,就基本不可行了。

另一种路径就是局域中心化的方式。在每个区域或行业有个可信的中心,以此中心为基础建立可信数据空间,并在各中心之间通过分布式账本(联盟链)和零信任机制建立可信连接,通过高确定性网络(极低时延、极小抖动、零丢包、高可靠)建立高速连接。而这些局域中心化的区域或行业可信数据空间需要发挥政府作用,让政府作为经济学、社会学和法律意义上“可信”的基础,即公信力的基础。我们称这个经济学、社会学和法律意义上“可信”的基础为“可信根”。政府“可信根”为可信数据空间背书,形成可信基础上的区域数据空间、行业数据空间。这些局域中心化的可信数据空间可以是由政府主导来建立,也可以是“政府+市场”的模式,例如海南“数据产品超市”,当然,也可以是企业为主来建立,例如产业链链主、可信第三方等,但是确实需要政府“可信根”的背书。[3]

基于以可信数据空间为核心的数据公共化基础设施,不仅可以达成可信的区域数据空间,更可以构建行业/产业数据空间,在其上展开更加丰富多样的产业数据协同创新应用。同时,公共数据为社会数据、产业数据的应用发挥引子、佐证和可信背书等作用。[4]

在产业数据空间方面,欧洲共同数据空间的经验值得借鉴。例如欧洲的“盖亚-X产业数据空间计划”,截至2023年,欧盟为推动数据空间计划的盖亚-X协会已拥有377家组织成员,其中包括NTT通信等日本公司以及4家中国机构。

我国的可信数据空间架构和欧盟共同数据空间还是有差异的。我们并没有采用完全去中心化的架构,而是数据空间一定程度的中心化和各数据空间之间高确定性网络+联盟链的架构。这是符合我国国情的。产业链链主、可信第三方确实要发挥龙头作用,搭建大中小企业共享共用、公平竞争的可信数据空间。

此外,欧盟的数据空间围绕数据持有者、数据中介、数据使用者三种角色展开,虽然旨在实现数据共享机会和个人数据保护之间的平衡,避免二者之间相互阻碍,主要采取的还是针对特定使用者需求的数据脱敏等策略。[5]我国的可信数据空间完全可以超越之,一是还要更加强调数据来源者在可信数据空间中的地位和作用,通过数据权益基础设施中的关联对象“数字空间”,内嵌到数据共享和开发利用的数据产品设计中,而落实数据处理和使用中数据主体(数据来源者即关联对象)的决定权;二是发挥制度优越性,充分发挥政府“可信根”的公信力。[1]

四、可信数据空间对数据来源者的整体可信

为使可信数据空间能够合法合规处理数据,我们还需要深入研究数据来源者(关联对象)怎样通过可信数据空间授权数据处理者处理涉私数据。

前面已经讲过,局域中心化的可信数据空间可以是由政府主导来建立,可以是“政府+市场”的模式,也可以是企业(例如产业链链主、可信第三方等)为主来建立,当然,它们都得有政府“可信根”的背书。尽管有可信背书而成为对于数据来源者可信的数据空间,但是数据来源者难以直接面对可信数据空间之上成百上千的数据处理者,因而需要按照“数据二十条”的原则“探索由受托者代表个人利益,监督市场主体对个人信息数据进行采集、加工、使用的机制。”[6]即由受托者代表个人利益监督市场主体。这个受托者就是可信数据空间运营者,由其作为面向数据来源者的单一数据处理者。

文献[7]指出了,对关联对象(数据来源者)而言,整体政府是单一的数据处理者,关联对象对公共部门的授权就是对整体政府的授权。如此确认的前提条件一是整体政府理念,二是在公共数据的可信数据空间中已经建立起了数据共享、开放和开发利用的一整套机制,特别是实现了数据产品的瞬间集成,从而使得关联对象在对整体政府单一数据处理者(即公共数据管理机构及其管理的公共数据可信数据空间)进行授权的同时,瞬间实现对各公共部门来源数据的授权。[8]

可信数据空间如何成为单一数据处理者?这不仅需要可信数据空间运营者“代表个人利益监督市场主体”——这只是行使监督数据处理者的权利——而且还需要其获得联动授权的权利,即在关联对象对其授权的同时,联动对各数据处理者(包括数据产品开发者和数据持有者等)进行授权,这个授权链意味着关联对象只需要一次授权即激活了整个授权链,这样才意味着可信数据空间运营者成为真正的单一数据处理者来面对数据来源者。

在整体政府数据对外开发开放的情形,整体政府依托公共数据的可信数据空间,在“数据产品超市”模式下,关联对象的授权体现在数据产品使用环节。这是因为“数据产品超市”模式下的数据开放实现了引进开发商到整体政府的可信数据空间进行数据产品化开发后再开放利用,是将数据产品开发商请进来,开发数据产品对外提供服务,授权环节嵌入在了数据产品的使用中,通过数据产品瞬间集成,一次授权就激活了整个相关数据处理者之间的合约授权链。[9]

同样原理,依托数据基础设施[1-3,10],一般的可信数据空间同样可以让数据来源者最终在数据产品的使用场景中一次授权即激活可信数据空间中各相关数据处理者之间的合约授权链。可信数据空间运营者作为单一数据处理者代表各相关数据处理者承担对于数据来源者的责任和义务,对数据来源者“整体可信”;同时也获得代表数据来源者以合约方式在数据来源者授权同时延伸授权各相关数据处理者的权利,并将此权利纳入数据产品开发的规则之中,要求数据产品开发者在数据产品中嵌入便利数据来源者授权的通道,实现一次授权即激活授权链;同时也获得代表数据来源者对各数据处理者进行监督的权利。当然,只有基于政府“可信根”建立起来的可信数据空间运营者可以担纲此一角色。

名词注释:

1.本文数据、信息两词通用。数据(侧重形式、能指)和信息(侧重内容、所指)相统一,可以通用。

2.赛博空间=网络空间=数字空间。

3.数据处理者=网络数据处理者,可分为数据生产主体和数据价值载体,另一个角度可包括数据持有者、数据产品开发者、数据基础设施平台运营者等。

4.数据来源者=关联对象=数据主体。

5.可信数据空间运营者是数据基础设施平台运营者的一种,可能相互独立,也可能合一。在本文的语境中,可信数据空间运营者=数据基础设施平台运营者=网络平台服务提供者。

6.涉私数据=个人数据+法人数据+非法人组织数据。

参考文献:

[1]董学耕. 数据基础设施论纲Ⅲ——数据权益基础设施. (点击阅读)

[2]董学耕. 数据基础设施论纲——关于数字空间、数据空间、数据资源体系、数据基础设施等基本概念的系统性梳理. (点击阅读)

[3]董学耕. 数据基础设施论纲Ⅱ——海南关于数据共享和开发利用的实践路径. (点击阅读)

[4]董学耕. 公共数据赋能“数据要素×”. (点击阅读)

[5]寇晨雪. 欧盟网络安全局:公共数据空间中的个人数据保护设计. (点击阅读)

[6]中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见. 国务院公报2023年第1号

[7]董学耕. 数据关联对象“决定权”与整体政府数据共享开放. (点击阅读)

[8]董学耕. 数据开发开放拓展数据开放利用范围.(点击阅读)

[9]董学耕. 数据产品瞬间集成和稳定性的实现. (点击阅读)

[10]董学耕. 数据基础设施论纲Ⅳ——作为新质生产关系的数据基础设施. (点击阅读)

作者简介:董学耕,原海南省大数据管理局局长、高级工程师,研究方向:数字政府、数字经济、数据要素。