现在位置:首页 > 要闻动态 > 局务要闻
董学耕:数据基础设施论纲Ⅲ——数据权益基础设施
时间:2024-08-29
来源:

摘要:数据基础设施建设是数据要素价值释放的关键。在元数据基础设施、数据公共化基础设施和数据价值化基础设施的基础上,本文提出依托可信数据空间建设关联对象“数字空间”,建立数据相关主体的权益分配机制,从而构建起数据权益基础设施,保障数据主体价值权益,使数据要素价值释放既要体现效率,也要促进公平。

关键词:数字空间;数据空间;关联对象;数据产品化;数据权益数据基础设施

数据基础设施建设的指导原则是面向数据要素的价值释放,这必得是面向应用的,也就是说,必须围绕应用场景,即数据产品化来展开。

1.物理世界的结构决定数据空间的结构[1]

数据是从物理空间到数字空间(赛博空间)的映射。物理世界的元素映射到数字空间的数据。

同一个物理元素的不同映射所得的不同数据的集合构成关于这个物理元素的数字空间。例如,对某个人的多种映射所得数据,其集合构成这个人的数字空间,这就是个人数字空间。同样,也有法人数字空间。个人、法人的数字空间我们统称为数据关联对象“数字空间”。

由于不同的映射难以穷尽,这样的数字空间是多样化的,从多种角度对物理元素进行描述。

各种物理元素对应的数字空间的并集构成数据空间。

数据空间具有内部结构。

物理世界的结构决定数据空间的结构。

例如,根据物理空间元素属性对数据空间元素赋予范围结构,由此可以有行业数据空间、地域数据空间,等等;根据映射的业务逻辑关系对于数据空间赋予业务结构,由此可以有政务数据空间、地理数据空间、可信数据空间,等等……这些多重结构构成数据基础设施。

带有多重结构的数据空间就是数据资源体系。

物理世界的结构反映现实世界的各种关系,通过各种制度进行规制。对应于数据空间的结构,就意味着以数据基础制度对数据空间进行规制。

2.现实世界的制度逻辑对数据结构的规制

2.1元数据基础设施[2]

2.1.1数据目录体系作为元数据基础设施的底层架构

物理世界的元素属性以及赋予数据空间元素(即数据)的结构性质是对数据的说明和标示,可以据此形成数据字典(元数据)。

元数据帮助数据能“找得到”,是数据基础设施的底层架构。

以政务数据为例梳理元数据基础设施:依据公共机构的三定方案梳理其“职责目录”,代表了业务逻辑和业务结构,相应职责数据的映射需要信息系统和对应的业务数据来支撑,由此形成信息“系统目录”和业务“数据目录”。“三目录”体系作为政务数据空间的元数据,就是政务数据基础设施的底层架构。

对任何范围或业务领域的数据空间而言,数据目录,特别是数据目录的标准化都是至关重要的,构成元数据基础设施的底层架构。

2.1.2数据位阶等级作为元数据基础设施的顶层架构

《数据安全法》为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益,明确“开展数据处理活动,应当遵守法律、法规,尊重社会公德和伦理,遵守商业道德和职业道德,诚实守信,履行数据安全保护义务,承担社会责任,不得危害国家安全、公共利益,不得损害个人、组织的合法权益。”[3]

这意味着:数据具有主权属性、人身属性、公共属性和价值属性,实现价值属性不得对抗前三种属性。

数据四大属性的位阶等级顺序是:主权属性>人身属性>公共属性>价值属性。此即数据基础设施的顶层架构。

首先,主权属性不可侵犯。依据主权属性,数据分类为核心数据、重要数据、一般数据等。特别是对于核心数据和重要数据,需要按照国家有关法规来规制数据处理行为。

其次,人身属性是数据处理行为的前提。在主权不可碰之外,应当落实“数据以人为本”,即落实数据关联对象(即数据主体,或数据来源者,包括自然人、法人等)对数据的决定权,作为数据公共利用和价值释放的前提。[4]

我们需要注意,《个人信息保护法》[5]明确:“个人对其个人信息的处理享有知情权、决定权,有权限制或者拒绝他人对其个人信息进行处理;法律、行政法规另有规定的除外。”“个人请求将个人信息转移至其指定的个人信息处理者,符合国家网信部门规定条件的,个人信息处理者应当提供转移的途径。”

这意味着,一是个人“决定权”有权要求数据按照其意志进行共享、开放,这不仅针对公共机构,而是包括了所有个人信息处理者;二是个人“决定权”包含了个人数据“可携带权”;三是个人“决定权”高于数据处理者的数据资源持有权、数据加工使用权和数据产品经营权。

质而言之,数据的人身属性意味着数据中包含了人格权,其在位阶上高于数据的价值权益。数据关联对象(个人、法人等)是作为数据主体,因而数据不能简单作为客体进行处理。只有在匿名化,数据非涉私的特殊条件下,数据才是非人格化的,才可以作为客体而对象化处理。

再次,公共属性是数据价值化的前提。数据的主要价值在于社会交往和社会利用,即对公众有用。包括涉私数据(不等于隐私数据),其主要价值也在于社会交往的可识别性,是否普遍公开,是否只对特定对象公开,是否只授权特定信息处理者使用,由数据关联对象(数据主体)自决。总之,数据不是为了保护而存于世间,而是为了利用。[6]

导航APP就是体现数据公共属性的好例子。人们在使用导航APP的同时,又作为导航APP的数据采集端,在并不泄露个体数据的情况下,众多使用者的位置、速度数据作为导航APP研判道路是否拥堵的依据,并为其他使用者规划出行路径提供帮助。这就是公共利用,并在公共利用中产生使用价值。

最后,价值属性是数据要素化的依据。数据要素化在于使用,在于进入生产、流通过程,在于发掘其价值属性。

数据价值化通过如下路径实现:数据产品开发者基于安全可信数据基础设施上的数据共享开放,利用来源数据,自然获得数据加工使用权,加工出数据产品;通过确权,数据产品开发者获得数据产品所有权(及其附带的数据产品经营权),数据产品成为数据资产;数据产品再反向赋予来源数据价值,来源数据成为数据资源,并使数源单位获得数据资源持有权。[7,8]

发挥数据公共属性,释放数据要素价值,需要对来自各方面、各领域的数据进行开发利用,包括公共数据资源开发利用。数据价值化需要基于数据基础设施,不仅是元数据基础设施,还有基于数据位阶等级演绎出的数据公共化基础设施和数据价值化基础设施。

2.2数据公共化基础设施[2]

如果说前述元数据基础设施解决的核心问题是单位内或中心化的区域内的数据共享、开放及其价值释放,那么对于跨域的数据开发利用,就需要数据公共化基础设施。

数据公共化基础设施的核心是解决数据如何从私有域走向公共域,破解“数据不出域”的矛盾,使数据“供得出、流得动”。

这体现为以“数据产品超市”及其“可信数据空间”为基础的数据公共化基础设施,详见文献[2,9,10],兹不赘述。

我们将数据产品超市模式形象比喻为“华强北+淘宝+云服务”模式,其实就是数据产品生产上的供应链集成+流通上的统一平台+软件即服务(SaaS)的一体化集成模式,基于数据公共化基础设施,可以概括为数据产品即服务(DPaaS)。

2.3数据价值化基础设施[2]

数据要素与其他传统生产要素不同,不能简单用土地、资金、技术要素比附。但是要实现数据的价值属性,即数据价值化,则意味着数据要素需要以某种形式嵌入到现行价值体系中。

现行价值体系或经济运行体现在微观的财务体系和宏观财政体系中。

如果说前述元数据基础设施解决的核心问题是单位内或中心化的区域内的数据共享、开放及其价值释放;数据公共化基础设施解决的核心问题是跨域的数据开发利用及其价值释放;那么数据价值化基础设施要解决的核心问题就是数据价值的确认和变现,从而让市场主体获得动力机制,即让数据权益相关主体包括数据产品开发者“做得值”。

数据需要纳入财务体系,即需要“入表”。“入表”的前提条件是数据确权和数据资产化,即以数据产品化为基础的面向场景应用的数据产品化确权和数据产品资产化。

最后,数据价值化通过数据产品确权、估值以及“入表”等行为实现。实现数据产品确权、估值以及“入表”的法规制度、支撑机构等就是数据价值化基础设施。详见文献[2,7,8,11],兹不赘述。

3.嵌入数据产品的相关主体数据权益

3.1数据产品化确权[4]

鉴于数据关联对象(数据主体或数据来源者)的存在,关联对象还可能并非单一主体,而是多元化的,并且往往与数据生产主体、数据价值载体(均为数据处理者)相分离,因此,我们难以明确数据属于哪个主体。并非相关主体都能都对该数据进行占有、使用、收益、处分,每个主体对于这四方面权益都不能完整拥有。

但是,不说清楚相关主体的权益边界,数据难以规模应用,或者就是出现强势主体对弱势主体的实际剥夺。这当然是数据生产关系的灾难,注定走不开或者走不远。

数据的开发利用需要解决两个先决条件:其一是清晰界定相关主体的权益边界。这自然不是你也拥有我也拥有,也不是你也可以随便用我也可以随便用,更不是你也不能动我也不能动。清晰权益边界才能让相关主体各自依权益而动。拥有相应的权益,就拥有相应的动力机制。其二是相关权益要嵌入到现行法律法规制度体系中,质而言之,就是要嵌入到现行财务体系中,能够价值化而变现。

一句话,数据需要通过某种形式进行确权。数据本身(主要是涉私数据)涉及多元主体难以确权,那我们就需要拿出可行的确权方法。这个方法就是数据产品化确权。

涉私数据需要关联对象授权才能进行数据处理和使用,这要求明确具体使用场景、授权条件、授权范围、被授权主体等,并且《个人信息保护法》规定了这些场景、条件、范围、主体发生变化都需要重新授权、单独授权等,也就是说,原则上是一次使用一次授权。这要求相关使用主体应当让数据关联对象能够便利地进行知情、授权,让授权能够实时、在线实现,这只能是将数据做成针对具体使用场景的数据产品,即将涉及私权的数据嵌入到数据产品中,在使用数据产品的具体场景中由关联对象在线进行实时授权。这样,涉私数据依托数据产品才能在真实场景中在关联对象在线授权下安全使用,一次授权一次使用。

授权行为是一种在获得使用便利的同时进行相应权益让渡的行为。通过权益让渡,可以实现多元的数据权益在数据产品中集中到单一主体,从而实现数据产品化确权。

数据产品开发者通过购买数据生产者、载体提供者的数据要素持有权,获取数据加工使用权,开发数据产品,通过在具体场景的具体使用中关联对象对涉私数据在线实时授权(关联对象行使数据决定权并获得使用便利)获得关联对象的权益让渡——成千上万的使用者每次使用时各自授权让渡其数据关联者的权益——从而实现对数据产品的完整权益拥有,即获得数据产品所有权,从而也拥有了数据产品经营权。这就是数据产品的确权过程。

3.2数据产品定义

上述确权过程对数据产品的描述实际上已经给出了数据产品的界定。数据产品可以定义为:面向应用场景并且需要有数据嵌入才能提供服务的产品形式。

这个数据产品定义的外延是非常广的,也是边界清晰的。

业界通常将数据产品界定为是指对原始数据进行脱敏或者加工处理后形成的数据衍生产品,包括但不限于数据集、数据分析报告、算法模型、数据可视化产品、数据指数、数据接口等。这个界定并不清晰,加工深度不明确,基本可以理解为除了原始数据,只要有加工,就是数据产品。这没有抓住数据产品面向应用场景的特征,混淆了面向场景应用的(最终)数据产品和数据中间产品,后者意指将原始数据加工为便利(最终)数据产品利用的高质量数据集、数据接口等,例如逻辑真实数据。[12]

数据产品有两大核心特征:一是面向应用场景;二是需要有数据嵌入才能提供服务。

数据产品主要表现为软件产品,但不等于软件。操作系统、数据库、办公软件等不需要依赖于外来数据即可使用的软件不是数据产品。而很多软件其实需要调入外部数据才能使用的,就是数据产品,例如政务服务(需要用户提供办事相关数据),例如支付APP(需要用户账户信息等),例如大语言模型LLM(需要用户提问互动等)。

数据产品和硬件也有交集。数据产品并不仅仅表现为软件,很可能需要相应硬件支撑,且不说上述数据产品需要相关终端,有的专用硬件本身就是数据产品,否则离开了数据嵌入就是废铁,例如政务服务自助终端(需要用户提供办事相关数据),例如门禁系统(需要用户刷卡数据或生物识别数据)。

3.3相关主体数据权益的分配[8]

一般来说,数据权益涉及到三方面主体:生产主体、关联对象(数据主体)、价值载体。关联对象即“数据二十条”[13]中所说的“数据来源者”;生产主体和价值载体则相当于“数据二十条”中所说的“数据处理者”。

数据产品化,既是数据产品的确权过程,也是数据相关方价值权益的实现过程。

我们梳理一下各数据相关主体的价值权益,其核心在于关联对象授权的同时进行了权益让渡。在具体使用场景中,单个关联对象单次地让渡了其对数据的决定权,授权数据处理者对数据进行处理。这是一种人格权的让渡,使得嵌入数据产品中的与该关联对象相关的数据单次地去人格化,成为单纯的价值权益,从而可以从物权的角度来进行处理。数据产品开发者通过成千上万的使用者各自在使用中的授权和让渡而获得物权意义上对数据产品的完整所有权。只有在具体使用场景中,在千万次的授权、让渡中,数据产品价值、权属才得以确定。换句话说,数据不是先天存在价值,而是在保障主权权益、人格权益、公共利益基础上,特别是在人格权益让渡之后,才获得干净、纯粹的价值权益。因此,数据价值是后天获得的。没有使用,就没有价值。使用者直接使用的是嵌入在数据产品中的数据,因此首先获得价值的是数据产品,并经由数据产品与数据相关方的合约关系,使得数据相关主体也获得相应的价值权益。

具体说,数据权益的三方面主体(生产主体、关联对象、价值载体)加上数据产品开发者四方数据权益通过数据产品化而实现分配。首先,数据产品开发者获得数据产品所有权,即数据产品在具体使用场景中通过关联对象的授权和让渡使得数据产品开发者获得干净的数据产品所有权,包括了对数据产品的占有、使用、收益、处分的权益,并实现资产化,纳入财务体系。其次,形成数据产品的来源数据的提供方获得数据的用益物权,同样是借助于数据产品使用中关联对象的授权和让渡,通过数据产品作为价值中介,通过合约关系,反推出来源数据价值,使来源数据在具体使用中变身数据资源,从而实现资源化,并使来源数据提供方获得用益物权,进而纳入财务体系。这里,来源数据的提供方包括了数据生产主体、数据价值载体,后者也包括了提供可信数据空间的数据产品超市以及形形色色的数据交易中心等平台机构,只要其提供了来源数据。最后,关联对象(数据主体)的权益体现,一是人格权益的让渡;二是使用便利的获得,即获得服务;三是其权益让渡不仅有助于自身获得服务,也有助于数据产品公共价值的实现(如前述导航APP的例子),理应获得部分价值权益,还需要积极探索其实现途径,特别是助其实现的数据权益基础设施——后文将展开探讨。

4.关联对象“数字空间”

数据产品化以及数据相关方的权益分配均需依托于第2部分所搭建的数据基础设施。除此之外,数据基础实施还需要进一步深化。

4.1依托关联对象“数字空间”实现数据“可携带权”

前面对《个人信息保护法》的解释已经明确了个人对个人数据的“决定权”包含了个人数据“可携带权”。进一步说,就是关联对象对数据的“决定权”包含了关联对象的数据“可携带权”。对数据主体而言,自己的数据自己做主。

但是现实地看,关联对象(数据主体)基本上是被动地被关联的,数据掌握在数据处理者手上。怎样让数据主体(关联对象)能够主动落实数据权益而不是仅仅被动关联,值得深究。

数据主体(关联对象)要对自己的数据自己做主,首先需要有自己的载体,建立关联对象自己的“数字空间”。

这并非是关联对象把自己相关数据都放在一起,装在一个u盘里。不是这样的。需要做的是基于统一的可信数据空间等数据基础设施,将关联对象的相关数据(分布在多个数据处理者)逻辑地集成在一起,由关联对象进行控制,落实其知情权、决定权,也就是落实关联对象的数据“可携带权”。这需要通过关联对象“数字空间”来实现。

4.2关联对象“数字空间”让数据权益关联、解耦和实现

关联对象“数字空间”需要依托数据公共化基础设施的“可信数据空间”来构建。首先,数据产品超市的可信数据空间依托政务数据管理平台的人口库、法人库,构建每个个体的个人数字空间、法人数字空间的基础信息,并公开涉及的数据目录。其次,各数据处理者对需要采集或处理的个体数据也列出目录,嵌入相关数据产品,方便关联对象授权其采集或调取相关数据。同时,这些被采集的个人/法人数据以目录形式纳入关联对象“数字空间”,并关联相应的采集者,以便后续应用时由关联对象自主决定调取。再次,以个人码和法人码的形式作为数据产品中的交互界面,方便关联对象和数据处理者利用。这样,数据处理者可以利用个人/法人数字空间中的个人/法人数据目录,将需要关联对象授权的数据以“码”的形式嵌入数据产品中,作为授权通道,关联对象可以利用嵌入在数据产品中的“码”,在需要数据产品提供服务之时,授权关联对象“数字空间”中的相关数据可以实时集成到数据产品中,快速验证,秒级验证,秒级授权,秒级集成和输出相关服务。最后,建立可信数字身份认证体系,作为身份可信的基础,对各数据处理者、各个个体进行身份可信认证。

有人觉得网络身份认证、个人数字空间很可怕,万一泄露怎么办,万一被平台控制怎么办?所谓“可信数据空间”是否会成为“老大哥”的控制工具?

其实,不用担心,没有“老大哥”。现实倒是有许许多多形形色色的“小大哥”。现在一些互联网平台、网站甚至一些APP,都在要求大家填写实名信息甚至人脸识别,而且都有相关法律条文依据要求实名认证或需要实名信息。这意味着,这些“小大哥”都既掌握用户的身份信息,也掌握用户的应用信息。不是一个“大哥”知道,是很多很多的“大哥”都知道。特别是一旦其中一些被黑客攻破,就可以通过用户的实名信息将几个数据库对齐,拼凑出一个用户的完整画像,然后把画像卖给诈骗、广告营销平台。

避免出现这种情况的有效措施其实正是采取可信数字身份认证机制。这里的关键是“解耦”:各功能角色的解耦,认证和应用的解耦,数据和应用的解耦。一方面,可信数字身份认证平台只掌握个人/法人的身份信息,但不掌握个体的应用信息、业务信息等,其作为公共服务平台,只是在“小大哥”们(数据处理者)需要核对用户真实身份时,跳转到这个身份认证公共服务平台,平台生成一个随机128位或者256位的网络身份证号,这样“小大哥”就不知道用户是谁,但是知道是真实的个体(公共服务平台背书)——因此可信数字身份认证平台也不是什么“老大哥”,当然,它支持数字监管,在司法、执法机关依法办事时,例如执行庭需查询当事人财产信息,就可以向公共服务平台依法申请相关当事人在相关财产登记平台的网络身份证号,并获得查询结果——这已经是通行做法,欧美同样如此。另一方面,“小大哥”们(数据处理者)只了解各自服务范围内真实个体的数据,据此提供服务就好,但是具体是哪个个体并不清楚。即使被黑客攻破,拿到数据也看不懂、对不上。这更好地避免了个体的数据泄露。同时,对于“小大哥”来说,由于留存的数据不再属于个人信息——这些数据已经天然地匿名化——那就不需要那么高级别的安全防护策略,可以节省大量资金投入,只要安心给用户提供匿名服务就好了。同时,匿名化的数据更便利数据处理者直接利用,或提供其他数据处理者利用。

将这套可信数字身份认证机制结合进数据基础设施之中,纳入数据产品超市的可信数据空间架构,这样,我们就可以建立起关联对象“数字空间”。

再次强调,关联对象“数字空间”是以政务数据管理平台的人口库、法人库构建基础信息,将关联对象的相关数据(分布在多个数据处理者)逻辑地集成在一起,由关联对象进行控制。这些数据是分布式的,解耦的,但逻辑上又是集成的,可自主控制的。政务数据平台管理基础信息(这点古今中外概莫能外),对外公开逻辑集成的目录元数据;身份认证公共服务平台只掌握身份信息;数据处理者只掌握其服务单位的应用数据,并与身份信息脱钩;数据主体(关联对象)则在实际应用环节发挥主导作用,自己的哪个信息可以给哪个对象在什么时空范围进行多大程度的处理,由自己来行使决定权,在具体应用场景通过数据产品一次使用一次授权,而不是一揽子授权。

因此,关联对象“数字空间”不仅是赋能可信身份认证,包括数据处理者和用户的身份互认,更重要的是发挥数据主体的决定权,也就是依托这套数据基础设施,通过嵌入在数据产品中的授权“码”,关联对象可以便利地行使数据决定权,从而真正落实数据主体的数据“可携带权”。

附带提及,这套数据基础设施应充分利用密码学、区块链和隐私计算等技术,建立受严格保护的关联对象“数字空间”。对于数据基础设施的跨域,则同样按照公共化基础设施的做法,建立“确定性网络+联盟链+零信任”的机制,建立数字信任生态。[2,6,12]

4.3依托关联对象“数字空间”建立数据托管机制

关联对象“数字空间”的数据是分布式的,解耦的,逻辑上又是集成的,可自主控制的。通过这种解耦,数据主体可以在具体应用场景通过数据产品一次使用一次授权,而不是一揽子授权。

数据主体(关联对象)在授权同时,除了通过权益让渡获得使用便利,是否可以通过权益让渡同时获得实际收益呢?这涉及到业界关注的所谓“数据托管”“数据信托”或者“数据银行”的概念,个人或法人将数据托管给数据信托机构,后者代为行使相关权利,并返给个人或法人部分利益。鉴于这种托管机制涉及到一揽子授权,根据“数据二十条”[13]对一揽子授权的限制,以及《个人信息保护法》[5]关于“单独授权”“重新授权”等要求,这种简单的数据托管做法仍然存在法理上的障碍。

当然,“数据二十条”也提到了“对承载个人信息的数据,推动数据处理者按照个人授权范围依法依规采集、持有、托管和使用数据”。我们认为,“数据托管”可以依托关联对象“数字空间”来实现。具体说,首先,政务数据平台管理基础信息,对外公开逻辑集成的目录元数据,说天然的关联对象数据的托管机构。其次,政务数据平台通过公共数据授权运营方式可以授权运营机构具体管理目录元数据,并对数据进行调度;政务数据平台加强监管。再次,数据处理者实际上拥有关联对象的应用数据,在必要的时候,可以申请关联具体的对象。最后,也是最重要的,就是由关联对象来具体控制其数据在具体场景应用中的数据产品的每一次使用。可见,关联对象“数字空间”同时解决了数据托管机制问题。

5.数据权益基础设施

第2部分梳理了数据基础设施的三层架构,包括元数据基础设施、数据公共化基础设施、数据价值化基础设施,但是这还不够,要落实“数据以人为本”,要让数据要素真正顺畅流动起来,还需要补充数据权益基础设施,让数据相关权益方各得其所。

5.1数据和应用的解耦与互动

5.1.1数字化体系的分层和解耦

众所周知,业界一般将数字化体系分解为多层结构,最底层是数字基础设施,之上是数据资源体系,再上面是平台层和应用层。数字基础设施包括云网边端等,对应云计算架构的部分就是IaaS层,对应端的部分又可以演化出感知体系、物联网,也可以加上区块链等基础设施。平台层对应云计算架构的PaaS层。应用层对应云计算架构的SaaS层,是各类应用系统。数据资源体系在中间,是数字化体系的核心。

这一架构其实就意味着各层之间的解耦或者说松耦合,包括网络和数据之间、计算和存贮之间、数据和平台之间、数据和应用之间,等等。解耦是数字化技术的趋势,借此发挥各环节的专业化和高效率。

第4部分我们专门研究了数据和应用的解耦,数据形成统一的数据资源体系,就给予了应用(各类数据产品)不竭的原料、素材和源泉。

事实上,数据本身并不能完全脱离开应用,因为数据本身其实基本上就是通过应用系统(以及相应的物联网终端)采集的,但是借助于信息系统之间的数据开放共享体系,数据又可以脱离开系统,而纳入数据资源体系,用于其他系统的开发利用。

5.1.2数据解耦的三种途径

数据被解耦出来,“数联网”的概念就被提了出来。就像感知终端形成物联网一样,数据本身可以作为对象形成“数联网”。“数联网”目前有两条主流的技术路径,即链接数据(如万维网的发明人伯纳斯·李(Tim Berners-Lee)主推的社交链接数据(Social Linked Data,简称 SoLiD)和TCP/IP协议发明人罗伯特·卡恩(Robert Elliot Kahn,IP协议另一发明人为温顿·瑟夫)主推的数字对象架构(Digital Object Architecture,简称DOA)。链接数据旨在通过使用统一的标识符、标准格式和协议来连接分散在全球各地的数据资源,从而使数据能够互相关联和交互使用。SoLiD重点围绕个人数据,目标是有效汇聚个人数据,并对数据进行访问控制,而不是让这些数据散落在平台上。[14]数字对象架构DOA是把所有数据资源建立成独立的数字对象,通过一个基本模型定义数据三要素,即标识、元数据和实体,通过三个核心系统和两个基础协议定义数据对象之间的互联互通与互操作。[15]目前,两种路径各自都在积极推进。

和SoLiD重点围绕个人数据相似,还有另一条路径:MyData。[16]

SoLiD是基于链接数据Linked Data和语义网Semantic Web技术,特别是RDFResource Description Framework和OWLWeb Ontology Language等标准。用户数据存储在Solid PODPersonal Online Datastore中,用户可以选择将数据存储在本地或可信的SoLiD服务器上。通过SoLiD协议,用户可以控制哪些应用可以访问自己的数据,以及数据如何被使用。

MyData个人数据管理是一种以人为本的数据管理和处理框架,旨在增强个人对其数据的控制和隐私保护。MyData同样是个人数据管理工具,帮助用户更好地组织、存储和分析他们的日常生活数据,采用微服务架构,各功能模块独立部署和扩展,保证了系统的灵活性和可维护性。所有在MyData中存储的数据都会经过加密处理,确保只有用户本人可以访问。MyData提供RESTful API和GraphQL支持,方便第三方应用的集成和数据访问。

以上三种路径都是我们研究数据权益基础设施时需要考虑的。

5.2数据、应用和权益的解耦与互动

鉴于关联对象的存在,数据不能像土地、资金、技术一样作为纯粹客体进行数据处理,脱离数据主体的纯粹“数联网”不可行。“数联网”上述两种路径各有优点,DOA的优点是数据有独立的标识和地址,SoLiD的优点是围绕数据主体来进行访问控制,此外,MyData的微服务架构更接近我国的数据基础设施现状,都值得我们学习、借鉴和结合。我们需要在此基础上探索中国式数据基础设施路径。

5.2.1面向权益的数字化体系分层

前面我们已经通过元数据基础设施和数据公共化基础设施落实了数据“找得到”“供得出”“流得动”,其实就是落实了“数联网”的目标;我们也通过数据价值化基础设施落实了数据“做得值”,解决数据产品开发的动力机制;现在我们还需要解决“分得均”的问题,就是让数据相关主体都能获得各自的价值权益,因此我们需要构建数据权益基础设施,以保障数据主体的权利行使和权益落实。

我们已经研究了关联对象“数字空间”,也研究了数字化体系的分层,实现数据、应用等的解耦,为了融合面向数据对象的“数联网”和落实数据主体权益的关联对象“数字空间”,我们从面向计算不仅转向面向数据,同时还要面向权益,我们需要对数字化体系进一步分层,在数据层之上叠加权益层,形成数字基础设施层、数据层、权益层、平台层、应用层的架构——准确说,权益层其实属于数据层(数据基础设施),是数据层细分出来的部分,此处单列予以强调——以实现数据、应用和权益的解耦与互动,形成数据权益基础设施。

5.2.2权益层的构成

权益层包括了两个主要部分:关联对象“数字空间”和权益分配机制。

权益层的核心是关联对象“数字空间”,保障数据主体的权利行使。首先,以政务数据管理平台的人口库、法人库构建关联对象“数字空间”的基础信息,将关联对象的相关数据(分布在多个数据处理者)逻辑地集成在一起,由关联对象进行控制。其次,分布在各数据处理者的关联对象相关数据,其逻辑集成需要依托元数据基础设施的数据目录体系,数据以目录形式纳入关联对象数字空间,并关联相应的采集者,以便后续应用时由关联对象自主决定调取或授权。再次,一方面关联对象可以通过安全的、标准化的API(应用程序编程接口)访问自己的数据,并对其进行查看、修改、删除等操作。这种控制权让关联对象能够更好地管理自己的隐私和数据安全。另一方面通过嵌入在数据产品中的“码”在实际应用场景中关联对象可以对数据使用进行授权。

权益层也包括数据价值化后对相关主体进行权益分配的机制,特别是保障数据主体权益的落实。具体说,数据权益的三方面主体(生产主体、关联对象、价值载体)加上数据产品开发者四方数据权益通过数据产品化而实现分配。首先,数据产品开发者获得数据产品所有权,实现相应价值权益。其次,形成数据产品的来源数据的提供方(包括生产主体和价值载体)通过与数据产品开发者的合约关系获得数据的用益物权,实现相应价值权益。最后,关联对象(数据主体)的权益体现,一是人格权益的让渡;二是使用便利的获得,即获得服务;三是其权益让渡不仅有助于自身获得服务,也有助于数据产品公共价值的实现,理应获得部分价值权益。

5.2.3数据主体的价值权益

关于关联对象(数据主体)的价值权益,我们前面讲了导航APP的例子。不仅是我们的物理轨迹有助于数据实现公共价值,我们在线上线下其实每时每刻都在生产物理的或虚拟的(数字空间的)轨迹或痕迹,都在被数据处理者利用。我们都知道,使用数据产品会产生数据痕迹,我们都在不断地创造这些痕迹,不仅是当我们打开浏览器、使用游戏软件、在线搜索、在线购物、在线支付时,而且在我们的工作场所、街道、汽车,甚至家中,无处不在的基站、热点和形形色色的物联网设备都在捕捉我们的行踪,以各种方式创造这些痕迹。其中一些数据痕迹会被调用、汇总,包括实时分析、处理,这些数据痕迹可能有助于完善现有服务、调整机器学习模型和训练人工智能,也可能被用来分析和预测我们的行为,为在线行为广告市场推波助澜。即使是匿名化的应用,包括所谓人工智能合成数据,也有来源于数据主体的贡献,也有他们在为数据处理者创造价值。而数据主体在这些过程中,完全是被动、无感的,其参与创造的相应价值完全没有体现在数据主体身上,而被数据处理者无偿占有。

梅宏院士在中国数字经济发展和治理学术年会(2023)上指出:“个人和企业在社会经济活动中产生的大量数据都散落在平台上,信息不完整,数据难协调,自己管不了,每个平台都得重复登录,不方便,应用也难扩展,最重要的是数据收益分配不合理。个人和机构作为数据的原始来源,有没有办法得到合理的收益?这几年我一直在琢磨数据税的问题,我讲的数据税不是国家收费,而是说如果个人能管控好自己的数据空间,平台使用的时候能不能给个人一点钱。我觉得未来要实现收益分配的优化,是不是二者都有可能兼有?现在各地都在拼命地引入互联网公司,我说互联网公司干什么要引入呢?互联网本身就是跨时空域的,背后就是税收问题。各地都有税收,没有税收不行。我想这件事情能不能在数据空间里解决?”“现在我们是两条线在走,希望在某一个时刻能够汇聚起来。”[17]

“数据二十条”[13]明确要“建立体现效率、促进公平的数据要素收益分配制度”,指出:“健全数据要素由市场评价贡献、按贡献决定报酬机制……探索个人、企业、公共数据分享价值收益的方式……通过分红、提成等多种收益共享方式,平衡兼顾数据内容采集、加工、流通、应用等不同环节相关主体之间的利益分配。”“更好发挥政府在数据要素收益分配中的引导调节作用。逐步建立保障公平的数据要素收益分配体制机制,更加关注公共利益和相对弱势群体。加大政府引导调节力度,探索建立公共数据资源开放收益合理分享机制,允许并鼓励各类企业依法依规依托公共数据提供公益服务。推动大型数据企业积极承担社会责任,强化对弱势群体的保障帮扶,有力有效应对数字化转型过程中的各类风险挑战。不断健全数据要素市场体系和制度规则,防止和依法依规规制资本在数据领域无序扩张形成市场垄断等问题。统筹使用多渠道资金资源,开展数据知识普及和教育培训,提高社会整体数字素养,着力消除不同区域间、人群间数字鸿沟,增进社会公平、保障民生福祉、促进共同富裕。”

数据权益的分配机制就是既要体现效率,也要促进公平,特别是要更加关注公共利益和相对弱势群体,防止和依法依规规制资本在数据领域无序扩张形成市场垄断等问题。

数据权益基础设施就是要探索还原数据主体的价值权益。一种必要且有效的途径是对数据处理者中的大型价值载体(互联网平台)根据数据量收取数据税,通过国家税收形式对数据价值权益进行二次分配。这是宏观政策行为。从数据权益基础设施微观角度,也有对数据价值权益进行一次分配的途径。尽管一次分配的重点在于“促进劳动者贡献和劳动报酬相匹配,推动数据要素收益向数据价值和使用价值的创造者合理倾斜,确保在开发挖掘数据价值各环节的投入有相应回报,强化基于数据价值创造和价值实现的激励导向”[13],与此同时也应兼顾数据主体的价值权益。这需要对关联对象数字空间被调用的流量等进行计量,通过平台返利或数据产品合约等方式来实现。

一是可信数字身份认证平台作为公共服务平台应提供无偿服务。二是政务数据管理平台作为关联对象“数字空间”的管理者,也应提供无偿服务。三是公共部门,无论其作为数据采集者,还是作为公共数据产品的服务提供者,都应对外提供无偿服务。四是数据产品开发者,作为数据要素价值释放的真正激活者,由市场评价贡献、按贡献决定报酬,应是数据价值权益的核心贡献者和首要激励对象,理应获得较大权益,同时,也应建立对数据主体按调用频次或流量付费的机制。这可以通过嵌入数据产品中的关联对象授权机制实现,即在与关联对象的授权协议中体现出来,在授权同时,关联对象获得相应收益。五是作为来源数据提供者的数据处理者,应依据原始成本提供数据供给服务,如果其以较高价格向数据产品开发者提供数据,则应向数据主体(关联对象)付费——这可以体现在数据产品开发者与来源数据提供者以及数据主体的一揽子协议中。六是作为价值载体的数据处理者,包括公共数据运营平台,应计量数据主体的流量贡献并制定定期向数据主体的返利计划。对于互联网平台,不仅自身就是数据产品开发者,同时也是数据载体,因此不仅应在数据产品服务中向向数据主体付费,同时还应建立返利机制。

最后,数据基础设施还应包括“保安全”的数据安全基础设施,详见文献[6,12],兹不赘述。

注释:本文数据、信息两词通用。数据(侧重形式、能指)和信息(侧重内容、所指)相统一,可以通用。

参考文献:

[1]董学耕. 数据基础设施论纲——关于数字空间、数据空间、数据资源体系、数据基础设施等基本概念的系统性梳理.(点击阅读)

[2]董学耕. 数据基础设施论纲Ⅱ——海南关于数据共享和开发利用的实践路径.(点击阅读)

[3]中华人民共和国数据安全法. 中国人大网

[4]董学耕. 数据关联对象对数据的决定权与数据产品化确权[M]//《用数据点亮智慧之光:海南省数据要素市场建设探索与实践》. 南方出版社,2023:6-16.(点击购买)

[5]中华人民共和国个人信息保护法. 中国人大网

[6]董学耕.数据关联对象的安全自决权与数据安全的原子化. (点击阅读)

[7]董学耕.数据从产品到资产到资源的价值化路径. (点击阅读)

[8]董学耕. 数据要素纳入财务体系的实现路径:数据产品化[J]. 财务研究,2024,(3):3-10.

[9]董学耕. 数据产品超市——数据产品开发生产、流通交易和安全使用的一体化[M]//《用数据点亮智慧之光:海南省数据要素市场建设探索与实践》. 南方出版社,2023:17-24.(点击购买)

[10]董学耕. 数据产品瞬间集成和稳定性的实现[M]//《用数据点亮智慧之光:海南省数据要素市场建设探索与实践》. 南方出版社,2023c:42-51.(点击购买)

[11]董学耕. 数据产品所有权的确权登记和入表. (点击阅读)

[12]董学耕. 数据产品开发与数据脱敏. (点击阅读)

[13]《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》(国务院公报2023年第1号).(点击阅读)

[14]SoLiD中文网. https://learnsolid.cn/

[15]黄罡. 数联网:数字空间基础设施, 中国计算机学会通讯, 第17卷, 第12期,2021.

[16]MyData网站. https://mydata.org/

[17]梅宏. 数字经济基础设施——探索与实践. 

https://www.163.com/dy/article/I9Q5LH2S05534KO1.html

作者简介:董学耕,海南省大数据管理局原局长、高级工程师,研究方向:数字政府、数字经济、数据要素。