现在位置:首页 > 要闻动态 > 中心动态
董学耕 | 数据产品论纲Ⅱ——数据平台的核心是可信
时间:2024-12-19
来源:

摘要:

本文承接上篇《数据产品论纲——数据产品是从数据到应用的唯一桥梁》,在厘清数据、数据产品、数据应用基础上,进一步论述数字价值生态体系即数据资源体系四层架构中的数据平台。本文论证了,数据平台是数据价值得以实现的关键;数据平台的核心是可信;以及可信数据空间是数据平台的核心,并对可信体系进行了全面论述。

关键词:可信数据空间;数据资源体系;数据产品;数据平台;可信根


1.数据资源体系是从数据到应用的整个数据价值生态体系

1.1数据价值生态体系只有四层,即数据、数据平台、数据产品和数据应用。

1.1.1数据是数据价值生态体系中的“原材料”。

1.1.2数据平台即数据基础设施,是数据价值生态体系中的“生产车间、生产设备和流通市场”。

1.1.3数据产品是数据价值生态体系中的“产品和服务供给”。

1.1.4数据应用是数据价值生态体系中的“应用需求”。

1.2数据进入生产流通过程成为数据要素,是能动的新质生产力。

1.2.1数据劳动者是数据资源体系的创造者。

1.2.1.1数据劳动者是数据应用(场景)的发现者、开发者。

1.2.1.2数据劳动者是数据的采集者、加工者。

1.2.1.3数据劳动者是数据平台的建造者、运营者。

1.2.1.4数据劳动者是数据产品的生产者、经营者。

1.2.1.5总而言之,数据劳动者是数据处理者。

1.2.2数据劳动资料包括了数据、数据平台和数据产品。

1.2.2.1数据是物理世界的镜像,反向赋能物理世界。数据与实体经济深度融合,以数字产业化、产业数字化的形式赋能千行百业,具体体现在各类以数据赋能的数据产品中。

1.2.2.2数据产品既是数据劳动者的劳动成果,也是数据劳动者的生产工具,服务于和赋能于实体经济的各种应用场景,以“产业互联网”“数据要素×”“人工智能+”等行动中所展现出来应用对国民经济各行各业的生产能力给予极大促进和提升,极大提高全要素生产率。

1.2.2.3数据平台即数据基础设施,作为数据价值生态体系中的“生产车间、生产设备和流通市场”,是基础性的生产工具,是生产和应用生产工具的生产工具。

1.2.3数据劳动对象就是作为“原材料”的数据。

1.2.3.1数据劳动者依托各类信息系统及感知设备采集的原始数据、源头数据是数据劳动对象中的初级原材料。

1.2.3.1数据劳动者依托数据平台及其所属工具箱所加工形成的数据原子能力(数据中间产品)是数据劳动对象中的加工原材料或半成品。

1.3数据价值实现的唯一途径是从应用场景到数据产品。

1.3.1应用场景以“应用需求”驱动整个数据价值生态体系。

1.3.2数据作为“原材料”根据应用场景提出的数据需求清单去满足应用场景需求。

1.3.3数据产品按应用场景的需求进行开发生产,成为满足应用场景需求的“产品和服务供给”。

1.3.4数据平台作为“生产车间、生产设备和流通市场”,是开发生产和满足需求整个实现过程中的关键基础设施,提供数据流通环境和数据产品开发工具支持。

1.3.5实现数据价值的核心力量是数据处理者,即数据劳动者。

2.数据平台是数据价值得以实现的关键

2.1数据要素是数字化时代的新质生产要素。

2.1.1数据要素是数字经济的核心要素。

2.1.1.1数字经济以数据要素为核心,数字经济就是数据经济。

2.1.1.2数字经济是数据要素和其他要素融合推动的经济形态,以提高全要素生产率为目标。

2.1.2数据要素基于数据平台(数据基础设施)才成其为要素。

2.1.2.1数字经济跨越自给自足的农业自然经济形态。数据要素与土地要素不同,不能基于自身占有的要素便能自给自足(自耕农)。

2.1.2.2现代农业也已经超越自然经济形态,而依赖于水利等基础设施和化肥、种质资源库等平台资源。

2.1.2.3数字经济跨越大规模生产的工业经济形态。数据要素与资金要素不同,不能基于自身占有的要素便能大规模使用。涉私数据具有人身属性,需要关联对象授权才能处理。

2.1.2.4现代工业也已经借助于数字经济而超越传统的工业经济形态,通过用户需求数据而一定程度实现规模化定制。

2.1.2.5数字经济以数据要素为核心,一开始就是现代性的,一开始就具有大数据、大用户特征。数字经济既有自然经济形态的个性化特征,也有工业经济形态的大规模特征;不仅数据规模大,而且各个数据不同;不仅用户规模大,而且各个用户得到的是针对性的个性化服务。

2.1.2.6数字经济以数据要素为核心,其本质或典型形态是面向大用户群体,针对个性化需求,有个性化数据输入,有个性化服务输出,从而产生精准化服务、高密度价值。

2.1.2.7数字经济形态必然依赖于数据平台(数据基础设施)才能个性化服务大用户群体,数据要素依赖于数据平台才成其为要素。

2.2数据平台是数据要素化的必备条件。

2.2.1数据平台是集成化的数据基础设施。

2.2.1.1数据平台不是数字基础设施。数据平台不是网络平台,不是算力平台,也不是安全平台。

2.2.1.2数据平台依托于数字基础设施。数据平台可以含有网络平台,特别是以确定性为特征的高速数据网络平台;数据平台可以含有算力平台,特别是支撑人工智能的预训练和推理计算的算力平台;数据平台也必然含有安全平台,特别是以可信为特征的数据安全平台。

2.2.1.3数据平台集成了网络平台、算力平台和安全平台,更聚焦于数据流通利用基础设施平台。

2.2.2数据平台即数据基础设施,是基础性的生产工具,是生产和应用数据产品的生产工具。

2.2.2.1数据平台是数据产品的生产工具,是最根本性的生产工具,代表数据新质生产力水平。

2.2.2.2数据产品的生产依赖于数据平台,在数据平台上集成来源数据,利用数据平台的工具箱开发数据产品,依托数据平台面向应用场景提供数据产品服务。数据通向数据产品的加工、开发、生产、流通、使用、交易和安全保障都依赖于数据平台。

2.2.2.3没有数据平台就没有数据产品。这个结论考虑到了一个主体从数据采集、数据加工、数据产品生产到应用场景服务自身封闭式服务的情形,但是这种情形及其价值都微乎其微,可以忽略不计。

2.2.3数据平台是从数据到数据产品的基础。

2.2.3.1从数据到数据产品需要突破“数据不出域”的限制性条件。这是保障数据安全的需要。

2.2.3.2突破“数据不出域”的限制性条件需要依托数据平台来“扩大安全域”,使得数据能够出数据持有者各自的小安全域,但是依然在数据平台扩大后的安全域内,从而保障数据安全。

2.2.3.3数据平台让来自不同数据持有者的数据在扩大的安全域内进行数据共享、数据交互、数据流通,并“请进来”各类数据处理者特别是数据产品开发者,在大安全域内共享数据、使用数据、加工数据,进而由数据产品开发者进行数据产品开发,并对外以数据“可用不可见”的方式进行数据产品服务。数据平台为此提供了必要的场域。

2.2.4数据通过数据平台才能嵌入到数据产品中,才能成为进入生产流通过程的数据要素。

3.数据平台的核心是可信

3.1数据平台的基础是“保安全”。

3.1.1数据平台以“扩大安全域”保障在域内安全地数据共享、数据交互、数据流通、数据产品生产和应用。

3.1.2数据平台对数据处理者开放,将数据处理者,特别是数据产品开发者“请进来”,在安全域内进行数据共享、数据交互、数据流通、数据产品生产和应用。

3.1.3数据平台之间通过“确定性网络+联盟链+零信任机制”等措施实现互联互通,形成更大的安全域,确保跨域的数据共享、数据交互、数据流通、数据产品生产和应用。

3.2数据平台的功能是让数据“供得出”“流得动”“用得好”。

3.2.1数据平台借助于“扩大安全域”让数据供给方(数据持有者)能够在“数据不出域”,即不出扩大的安全域的前提下,可以出自身的小安全域,从而实现数据“供得出”。

3.2.2数据平台借助于“扩大安全域”让自身对于数据关联对象成为单一的数据处理者,在关联对象授权下,可以让大安全域内的数据在数据平台这个单一数据处理者内部自由流动,使“请进来”的数据处理者可以自由共享、使用和处理数据,即实现数据“流得动”。

3.2.3数据平台借助于“扩大安全域”和将数据处理者“请进来”使得数据产品开发者可以面向各种应用场景开发生产出相应的数据产品,让数据以“可用不可见”“可控可计量”的形式通过数据产品输出计算结果,即数据服务,从而实现数据“用得好”。

3.3数据平台的关键是让数据产品得以开发生产、安全使用和流通交易。

3.3.1数据平台目的是要服务于数据应用,从数据到应用的唯一桥梁是数据产品,数据平台就是要服务于数据产品。

3.3.2数据平台借助于“扩大安全域”集成各数据持有者的数据并建立数据目录体系(元数据基础设施),“请进来”各数据处理者特别是数据产品开发者,以及“请进来”各方面社会数据,组织各方面第三方数据服务者(也是数据处理者)提供各类数据工具箱、算法库、共性组件,以及合规、评估、测试、安全、登记、估值等服务,为数据产品开发生产、安全使用和流通交易提供支撑。

3.3.3数据产品开发者依托数据平台的数据基础设施体系,可以形成自身的数据供给、数据产品生产、数据服务销售、数据产品使用服务、数据产品交易、数据产品(数据资产)资产化利用(包括质押、投资等)等数据流通利用的全生命周期经营体系,特别是可以利用数据平台的“大中台”开发“微服务”从而面向应用场景实现数据产品的快速开发生产和市场响应。

3.4数据平台的核心是可信。

3.4.1“扩大安全域”不仅要确保安全,还要安全域对各个主体可信。

3.4.1.1数据平台要实现让数据“供得出”“流得动”“用得好”等功能,让数据产品得以开发生产、安全使用和流通交易,需要建立对各方面数据相关主体的可信。

3.4.1.2数据平台涉及五方面主体:主权国家、社会公众、数据处理者、数据来源者、数据使用者等。

3.4.1.3扩大安全域之后,数据平台一方面要作为单一数据处理者对平台上涉私数据涉及到的广大数据来源者(数据关联对象)可信,另一方面还要“请进来”各个数据处理者,需要建立平台对各个数据处理者的可信,以及各个数据处理者之间的可信,此外,数据平台还必须对数据使用者、社会公众可信,让主权国家也认为可信。

3.4.1.4数据平台可信即要求数据平台具备公信力。

3.4.1.5数据平台(数据基础设施)围绕可信数据空间而建立。

3.4.1.6扩大的安全域就是要建立成可信数据空间。

3.4.2可信数据空间是赋予了可信结构的数据空间。

3.4.2.1数据空间是一般化的数据集合。一个物理对象(物理世界的元素)可以有多个向数字空间的映射,多个映射所得的多个数据构成对该物理对象的多角度描述,这些数据的集合构成该物理对象的数字空间,例如可以有“个人数字空间”“法人数字空间”;数据空间是各种物理元素对应的数字空间的并集,是各种数据相互关联在一起的数据生态体系。

3.4.2.2数据空间是带结构的数据集合。数据空间具有内部结构,物理世界的结构、物理元素之间的现实关系决定数据空间的结构、数据相互关联的生态关系。

3.4.2.3数据空间可以有各种结构。例如,根据物理空间元素属性对数据空间元素赋予范围结构,由此可以有行业数据空间、区域数据空间,等等;根据映射的业务逻辑关系对于数据空间赋予业务结构,由此可以有政务数据空间、科学数据空间、跨境数据空间,等等……

3.4.2.4数据空间的多重结构构成数据生态体系,也是构建数据价值生态体系(数据资源体系)的依据,并在此基础上架构数据基础设施(数据平台)。

3.4.2.5可信数据空间是赋予了可信结构的数据空间。可信数据空间是数据基础设施(数据平台)的重要组成部分,是数据基础设施的核心。数据平台围绕可信数据空间这个核心而构建。在数据平台所构成的数据空间的多重结构中,可信结构是首要的。

3.4.2.6可信数据空间涉及众多主体,包括数据处理者(数据持有者、数据产品开发者、数据平台运营者、第三方数据服务者等)、数据来源者(关联对象即数据主体)、数据使用者等,是集数据归集共享、开发生产、安全使用、流通交易、价值实现等于一体的场域。

3.4.3可信数据空间的核心是数据在不同主体之间的可信流通。

3.4.3.1根据《可信数据空间发展行动计划(2024—2028年)》,可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用基础设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。可信数据空间须具备数据可信管控、资源交互、价值共创三类核心能力。这个定义可归纳为数据共识规则、多方主体、共享共用三大特征和数据可信管控、资源交互、价值共创三类核心能力。

3.4.3.2“可信流通”可演绎出三大特征:流通涉及“多方主体”,需要之间的“共识规则”,旨在数据的“共享共用”。

3.4.3.3“可信流通”可演绎出三类核心能力:可信要求全流程的“可信管控”,流通要求实现“资源交互”,共享共用旨在实现“价值共创”。

3.4.3.4可信管控能力是可信数据空间核心能力之一,包括对空间内主体身份、数据资源、产品服务等开展可信认证,确保数据流通利用全过程的动态管控,包括让数据“可控可计量”,并提供实时存证和结果可追溯。

3.4.3.5资源交互能力是可信数据空间核心能力之一,支持不同来源数据资源、产品和服务在可信数据空间的统一发布、高效查询、跨主体互认,实现跨空间的身份互认、资源共享和服务共用,实现可信数据空间之间的互操作性。

3.4.3.6价值共创能力是可信数据空间核心能力之一,支持多主体在可信数据空间规则约束下共同参与数据开发利用,推动数据向数据产品转化,并保障参与各方的合法权益。

3.4.4可信数据空间是数据平台(数据基础设施)的重要组成部分,是数据流通利用基础设施(即数据公共化基础设施)的核心。

3.4.4.1数据平台(数据基础设施)应具有五层架构。在数字基础设施(包括云网边端、算力、感知能力等)作为“强支撑”之上,数据平台的第一层是数据安全基础设施,包括网络安全、数据安全等,做到“保安全”。第二层是元数据基础设施,以目录体系和数据字典形式对数据进行说明和解释,让数据“找得到、看得懂”。第三层是数据公共化基础设施,包括可信数据空间、数据产品超市以及跨域互联互通的确定性网络等,让数据能够“供得出、流得动”。第四层是数据价值化基础设施,支持数据产品的确权、估值,实现数据产品资产化、资本化,并反向赋予来源数据价值使之资源化等,让数据处理行为能够“做得值”。第五层是数据权益基础设施,确保数据权益能够在数据来源者、数据使用者和数据处理者等主体之间“分得均”。

3.4.4.2可信数据空间在数据平台(数据基础设施)五层架构中居于核心地位。安全设施、元数据体系、数据公共化流通、价值化和数据权益都需要架构在可信数据空间基础上。

3.4.4.3可信数据空间的主要功能在于让数据在不同主体之间可信流通,这也是数据平台的核心功能和主要目的。

3.4.4.4可信数据空间和数据平台上的其他组件不是并列关系。可信数据空间在数据平台(数据基础设施)里处于基础地位,是基础的基础。

3.4.4.5可信数据空间的边界就是数据平台的边界。

3.4.5可信数据空间的“可信”不仅是技术上的可信,更是经济学、社会学和法律意义上的可信。

3.4.5.1可信数据空间的“可信”包括技术可信。技术可信包括可信计算、可信存储、可信传输等,并蕴含着技术安全(包括密码技术、区块链、隐私计算等)。

3.4.5.2可信数据空间的“可信”包括主体可信。主体可信包括可信数据空间对数据处理者、数据来源者、数据使用者以及社会公众、主权国家可信,也包括上述主体对可信数据空间可信,以及这些主体之间的可信。这要求可信数据空间运营者要建立一个各主体的信任体系。

3.4.5.3可信数据空间的“可信”包括数据可信。数据可信包括对生产、流通、消费等各领域数据相关主体的可信,对其持有、共享、开放的数据,嵌入数据产品的数据的可信,也就是让数据全生命周期合规和可信。这要求可信数据空间运营者要建立一个各主体的责任体系,让各主体对其持有的来源数据负责。

3.4.5.4可信数据空间的“可信”包括管理可信。管理可信要求可信数据空间运营者强化可信管控,包括对主体身份、数据来源、产品服务等开展可信认证、可信检查、可信监测、可信审计、可信评估等,以保障可信数据空间的全域可信,全流程可信。

3.4.5.5可信数据空间的“可信”包括监管可信。监管可信要求可信数据空间运营者提供可信技术和可信保障,并且为了确保其自身也可信,还要追溯到其授权机构的可信,即需要可信的可信数据空间监管方,即需要相关政府数据管理部门作为可信背书,也就是需要政府作为“可信根”。

3.4.5.6可信数据空间必须具有公信力。

4.可信数据空间是数据平台的核心

4.1可信数据空间需要政府作为“可信根”。

4.1.1可信数据空间的可信体系的可信来自于数据授权运营体系。

4.1.1.1可信数据空间的技术可信、主体可信、数据可信、管理可信、监管可信追根溯源需要可信本身的来源可信。

4.1.1.2物理世界的可信基础在国家,经济学、社会学和法律意义上“可信”的基础在国家。

4.1.1.3数据空间的可信基础在政府。公民、法人、非法人组织的可信身份数据均来自于政府管理机构。

4.1.1.4数据授权运营体系由政府起始,逐次将可信数据授权给运营机构管理,并逐次为其他数据做可信背书。

4.1.1.5数据授权运营体系的根子在于公共数据授权运营体系。公共数据授权运营为初级可信授权,其他数据授权运营为次级可信授权,后者的可信需要前者为其背书。数据平台运营者(即可信数据空间运营者)既受托运营数据,也受托进行可信管理。

4.1.1.6可信数据空间的技术可信、主体可信、数据可信、管理可信、监管可信需要政府作为“可信根”,即由政府提供经济学、社会学和法律意义上“可信”的基础。

4.1.2可信数据空间承载数据平台的可信体系,是整个数据平台的核心。

4.2可信数据空间需要对各类主体整体可信。

4.2.1可信数据空间需要对数据来源者(关联对象)整体可信,而不必让数据来源者面对可信数据空间里众多的数据处理者一一求证其可信。

4.2.2可信数据空间运营者需要作为受托者代表关联对象利益监督数据处理者,监督数据处理者对涉私数据进行采集、加工、使用等数据处理行为,保障数据处理行为的安全、可信。

4.2.3可信数据空间需要成为对数据来源者、数据使用者来说整体可信的单一数据处理者。

4.2.3.1整体政府可以作为单一的数据处理者,决定了公共数据授权运营的公共数据平台运营者(即公共可信数据空间运营者)可以作为单一数据处理者对数据来源者整体可信,并通过公共可信数据空间中已经建立的数据共享、开放和开发利用的一整套机制,实现数据产品的瞬间集成,从而使得关联对象在对整体政府单一数据处理者(即公共数据管理机构及其管理的公共可信数据空间)进行授权的同时,瞬间实现对各公共部门来源数据的授权。

4.2.3.2一般的可信数据空间也需要作为单一数据处理者,在数据来源者对其授权的同时,联动对可信数据空间内的各数据处理者(包括数据产品开发者和数据持有者等)进行授权,即只需要一次授权便激活整个授权链。

4.2.3.3可信数据空间运营者需要代表各相关数据处理者承担对于数据来源者的责任和义务,对数据来源者整体可信;同时受托代表数据来源者监督数据处理者,确保其数据处理行为可信,也获得代表数据来源者以合约方式在数据来源者授权同时延伸授权各相关数据处理者的权利,并将此权利纳入数据产品开发的规则之中,要求数据产品开发者在数据产品中嵌入便利于数据来源者授权的通道,实现一次授权即激活授权链。

4.2.4《个人信息保护法》《网络数据安全管理条例》等法律法规对数据的共同处理、委托处理等做了许可,是可信数据空间的法律法规基础。

4.2.4.1除了核心数据,多个数据处理者可以共同处理各类数据。这是可信数据空间在同一个平台上多方处理数据的法律法规基础。

4.2.4.2除了核心数据,数据处理者可以委托处理各类数据。这是可信数据空间上的各类数据处理者可以受托处理数据的法律法规基础,同时也是公共数据授权运营的法律法规基础。

4.3可信数据空间要建立起相关主体各负其责的责任体系。

4.3.1可信数据空间的可信责任不是数据平台运营者一家的责任,也不是公共数据管理机构一家的责任。

4.3.1.1公共数据管理机构承担提供“可信根”背书的责任。

4.3.1.2可信数据空间运营者承担数据平台的安全和可信责任。

4.3.2在数据持有、使用、流通全生命周期的各环节,全面贯彻数据责任原则。

4.3.2.1数据供给方按照“谁主管、谁提供、谁负责”的原则,明确数据供给范围、用途、条件,承担数据提供前的安全管理责任,也同时承担供给数据的可信责任。

4.3.2.2数据接收方按照“谁经手、谁使用、谁管理、谁负责”的原则,承担数据接收后的安全管理责任,也同时承担接收数据后的可信责任。

4.4可信数据空间是各类数据应用的基础平台。

4.4.1积极推广企业可信数据空间。

4.4.2重点培育行业可信数据空间。

4.4.3鼓励创建城市可信数据空间。

4.4.4稳慎探索个人可信数据空间。

4.4.5探索构建跨境可信数据空间。

4.4.6公共可信数据空间为其他各类可信数据空间提供可信基础。


名词注释:

1.本文数据、信息两词通用。数据(侧重形式、能指)和信息(侧重内容、所指)相统一,可以通用。

2.赛博空间=网络空间=数字空间。

3.数据处理者=网络数据处理者,可分为数据生产主体和数据价值载体,另一个角度可包括数据持有者、数据产品开发者、数据基础设施平台运营者、第三方数据服务者等。

4.数据来源者=关联对象=数据主体。

5.数据平台=数据基础设施。

6.可信数据空间运营者=数据(基础设施)平台运营者=网络平台服务提供者。

7.涉私数据=个人数据+法人数据+非法人组织数据。

8.数据原子能力=数据中间产品。

9.数据供给方=数据持有者。

10.数据价值生态体系=数据资源体系。


参考文献:

[1]董学耕. 数据产品论纲——数据产品是从数据到应用的唯一桥梁. (点击阅读)

[2]中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见. 国务院公报2023年第1号

[3]中华人民共和国个人信息保护法. 中国人大网

[4]《网络数据安全管理条例》(国令第790号). https://www.gov.cn/zhengce/content/202409/content_6977766.htm

[5]董学耕等. 用数据点亮智慧之光:海南省数据要素市场建设探索与实践. 南方出版社,2023.

[6]董学耕. 数据基础设施论纲——关于数字空间、数据空间、数据资源体系、数据基础设施等基本概念的系统性梳理. (点击阅读)

[7]董学耕. 数据基础设施论纲Ⅱ——海南关于数据共享和开发利用的实践路径.(点击阅读)

[8]董学耕. 数据基础设施论纲Ⅲ——数据权益基础设施. (点击阅读)

[9]董学耕. 数据基础设施论纲Ⅳ——作为新质生产关系的数据基础设施. (点击阅读)

[10]董学耕. 可信数据空间的可信根与整体可信.(点击阅读)

[11]董学耕. 《可信数据空间发展行动计划(2024—2028年)》解读. (点击阅读)

[12]董学耕. 从《网络数据安全管理条例》解读可信数据空间.(点击阅读)


作者简介:董学耕,原海南省大数据管理局局长、高级工程师,研究方向:数字政府、数字经济、数据要素。