摘要:
当前数据相关概念纷呈,共识不足,导致交流困难。本文基于对数据科学的理解,系统梳理了数据、信息、场景、数据产品、数据要素、数据资源、数据资产等概念的内涵、边界,基于现行法律法规和价值体系,以数据、数据平台、数据产品、数据应用作为主轴,系统论述了数据价值生态体系的构成,并论证了整个数据价值生态体系中,数据应用是逻辑起点,数据产品是数据价值化的核心。结论是:数据产品是从数据到应用的唯一桥梁。
关键词:数据;信息;数据产品;应用场景;数据价值化
1.从应用到数据是数据的逻辑起点。
1.1数据记录了人类的实践活动。
1.1.1数据是从物理空间到数字空间(网络空间、赛博空间)的映射。物理世界的元素映射到数字空间的数据。
1.1.1.1物理世界的元素对应数据的关联对象(或关联物、关联行为)。
1.1.1.2数据记录了物理世界的元素(关联对象或关联物)在某时某地的某个侧面、属性或行为,成为信息。
1.1.1.3数据反映了物理世界的某个侧面,即作为信息的“记录”载体。同时,信息便是数据“记录”的内容。
1.1.1.4数据记录了现实物理世界的实践信息。
1.1.2信息的本质在于,物理世界的元素属于一个能处于多个状态的系统,当我们知道了它在哪个具体状态,并用数据来记录这个具体状态中这个元素的某个侧面,这就是信息。
1.1.2.1信息量是另外一个概念。一个能处于多个状态的物理系统意味着不确定性,对这种不确定性的度量就是物理系统包含的信息量(信息熵)。信息量是针对(包含物理世界的元素的)物理系统多个可能状态所蕴含的信息不确定性的度量。当物理系统(通过测量)状态确定下来,我们就采集到一组确定的信息。信息量的单位是比特,某条确定的信息则体现为数据,是数字空间里的一个数字。
1.1.2.2在DIKW模型中,数据和信息有区别,数据是数字化记录载体,信息是数字化记录的内容。
1.1.2.3在信息技术语境中,例如讨论数据的存储、传输等,所针对的是(确定信息相应的)数据和信息量的问题,不涉及数据记录的具体内容,即不涉及信息。
1.1.2.4在法律政策语境中,不关心数据量大小,关心的是数据记录的内容,因此,数据即信息。法律政策文件所针对的是确定的信息本身。
1.1.2.5以书籍来类比,技术关心的是书籍的开本、厚度、纸张,可能占用书架空间的大小等,而著作权法关心的是书籍包含的知识、内容。
1.1.3讨论数据要素、数据资源、数据价值之类的概念时,数据即信息。
1.2数据是物理世界实践逻辑的体现。
1.2.1物理世界的元素所在的物理系统的实践规律、规则、逻辑决定其所映射的数据的属性和逻辑结构。数据属性和结构受物理世界的实践逻辑的规定和制约。
1.2.1.1物理现实世界的政治经济逻辑决定数据属性和结构。
1.2.2数据具有主权属性、人身属性、公共属性和价值属性等四大属性,其位阶等级顺序是:主权属性>人身属性>公共属性>价值属性。
1.2.2.1主权属性不可侵犯。依据主权属性,数据分类为核心数据、重要数据、一般数据等。特别是对于核心数据和重要数据,需要按照国家有关法规来规制数据处理行为。
1.2.2.2人身属性是数据处理行为的前提。在主权不可碰之外,应当落实“数据以人为本”,即落实数据关联对象(即数据主体,或数据来源者,包括自然人、法人、非法人组织等)对数据的决定权,作为数据公共利用和价值释放的前提。数据依据关联对象不同分为涉私数据和非涉私数据。
1.2.2.3公共属性是数据价值化的前提。数据的主要价值在于社会交往和社会利用,即对公众有用。包括涉私数据(不等于隐私数据),其主要价值也在于社会交往的可识别性,是否普遍公开,是否只对特定对象公开,是否只授权特定信息处理者使用,由数据关联对象(数据主体)自决。总之,数据不是为了保护而存于世间,而是为了利用。
1.2.2.4价值属性是数据要素化的依据。数据要素化在于使用,在于进入生产、流通过程,在于发掘其价值属性。
1.2.3数据存在的意义在于使用,在于发挥公共属性,发掘价值属性。
1.2.3.1数据要素即进入生产、流通过程加以使用、释放价值的数据。
1.2.3.2数据寓于信息系统之中。数据自信息系统中产生,也在信息系统中存在。
1.2.3.3数据的使用依托于信息系统。
1.2.4数据涉及多元主体,包括数据来源者、数据处理者、数据使用者。
1.2.4.1数据来源者即数据主体,也称为数据关联对象,是数据所指涉的物理世界的人格对象。涉私数据都有关联对象,包括个人、法人、非法人组织。关联对象对数据拥有知情权、决定权,数据处理活动需要在关联对象的知情同意下进行。
1.2.4.2数据处理者是对数据进行采集、存储、检索、加工、治理、变换、传输、开发、产品化、测试、确权、评估、再利用、对外服务等各种处理活动的行为主体,主要分为数据生产主体和价值载体两类,特别是包括了数据产品开发者、数据基础设施运营者以及第三方数据服务者等。
1.2.4.3数据使用者也是数据的贡献者,在使用数据过程中,也会产生新的数据。
1.3数据只有返身于物理世界的应用(实践)才有价值。
1.3.1数据价值在于使用。
1.3.1.1有用的数据就是数据资源。数据资源化是以有用性来规定的。数据资源依然是数据,是有资源属性(有用性)的数据。
1.3.1.2进入生产流通之中的数据就是数据要素。数据要素化是以在生产流通中使用数据来规定的。数据要素依然是数据,是有要素属性(纳入生产流通过程)的数据。
1.3.1.3能在生产流通中使用的数据一定是有用的数据,数据要素一定是数据资源。
1.3.1.4实现数据的价值属性,即释放数据价值,或数据价值化,就是在应用中实现数据的使用价值。
1.3.2数据价值化是在数据应用中实现的。
1.3.2.1数据应用的过程是在应用中使用数据并在使用中产生新数据。
1.3.2.2数据使用者使得数据使用价值实现。
2.从应用场景到数据产品是数据价值实现的唯一途径。
2.1应用场景就是解决问题,是众多主体使用数据来解决同样问题。
2.1.1数据应用场景是数据的一个具体应用。
2.1.1.1一个应用场景对应一个具体应用而不是一类应用、一个领域的众多应用、一个地域的众多应用。
2.1.1.2一个应用场景是众多数据使用者来应用,而不是单个使用者应用。
2.1.2一个应用场景解决一个问题。
2.1.2.1一个应用场景解决一个问题而不是解决一类问题、一个领域的众多问题、一个地域的众多问题。
2.1.2.2一个应用场景解决众多数据使用者的同样问题,而不是只解决单个主体的问题。
2.2数据产品是面向应用场景并且需要有数据嵌入才能提供服务的产品形式。
2.2.1数据产品有两大核心特质:一是面向应用场景;二是需要有数据嵌入才能提供服务。
2.2.1.1没有应用场景就没有数据产品。数据产品只针对应用场景而开发生产。
2.2.1.2没有数据规模就没有数据产品。数据产品只针对众多主体的共性应用而开发生产,使用主体越多,数据规模越大,解决的共性问题越紧要,数据产品越有用。
2.2.1.3没有信息系统就没有数据产品。嵌入数据产品的数据来自于相关信息系统。
2.2.1.4没有数据基础设施就没有数据产品。数据嵌入数据产品的过程依赖于支撑数据流通的基础设施。
2.2.1.5数据产品具有动态性、实时性。嵌入数据产品的数据必须是鲜活的、实时的,以便能够反映应用场景下物理世界元素的实时信息。
2.2.1.6数据产品表现为信息系统。
2.2.2数据产品可以表达为多种产品形态。
2.2.2.1数据产品主要表现为软件产品,但不等于软件。操作系统、数据库、办公软件等不需要依赖于外来数据即可使用的软件不是数据产品。而很多软件需要调入外部数据才能使用的,就是数据产品,例如政务服务(需要用户提供办事相关数据),例如支付APP(需要用户账户信息等),例如大语言模型LLM(需要用户提问互动等)。
2.2.2.2数据产品和硬件也有交集。数据产品并不仅仅表现为软件,很可能需要相应硬件支撑。且不说上述表现为软件的数据产品需要相关硬件终端,有的专用硬件本身就是数据产品,否则离开了数据嵌入就是废铁。例如政务服务自助终端(需要用户提供办事相关数据),例如门禁系统(需要用户刷卡数据或生物识别数据)。
2.2.2.3数据集不是数据产品。数据集只是多个数据,不是面向应用场景的数据产品。
2.2.2.4数据接口不是数据产品,并不直接面向应用场景。
2.2.2.5数据原子能力(或称数据中间产品),包括数据治理后的数据集或数据接口、共性高频利用的数据集或数据接口、去标识化或脱敏后的逻辑真实数据或数据接口等,都不是数据产品,而仍然是数据。
2.2.2.6数据分析报告(指根据固定时点的统计分析类数据形成的数据报告)不是数据产品,但是利用数据分析模型形成的嵌入实时更新数据的数据分析可视化产品属于数据产品。
2.2.3数据产品可以分为分析类数据产品和个体化数据产品。
2.2.3.1分析类数据产品是指嵌入数据产品的数据均不具有人身属性的数据产品。嵌入分析类产品中的数据均非涉私数据,或者是涉私数据匿名化(不能回溯到原始数据)后的数据,大多是统计分析性的数据。因而分析类数据产品无需数据关联对象授权即可使用。
2.2.3.2个体化数据产品是指数据产品中包含具有人身属性的数据嵌入的数据产品。嵌入个体化产品中的数据含有涉私数据。因而个体化数据产品需要在应用场景中由数据关联对象授权方可使用。
2.3应用寓于场景,应用寓于数据产品。
2.3.1场景是应用的具体化。
2.3.1.1应用的具体化就是进行应用场景的开发。应用场景的创新就是梳理和提出新的应用场景需求。
2.3.1.2应用的具体化体现为数据产品。应用场景创新需要落实在数据产品创新中,通过开发生产数据产品而实现。
2.3.2面向应用场景的数据只能是嵌入在数据产品中的数据。
2.3.2.1只有嵌入数据产品的数据才是有用的数据。
2.3.2.2只有嵌入数据产品的数据才是数据资源。
2.3.2.3鉴于嵌入数据产品的数据资源已经实质性地进入生产流通过程,数据资源也就是数据要素。
2.3.2.4数据资源=数据要素。
2.3.3一个应用场景可以有多个数据产品提供问题的解决。
2.3.3.1一个场景对应一个应用,解决一个问题,可以有多个数据产品来提供解决。
2.3.3.2一个数据产品可以针对一个场景,也可以针对多个场景提供问题的解决。
2.3.4并不存在离开数据产品的数据服务。
2.3.4.1数据服务寓于应用场景。
2.3.4.2数据服务寓于数据产品。
2.3.4.3数据产品即服务(DPaaS)。
2.4数据价值化在于数据产品化。
2.4.1数据价值化需要让数据以某种形式嵌入到现行价值体系中。
2.4.1.1现行价值体系或经济运行体现在微观的财务体系和宏观财政体系中。
2.4.1.2数据价值化的核心问题是数据价值得到财务体系和财政体系的确认,这样价值才能变现。
2.4.1.3数据需要纳入财务体系,前提条件是数据确权和数据资产化。
2.4.2数据权益包括数据相关主体的安全权益和价值权益。
2.4.2.1数据处理活动需要保护主权国家、关联对象以及公众的安全权益,“不得危害国家安全、公共利益,不得损害个人、组织的合法权益”。
2.4.2.2数据生产主体包括数据产品开发者、来源数据提供者(数源单位)等数据处理者,主要从事数据采集、治理、存储、加工、使用、开发、利用、提供服务等行为,其价值权益可以包括数据持有权、数据加工使用权、数据产品经营权等。
2.4.2.3数据价值载体包括可信数据空间运营者、互联网平台、云服务商等,主要从事数据存储、治理、传输、公开、删除等行为,其价值权益可以包括数据持有权、数据产品经营权等。
2.4.2.4数据关联对象包括自然人、法人和非法人组织等,拥有对其相关涉私数据处理活动的知情权、决定权等安全权益和价值权益。
2.4.3数据产品化是数据确权的关键。
2.4.3.1非涉私数据可以直接确权。数据处理者依法依规获得的非涉私数据自然获得数据所有权,享有相关价值权益,包括数据的占有、使用、收益、处分。依法依规包括了对于依据数据主权属性属于核心数据、重要数据的,数据处理者不得触碰国家安全权益,在此前提下享有价值权益。
2.4.3.2涉私数据涉及到数据处理者和数据来源者多方权益,不能确定所有权。数据处理者依法依规可以获得数据持有权、加工使用权、产品经营权等,但涉私数据处理的决定权属于数据来源者(关联对象)。
2.4.3.3涉私数据需要嵌入到面向应用场景的数据产品中,由关联对象在使用数据产品时对数据处理者处理其数据进行在线实时授权,相关数据才能瞬间集成到数据产品开发者开发的数据产品中,面向应用场景安全使用、输出服务。
2.4.3.4在关联对象的授权下,数据产品开发者获得关联对象的权益让渡,从而实现对数据产品的完整权益拥有,即拥有占有、使用、收益、处分的完整价值权益,拥有数据产品所有权。
2.4.4数据产品是数据资产。
2.4.4.1经过确权的数据产品具有“可控制”的属性。
2.4.4.2数据产品可以进行价值评估,从而具备“可计量”“可收益”的属性。
2.4.4.3经过确权和估值的数据产品才是数据产品开发者“可控制”“可计量”“可收益”的数据资产。
2.4.5嵌入数据产品的来源数据是数据资源。
2.4.5.1嵌入数据产品的来源数据是在数据产品中被使用的数据,数据产品的价值可以分解出部分价值作为数据供给方的来源数据的价值,并在数据产品合约中约定。
2.4.5.2数据产品的价值可以倒推出嵌入在数据产品中的来源数据具有价值,这就是被使用的数据资源的价值。
2.4.5.3借助于数据产品及相关数据供给合约,来源数据持有者(即数据供给方)对于持有的数据资源“可控制”“可计量”“可收益”,拥有数据资源的用益物权,享有相关价值权益。
2.4.6数据产品市场决定数据要素市场。
2.4.6.1数据价值即数据使用价值,是由应用场景规定的。
2.4.6.2数据价值化是通过数据产品化实现的。
2.4.6.3数据要素化、数据资源化是通过数据产品化实现的。
2.4.6.4数据产品市场决定数据要素市场,这也是需求决定供给的体现。
2.5数据整体价值大于局部价值。
2.5.1数据产品要求数据集合具备整体性。没有整体性,就没有服务具体场景的数据产品。个别数据是在整体数据的背景上发挥作用。
2.5.2数据产品价值具有规模经济和范围经济特性。衡量一个数据产品价值,要看规模,规模越大,往往价值也越大。同一个区域,时空划分越精细,涉及主客体数量越多,使用频度越大,也就是数据量越大,数据产品能力越强,使用价值就越大。在同样的数据密度下,涉及区域越大,数据产品价值越大。这就是数据的边际效用递增特性。
2.5.3数据产品化依赖于以可信数据空间为核心的一整套数据基础设施,数据产品要求的数据整体性、数据的规模经济和范围经济特性也驱使数据向平台化发展,并在平台基础上形成数据价值生态系统。数据平台会充分利用数据的规模性和范围性,数据产品化依托的平台网络越大,数据价值生态越丰富,数据平台以及数据产品价值的边际效用递增就越明显。
3.数据产品是从数据到应用的唯一桥梁。
3.1数据价值生态体系只有四层,即数据、数据平台、数据产品和数据应用。
3.1.1数据资源依然是数据,是有资源属性的数据(有用性)。
3.1.2数据要素依然是数据,是有要素属性的数据(纳入生产流通过程)。
3.1.3数据原子能力(数据中间产品)依然是数据,是经过数据治理的数据。
3.2数据是数据价值生态体系中的“原材料”。
3.3数据平台即某种数据基础设施,是数据价值生态体系中的“生产车间、生产设备和流通市场”。
3.4数据产品是数据价值生态体系中的“产品和服务供给”。
3.5数据应用是数据价值生态体系中的“应用需求”。
3.6数据产品是从数据到应用,实现数据价值的唯一桥梁。
名词注释:
1.本文数据、信息两词通用。数据(侧重形式、能指)和信息(侧重内容、所指)相统一,可以通用。
2.赛博空间=网络空间=数字空间。
3.数据处理者=网络数据处理者,可分为数据生产主体和数据价值载体,另一个角度可包括数据持有者、数据产品开发者、数据基础设施平台运营者等。
4.数据来源者=关联对象=数据主体。
5.涉私数据=个人数据+法人数据+非法人组织数据。
参考文献:
[1]中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见. 国务院公报2023年第1号
[2]中华人民共和国个人信息保护法. 中国人大网
[3]董学耕等. 用数据点亮智慧之光:海南省数据要素市场建设探索与实践. 南方出版社,2023.
[4]董学耕. 数据基础设施论纲——关于数字空间、数据空间、数据资源体系、数据基础设施等基本概念的系统性梳理. (点击阅读)
[5]董学耕. 数据基础设施论纲Ⅱ——海南关于数据共享和开发利用的实践路径. (点击阅读)
[6]董学耕. 数据基础设施论纲Ⅲ——数据权益基础设施. (点击阅读)
[7]董学耕. 数据基础设施论纲Ⅳ——作为新质生产关系的数据基础设施.(点击阅读)
作者简介:董学耕,原海南省大数据管理局局长、高级工程师,研究方向:数字政府、数字经济、数据要素。