摘要:
本文承接上三篇《数据产品论纲——数据产品是从数据到应用的唯一桥梁》《数据产品论纲Ⅱ——数据平台的核心是可信》《数据产品论纲Ⅲ——数据产品是数据资产化的唯一途径》,围绕怎样做好“搭平台”“谋场景”“做产品”,怎样让数据产品能够开发生产出来,本文论证了搭建好一体化可信数据空间是让数据能够变成数据产品的关键。其中,可信数据空间可以依托确定性网络通过远程桌面方式进一步扩展安全可信场域;开发数据产品需要将原始数据转化为逻辑真实数据;可控匿名化机制可实现逻辑真实数据的合法合规利用;依托政务数据体系建立一体化公共可信数据空间以及一体化可信数据空间体系,才能获得可信背书,并成为互操作、“多对多”的数据平台;一体化可信数据空间才能让源头数据安全可信地实现数据共享、数据交互、数据流通、数据产品生产和应用。最后,依托可互操作的一体化可信数据空间体系,让数据产品开发者“多对多”地直接利用源头数据才是数据产业发展的金钥匙。
关键词:数据产品;可信数据空间;远程桌面;确定性网络;逻辑真实数据;可控匿名化
1.数据经济就是“搭平台”“谋场景”“做产品”,就是要面向应用场景开发生产日益丰富的数据产品
1.1搭数据平台是让数据能够变成数据产品的关键。
1.1.1数据平台作为“生产车间、生产设备和流通市场”,是数据产品开发生产和满足需求整个实现过程中的关键基础设施,提供数据流通环境和数据产品开发工具支持。
1.1.2数据平台的功能是让数据“供得出”“流得动”“用得好”。
1.1.3数据通过数据平台才能嵌入到数据产品中,才能成为进入生产流通过程的数据要素。
1.1.4数据产品的生产依赖于数据平台,在数据平台上集成来源数据,利用数据平台的工具箱开发数据产品,依托数据平台面向应用场景提供数据产品服务。数据通向数据产品的加工、开发、生产、流通、使用、交易和安全保障都依赖于数据平台。
1.1.5数据平台的核心是可信数据空间。数据平台运营者(即可信数据空间运营者)要做好“搭平台”工作,建设好公共可信数据空间,以及企业、行业、城市、个人、跨境等可信数据空间,并围绕可信数据空间建设好数据平台。
1.1.6公共数据授权运营机构要搭建好公共数据平台,并为各类其他数据平台做可信背书。
1.2谋应用场景是以应用需求来驱动整个数据价值生态体系。
1.2.1应用的具体化就是进行应用场景的开发。应用场景的创新就是梳理和提出新的应用场景需求。
1.2.2应用场景的开发者既可以是应用需求单位,包括各行各业的应用需求者,也可以是数据产品开发者,后者通过深入研究各行各业的需求,更可以针对性地开发出新的应用场景。
1.2.3应用的具体化体现为数据产品。应用场景创新需要落实在数据产品创新中,通过开发生产数据产品而实现。
1.3做数据产品是让数据满足需求而让数据价值得以实现。
1.3.1数据产品是从数据到应用,实现数据价值的唯一桥梁,也是数据资产化的唯一途径。
1.3.2数据产品开发者是实现数据价值的核心力量。数据产品开发者需要充分理解应用场景,甚至参与应用场景开发,充分利用数据平台,以及可信数据空间上的各类数据,开发生产出满足应用场景需求的数据产品,并做好数据产品的应用服务,让数据产品即服务。
1.3.3只有数据产品和嵌入数据产品的来源数据集才是真正进入了数据应用的数据形态,才产生真正的经济价值,才是增加值的来源,数据税收的来源,数据财政的来源。
2.数据产品开发者是基于数据平台的可信数据空间做数据产品
2.1可信数据空间是进行数据产品开发生产的可信场域。
2.1.1可信数据空间通过“扩大安全域”来构建,保障在域内安全可信地数据共享、数据交互、数据流通、数据产品生产和应用。
2.1.2可信数据空间通过将数据处理者“请进来”, 在大安全域内共享数据、使用数据、加工数据,进而由数据产品开发者进行数据产品开发,并对外以数据“可用不可见”的方式进行数据产品服务。
2.1.3数据产品开发者只有依托数据平台的可信数据空间才能充分利用这一可信场域中各类主体贡献的数据,包括公共数据、社会数据、产业数据等,充分地共享数据、使用数据、加工数据,面向应用场景开发生产数据产品。
2.2可信数据空间需要以众多供给方的数据服务众多数据产品开发者。
2.2.1可信数据空间不是专为少数数据处理者使用的场域,而是服务众多数据处理者安全可信地数据共享、数据交互、数据流通、数据产品生产和应用的场域。
2.2.1.1可信数据空间作为数据平台的核心,要引进和集成尽可能多的数据供给方(数据持有者),开放式地服务于各方面的数据产品开发者。
2.2.1.2可信数据空间作为数据平台的核心,要“请进来”尽可能多的数据处理者,包括数据产品开发者、第三方数据服务者等,充分利用平台集成的数据。
2.2.1.3可信数据空间作为数据平台的核心,是一个“多对多”的数据共享、数据交互、数据流通、数据产品生产和应用的场域。
2.2.2可信数据空间可以通过远程桌面方式进一步扩展安全可信场域。
2.2.2.1远程桌面以图像流方式远程呈现,可以实现数据不动而远程操作,数据“可用不可留”,且在云端可全过程监管数据,将安全可信场域逻辑地扩展到远端。
2.2.2.2远程桌面方式可以极大便利“请进来”的各类数据处理者,尤其是数据产品开发者。
2.2.3远程桌面可依托确定性网络设置远程开发坐席方式实现。
2.2.3.1确定性网络是确保远程传输超低时延、超低抖动和跨区域连接和传输安全可信的新型网络。
2.2.3.2依托确定性网络,可以为数据产品开发者设置远程开发坐席,并纳入平台监管,而远程开发生产数据产品可以通过远程桌面方式实现。
2.3建立可控匿名化机制,以逻辑真实数据支撑数据产品开发。
2.3.1通过确定性网络和远程桌面方式开发数据产品需要将原始数据转化为逻辑真实数据。
2.3.1.1通过确定性网络和远程桌面方式开发数据产品,数据终归是要在开发端显示的,这就存在数据泄露的风险,因此还需要解决个体敏感数据泄露问题,需要数据脱敏技术加持。
2.3.1.2逻辑真实数据是和原始数据业务逻辑一致的脱敏数据,可以在数据开发中像真实数据一样使用。
2.3.1.3从真实原始数据到逻辑真实数据有一个映射关系表。
2.3.1.4数据产品开发环节就是使用敏感数据脱敏后的逻辑真实数据来支撑真实数据产品的开发、测试。依据逻辑真实数据开发出来的数据产品就是真实数据产品。只是在数据产品上架实际运行时,才用真实原始数据替换掉逻辑真实数据,即用脱敏处理时的映射关系表再逆向映射,实现从逻辑真实数据到真实原始数据的还原。这时数据产品在真实应用场景中在数据来源者的授权之下调用的是真实原始数据,据此输出正确的数据服务。
2.3.1.5假名化技术是一种使用假名替换直接标识(或其它敏感标识符)的去标识化技术。映射关系表可通过假名化技术实现。通过假名化技术,数据产品开发者不能直接识别数据对应的个体(数据来源者),达到数据脱敏的目的。
2.3.2可控匿名化机制可实现逻辑真实数据的合法合规利用。
2.3.2.1《个人信息保护法》明确,个人数据经匿名化处理后不再是个人数据。因而,匿名化数据不再需要数据来源者授权即可处理。
2.3.2.2上述关于从真实原始数据向逻辑真实数据的转化是一种可控匿名化机制。所谓可控匿名化,是指数据在一个可控环境中的部分匿名化:对于“请进来”的数据处理者(包括数据产品开发者、第三方数据服务者等),经过假名化技术等进行脱敏的逻辑真实数据已经是不可还原、不可回溯到数据来源者的匿名化数据,因而这些数据处理者可以将这些数据按照非涉私数据进行处理,包括数据产品开发;但是对于掌控着映射关系表的可信数据空间运营者,逻辑真实数据可以还原为原始数据,因而不是匿名化数据,而且确实要在真实应用场景中使用时还原回原始数据,因此这个还原必须得到数据来源者的授权。
2.3.2.3通过可控匿名化机制,数据产品开发者对逻辑真实数据的处理是合法合规的,可信数据空间运营者在数据产品面向真实应用场景使用时在数据来源者授权下将逻辑真实数据还原回真实原始数据也是合法合规的。
2.3.2.4可控匿名化机制的关键在可控,在于对映射关系表进行严格的访问控制,以保证甚至管理员也无法还原映射关系,而只有数据来源者授权才能还原。在技术上,可以采用加密方式生产假名等。在管理上更要落实可信数据空间运营者的法律责任。
2.3.2.5数据管理机构要加强对可信数据空间运营者的监管。
2.4可信数据空间可开放式地为众多数据产品开发者提供数据产品开发生产的场域。
2.4.1可信数据空间的远程坐席可以支撑众多数据产品开发者远程开发生产数据产品。
2.4.2可信数据空间的逻辑真实数据可以支撑众多数据产品开发者在开发数据产品前对数据质量进行探查,从而更好地针对应用场景设计数据产品。
2.4.3可信数据空间的逻辑真实数据可以支撑众多数据产品开发者进行真实数据产品的开发生产。
2.4.4可信数据空间的逻辑真实数据可以支撑人工智能大模型预训练和优化训练。
3.一体化可信数据空间可以让数据产品开发者直接利用源头数据
3.1可信数据空间需要政府作为“可信根”。
3.1.1可信数据空间的技术可信、主体可信、数据可信、管理可信、监管可信需要政府作为“可信根”,即由政府提供经济学、社会学和法律意义上“可信”的基础。
3.1.2数据授权运营体系由政府起始,逐次将可信数据授权给运营机构管理,并逐次为其他数据做可信背书。
3.1.3数据授权运营体系的根子在于公共数据授权运营体系。公共数据授权运营为初级可信授权,其他数据授权运营为次级可信授权,后者的可信需要前者为其背书。
3.1.4公共可信数据空间为其他可信数据空间提供可信背书。
3.2公共可信数据空间需要数字政务牵引,以政务数据体系建设为基础。
3.2.1公共数据利用包括共享、开放和开发利用三种形式,开发利用主要通过授权运营和开发开放实现。
3.2.1.1统筹推进政务数据共享是基础。完善政务数据目录,实行统一管理,推动实现“一数一源”;推动无条件共享与有条件共享相结合做好资源发布工作。
3.2.1.2有序推动公共数据开放是目的。健全公共数据开放政策体系,明确公共数据开放的权责和范围,在维护国家数据安全、保护个人信息和商业秘密前提下,依法依规有序开放公共数据。
3.2.1.3鼓励探索公共数据授权运营是重要手段。探索建立公共数据分类分级授权机制。加快形成权责清晰、部省协同的授权运营格局。
3.2.1.4公共数据资源开发利用依托公共可信数据空间来实现,需要数字政务牵引,以政务数据体系建设为基础。
3.2.2可共享的公共数据都可以开放利用。
3.2.2.1按照“以共享、开放为原则”的要求,有条件共享、有条件开放的公共数据可以通过落实授权运营和开发开放,落实数据来源者对有条件共享、开放数据(涉私数据)的决定权,而纳入可开发利用的数据范围。
3.2.2.2通过将有条件共享、有条件开放的公共数据嵌入到时间产品之中,并在应用场景中由数据来源者进行授权,这些数据可以通过数据产品输出服务,从而达到开发开放的目的,即先开发后开放,通过开发实现开放。
3.2.2.3只要能在公共部门之间共享的数据原则上都可以为社会开发利用。公共数据共享范围即开放利用范围,能共享就能开放利用。
3.2.3涉私数据的数据产品“瞬间集成”特性要求作为公共数据的来源数据落实“秒审”机制。
3.2.3.1对数据共享、开放的“条件”要进行结构化分解,让“条件”可以机器识别、自动识别,写进智能合约,一旦满足“条件”即自动按照智能合约执行,无需人工干预。
3.2.3.2对于结构化的“条件”,可以采用一揽子审核、自动化审核方式,无需“一数一审”,从而实现全流程无人工干预自动审核的数据共享、开放审核模式,即“秒审”。
3.2.3.3“秒审”的数据可以瞬间集成到时间产品中,在数据来源者授权同时可以瞬间集成进数据产品,实现数据产品的瞬间组装,数据服务的瞬时输出。
3.2.3.4通过“秒审”机制,有条件共享、开放的数据(借助于开发为数据产品形式和让数据来源者行使决定权)对于数源单位而言实质上可以转变为无条件开放的数据。借此机制,便落实了可共享数据都可以开放利用。
3.3公共可信数据空间要一体化构建。
3.3.1公共可信数据空间必须与政务数据体系无缝衔接。
3.3.1.1数据平台(数据基础设施)应具有五层架构。可信数据空间在数据平台五层架构中居于核心地位。安全设施、元数据体系、数据公共化流通、价值化和数据权益都需要架构在可信数据空间基础上。
3.3.1.2要让政府“可信根”为公共可信数据空间背书,必须将以公共可信数据空间为核心的数据平台整体架构在政务数据体系(政府数据管理平台)之上。
3.3.1.3依托政务数据体系(政府数据管理平台),将公共数据平台及其公共可信数据空间打造成为一体化公共可信数据空间。
3.3.1.4一体化公共可信数据空间才能让公共数据的源头数据(原始数据、逻辑真实数据)在数据平台上安全可信地实现数据共享、数据交互、数据流通、数据产品生产和应用。
3.3.2可信数据空间需要建立一体化的可信数据空间体系。
3.3.2.1一体化公共可信数据空间是将公共可信数据空间运营与政务数据体系运营一体化的可信数据空间。
3.3.2.2一般的一体化可信数据空间是基于一体化公共可信数据空间,能够与一体化公共可信数据空间实现互操作的可信数据空间。
3.3.2.3一体化可信数据空间利用与一体化公共可信数据空间的互操作性,也能让公共数据的源头数据在一体化可信数据空间上安全可信地实现数据共享、数据交互、数据流通、数据产品生产和应用。
3.3.3一体化可信数据空间可实现源头数据的可信流通。
3.3.3.1不仅一体化公共可信数据空间可以实现公共源头数据的可信流通,其他一体化可信数据空间在公共可信数据空间背书下,也可以实现数据平台内源头数据的可信流通。
3.3.3.2一体化可信数据空间借助于逻辑真实数据可以实现源头数据为数据处理者直接利用。
3.3.3.3一体化可信数据空间不是为少数用户特设的可信环境,而是为众多数据供给方和众多数据产品开发者提供“多对多”数据服务的可信数据空间。
3.3.3.4“多对多”才让数据平台真正成为平台。
3.3.3.5“多对多”才让数据平台真正成为开放式的平台,能够让最大量的数据持有者供给数据,让最大量的数据处理者进入一体化可信数据空间充分利用平台上的数据进行数据产品开发生产。
3.4依托可互操作的一体化可信数据空间体系,让数据产品开发者“多对多”地直接利用源头数据才是数据产业发展的金钥匙。
名词注释:
1.本文数据、信息两词通用。数据(侧重形式、能指)和信息(侧重内容、所指)相统一,可以通用。
2.赛博空间=网络空间=数字空间。
3.数据处理者=网络数据处理者,可分为数据生产主体和数据价值载体,另一个角度可包括数据持有者、数据产品开发者、数据基础设施平台运营者、第三方数据服务者等。
4.数据来源者=关联对象=数据主体。
5.数据平台=数据基础设施。
6.可信数据空间运营者=数据(基础设施)平台运营者=网络平台服务提供者。
7.涉私数据=个人数据+法人数据+非法人组织数据。
8.数据原子能力=数据中间产品。
9.数据供给方=数据持有者。
10.数据价值生态体系=数据资源体系。
11.价值权利=价值权益。
12.源头数据=原始数据+逻辑真实数据。
参考文献:
[1]董学耕. 数据产品论纲——数据产品是从数据到应用的唯一桥梁. (点击阅读)
[2]董学耕. 数据产品论纲Ⅱ——数据平台的核心是可信. (点击阅读)
[3]董学耕. 数据产品论纲Ⅲ——数据产品是数据资产化的唯一途径. (点击阅读)
[4]中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见. 国务院公报2023年第1号
[5]中华人民共和国个人信息保护法. 中国人大网
[6]董学耕等. 用数据点亮智慧之光:海南省数据要素市场建设探索与实践. 南方出版社,2023.
[7]董学耕. 数据基础设施论纲——关于数字空间、数据空间、数据资源体系、数据基础设施等基本概念的系统性梳理. (点击阅读)
[8]董学耕. 数据基础设施论纲Ⅱ——海南关于数据共享和开发利用的实践路径.(点击阅读)
[9]董学耕. 数据基础设施论纲Ⅲ——数据权益基础设施. (点击阅读)
[10]董学耕. 数据基础设施论纲Ⅳ——作为新质生产关系的数据基础设施. (点击阅读)
[11]董学耕. 可信数据空间的可信根与整体可信. (点击阅读)
[12]董学耕. 数据产品开发与数据脱敏. (点击阅读)
[13]董学耕. 数据开发开放拓展数据开放利用范围. (点击阅读)
作者简介:
董学耕,原海南省大数据管理局局长、高级工程师,研究方向:数字政府、数字经济、数据要素。