数据安全探索者任奎:数据是新时代的生产要素;保护数据原生价值,实现数据的所有权保护、交换与管理;完善数据在收集、使用、存储等阶段的全生命周期安全;研究分析复杂物理数据交互场景中的数据安全攻防机理;在保护数据所有权的前提下实现高价值数据的安全交易;安全技术标准的推广与法律法规的完善。
01 数据安全防护是重大战略需求
目前的行业共识认为,数据是数字经济发展的核心驱动力。云计算、物联网、区块链、人工智能等经济生态及相关产业链在智能城市升级和国家重大基础设施产业发展中发挥着积极作用。根据《中国数字经济发展白皮书》,2020年中国数字经济规模已达到39.2与去年相比,万亿元增加3.3万亿元,占GDP比重为38.6%。
显然,数据正在加速许多国民经济产业的强劲腾飞。考虑到数据作为核心生产要素的重要地位,数据安全和隐私保护不容忽视。随着数据科学与工业生产的深度整合,数据安全的影响逐渐蔓延到军事、金融、医疗、教育等领域,与国家安全有关。
事实上,学界和工业界都已经开始大力推动大数据安全战略布局,各国政府也都相继出台各项法律法规以规范保障数据的安全使用和生产,如我国的《网络安全法》、《密码法》等。数据驱动的应用场景正在不断地推陈出新,因此对数据安全防护的要求也在不断提高。从一个数据安全技术研究与探索者的角度,我认为只有从真实场景的实际安全需求出发,才能寻找到最具价值的前沿研究领域。
有鉴于此,我们的团队一直在探索安全与性能之间的冲突和挑战,以揭示数据安全保护。努力实现数据深度安全保护,能够抵御各种潜在攻击威胁,尊重和保护数据所有者的权利和利益,并尽可能保留数据作为生产要素的原始价值。这也是整个数据安全行业的共同目标。
02 全生命周期安全防护志必行
以过去的2020年为例,IBM安全机构发布,仅在今年,全球数据泄漏造成的平均经济损失高达386万美元,覆盖医疗、金融、交通等行业。
许多例子表明,数据隐私泄露可能发生在存储、传输、操作、处理等任何环节。因此,为了最大限度地防止数据隐私泄露,确保数据在整个生命周期中的安全已成为一个迫切需要解决的问题。在过去的几十年里,国内外数据安全研究人员和从业人员建立了许多技术安全标准和规范,如AES、国密及TLS等等,在数据存储和传输方面提供了强有力的支持。
然而,数据运行中的安全保护措施仍有相当大的局限性。具体来说,无论数据存储和传输的安全措施如何,一旦数据运行和处理,数据通常以明确的形式呈现,这给攻击者(可以来自外部或内部)带来了机会。
不同于其他自然界的生产资料,数据作为核心生产要素,一旦以明文呈现,是可以被攻击者轻易拷贝、复制或窃取的,从而损害数据所有者的权限与利益。因此,如何保护数据运行时的安全,力求做到全生命周期的数据安全防护,是当下数据安全行业公认的一个痛点,也是我们正在着手研究的热点问题之一。
数据运行中安全的技术方向和发展趋势日新月异,包括同态加密、安全多方计算、可搜索加密、可信硬件等技术点。虽然重点不同,但共同目的是实现数据“可用”而“不可见”。也就是说,在数据全生命周期保护(特别是运行保护)的前提下,数据作为生产要素的原始价值最大限度地保留,为数据的深度安全保护提供强有力的技术支持。在学术界和工业界的共同推动下,这些技术的难点和标准规范正在迅速发展。
我们的研究小组也在这些领域工作了多年,有幸见证了行业在整个生命周期内保护数据安全的共同努力。自从我的职业生涯开始,我和我的合作伙伴就一直致力于云数据安全(包括数据运行时的安全)。
回顾起初,数据云的趋势才刚刚上升。云平台带来了按需弹性服务、可扩展性和低入门成本等诸多优势。然而,随着数据和计算任务转移到云平台,这种计算服务模式的转变也引发了许多新的数据安全和隐私问题,激发了我们对研究的兴趣。
在我们开展的许多研究课题中,一个具有代表性的主要挑战是如何在不泄露查询或数据内容的情况下保持密文数据的可搜索性,以实现密文检索技术。本研究的起点来自于现实生活中无处不在的数据搜索功能。数据搜索可以方便我们在大量数据集中快速获取我们感兴趣的数据。
当时只有少数密码原语能够满足相关安全设计的要求,其功能仍然非常有限。有鉴于此,我们开始研究加密数据的一般搜索系统,正式确定了许多基于密文数据的新搜索概念和安全搜索设计,如安全排序搜索、加密模糊搜索、多关键字搜索、图形搜索和相似性搜索。
令人欣慰的是,我们的许多早期成就得到了学术界和行业从业者的认可,这也鼓励我们进一步探索更好的密码学原语设计。
同时,我们也关注了这些密码设计在实际部署中遇到的安全和性能挑战,以及相关使用场景的局限性。特别是从功能和实际部署场景需求的角度来看,仅仅实现上述密文数据的安全搜索设计是不够的。
这也使我们最近的研究重点逐渐关注如何构建一个功能齐全的前沿领域的加密数据库管理系统。数据库管理系统是当今各种应用场景的核心计算架构支柱之一,为不同规模和类型的数据提供了丰富的组织管理、存储、查询、分析和计算功能。加密搜索的安全设计只能为复杂的数据库系统提供一些原始操作,但很难满足行业日益增长的性能和功能多样性的需求。
幸运的是,基于硬件实现可信执行环境(TEE)例如,技术的发展ARM TrustZone和Intel SGX等等,为数据运行时的安全设计带来了新的机遇。
与传统复杂、功能有限的密码方案设计相比,TEE内部数据自然具有隐私和完整性保护,可以提供更丰富的功能和更好的性能。如何充分利用它TEE与加密数据库系统的建设和深度融合,仍有相当多的重点和难点需要解决。
同时也要认识到,TEE技术也不是无懈可击的。TEE存在安全隐患。一方面,硬件可能存在漏洞,另一方面,可信硬件在设计中不考虑侧通道攻击,如Intel SGX明确表示不防御侧信道攻击。虽然这些攻击需要恶劣的条件,但也在一定程度上影响了它们TEE的安全性。
第二,如果在运行TEE如果代码本身存在漏洞,攻击者仍然可以使用它来破坏相关系统设计的安全性(如上述加密数据库系统)。TEE内部代码越多,漏洞的可能性就越大。
最后,可信硬件的使用不可避免会引入额外的开销,例如程序进出Enclave以及数据页面交换。目前,我们一直在努力解决这些问题。虽然有很多挑战,但我相信我们过去在该领域积累的经验将为未来的研究提供很多帮助。
我们不仅需要使用上述基于安全软硬件的数据保护方案来确保数据运行中的安全隐私,而且在数据运行后的发布阶段仍然存在隐私泄露的风险。攻击者仍然可以推断攻击,结合用户在互联网上的公共信息(如微博和其他社交平台上发布的个人信息)(Reference Attack)大多数用户的个人身份都是从匿名数据库中准确定位的。
为了解决这个问题,区分隐私(Differential Privacy)提出了这种敏感的数据保护技术。它提供了一个严格的数学工具来量化潜在的数据泄漏,并支持隐私保护数据的收集和发布。在真实场景中部署差异化隐私机制的挑战是如何在保证各种实际场景中数据的有效性的同时实现差异化隐私的定量保护。
现有的解决方案大多依赖于随机值扰动,要求每个用户根据不同隐私架构下定义的隐私参数扰动其数据。我们团队最近的一项工作提出了一种新的机制,引入伪造的数据,并与扰动后的原始数据相结合,以增强数据隐私的可量化保护,避免数据可用性的急剧下降。
在常用业务场景的模拟环境中,实验结果表明,该方法在保持相同隐私保护强度的情况下,将数据效用提高了70%以上。目前,该技术已集成到阿里巴巴集团的数据安全产品中Datatrust帮助保护数百万用户的隐私。
03 万户智联数据安全新挑战
在过去的20年里,我们的社会见证了各种智能设备和系统的快速发展。异构硬件和软件平台的多样性不可避免地导致系统的可攻击性(包括硬件层、系统层、网络层、应用层、传感器层等)。在当今物联网技术的快速发展和广泛部署中,数据安全形势也更加复杂,导致数据安全和隐私问题面临更严峻的技术挑战。
在自动驾驶、智能制造、智能医疗等复杂场景中,用户的数据安全和隐私保护面临着更严重、更复杂的威胁和挑战。在几个月前发生的特斯拉车主权利保护事件中,特斯拉在发布事故驾驶数据后陷入了发布数据是否侵犯车主隐私的争议。
在以往的特斯拉驾驶事故中,车辆运行数据是确定事故责任划分的重要依据,而不透明的数据已经成为特斯拉最受批评的地方。根据中国的法律法规,用户有权查阅自己的驾驶数据,特斯拉开发了一个在线信息系统平台,供车主查询和获取汽车和机器交互数据。
但这也带来了数据泄露等安全隐患:
首先,车主需要将身份认证信息传输到数据共享平台,存在身份信息泄露的安全隐患;
第二,为了让车主实时访问车辆和机器数据,车辆和服务端的通信量和频率可能会大大提高,客观上会增加通信链路被窃听或被中间人攻击的风险;
第三,数据共享平台的开放性要求驾驶数据的可访问性,这很容易混淆海外访问数据和海外力量窃取数据的行为,给监控非法跨国数据传输带来更大的挑战。
以便携式智能设备为例,我们的团队发现了各种新形式的用户隐私攻击技术。其中一项结果表明,智能手机可以窃听和恢复用户通话的声音,而无需任何授权,只能使用加速度计,准确率高达90%。
我们中的许多人可能收到过未经要求的与关键字相关的广告,这些广告是由设备上的麦克风或嵌入式传感器无意或秘密捕获的。这显然是一种不可接受的隐私侵犯。
无论是使用内置传感器检测手机外部环境的振动和声音,还是使用社交软件附近陌生用户搜索功能定位跟踪特定用户,使用智能设备和用户人机信息交互界面前所未有的丰富和多样性,绕过传统的数据安全保护机制,获取用户隐私信息。
随着智能传感设备的日益普及,敌人可以通过传感器数据、深度学习模型等交互应用实现各种攻击。我们面前的研究挑战包括理论和实践。我希望与社会各界合作,努力保护数据隐私和数据安全。
04 建立数据交易平台,保护所有权
在现有的技术方案下,数据的安全性往往与其可用性存在矛盾,两者都不能兼得。例如,机器学习在各种任务中取得了巨大的成功,并广泛应用于各行各业(如高频交易市场、医学诊断分析等)。然而,模型的培训依赖于大量高质量的培训数据。这表明,数据作为基础战略资源的地位日益突出,需要解决数据安全和数据实现的问题。
如何在安全和效用之间找到平衡,不仅可以保护数据制造商的权益,而且可以探索数据中包含的巨大价值,我们需要提出一种新的处理和处理数据的方法。
我们认为,建立一个有效可靠的数据市场是解决数据安全和隐私问题的可行解决方案之一。该方案可以充分激发数据价值,满足市场多元化需求,促进模型数据市场的建立,为机器学习模型交易提供渠道。我们的研究团队最近的一项工作致力于探索机器学习模型的生产和交易情况下的数据价值。它首次明确了数据所有者、中间人和模型买家在数据市场上的期望和能力,并开发了一个新的名称“中间商”(Dealer)数据市场框架。
在此框架下,有效解决了数据所有者与模型买家之间的补偿问题和中间商的利润问题。在数据市场上,合理的补偿分配将极大地激发数据所有者参与市场交易的热情,这对进一步改进和优化数据市场治理具有重要意义。
同时,目前“中间商”框架有一个强烈的假设,中间商必须是绝对可信的,这在现实世界中往往很难得到保证。为了解决这个问题,我们一直与西蒙菲莎大学的裴健教授密切合作,并试图利用联邦学习技术和差异化隐私技术等各种安全技术来构建一个安全可靠的数据市场框架。
05 建立数据安全技术标准,完善相关法律监督
在数据安全和隐私保护方面,没有技术和手段可以完全取得成功。即使有不断加强的研究和新的技术手段,也很难从技术层面从根本上解决数据泄露和隐私侵犯的问题。例如,智能汽车数据标准的使用仅仅从技术上解决。国家需要从制定标准和有关法律法规的角度定义责任边界,相关审计部门应当确定事故的各个环节。
在这方面,浙江大学网络安全研究团队的领导推动了ISO/IEC PWI 7748 “基于零知识证明的隐私保护指导和实践” 国际标准的制定,并参与了国内首个SDK移动互联网应用程序国家标准(APP)SDK安全指南,IEEE标准P2866.1《Standard for Device Trusted Extension: Software Architecture》、制定国内首个数字优惠券集团标准《数字优惠券服务规范》等国际国内相关安全标准。通过建立数据安全和隐私保护评价体系,制定安全技术标准和评价标准,建立数据平台和服务安全评价体系,将成为保障数据安全和隐私的有效措施,有效提高数据安全和隐私保护能力。
更重要的是,通过有效的监管手段,为互联网企业追求经济效益的需求,寻求经济效益与社会效益之间的微妙平衡,为公众提供便利,保护公众隐私。
目前,我国《数据安全法》和《个人信息保护法》正在加快制定和出台,为数据安全和个人隐私保护提供法律保障。”通过加快建立数据安全技术标准和相关法律法规的综合管理体系,建立数据资源确认、开放、流通和交易的相关体系,进一步完善数据产权保护体系,为数据安全、个人隐私和个人信息保护提供体系保障。