数据库不应危及安全和隐私“切入口”,以下技术有助于降低数据库安全风险,保证合规性。
数据库含有大量的个人信息,甚至一些敏感信息,给管理数据的公司带来了很多麻烦。现在,复杂的工具和技术使数据库开发人员能够通过保持信息的隐私来提高数据库的整体安全性。
这些解决方案主要取决于数学的巧妙应用。例如,一些最简单的机制看起来只是现代版本的密码,本质上是经典解码轮的数字版本。其他更复杂的扩展也进一步促进了数学提供更多的灵活性和功能。许多在实验室测试了几十年的技术理念最终被开发和应用,成为现实。
这些算法正在巩固业务关系,确保准确性“无欺诈”工作流程的基础。这些方法使公司更容易为客户提供个性化服务,保护他们的隐私。此外,这些方法可以更好地遵守管理数据流的法律法规,而不妨碍服务交付。
以下是11 工具和技术,使数据库更安全、更简单:
1. 基础加密
有时候,最简单的解决方案就足够了。现代加密算法使用钥匙加密数据,因此只有拥有钥匙的人才能读取数据。许多数据库都可以使用AES等待标准加密数据。这些解决方案可以防止硬件丢失(或被盗),因为如果没有正确的加密密钥,数据仍然是安全的。
然而,这种基本加密不是一劳永逸的方法。如果攻击者能够入侵计算机,对称加密算法在运行中对计算机的保护也是有限的。攻击者可以找到允许数据库合法操作的相同密钥。许多数据库都提供了正确的“静止”加密信息的选项。Oracle称其选项为“加密透明数据(TDE)”,TDE实时对数据和日志文件进行 I/O 加密和解密。
2. 差分隐私
该技术以不同的方式部署数学。它没有将信息锁定在数字保险箱中,而是增加了精心调整的噪声量,使其难以确定哪个记录对应于哪个特定的数据个体。如果噪声值正常,则不会影响整体统计数据,如平均值。换句话说,如果您随机增加或减少数据集中的年龄,平均年龄将保持不变,但可能很难通过年龄找到特定的个人。
该解决方案有不同的用途。最好向想要研究数据的不受信任的合作伙伴发布数据集,通常是通过计算数据平均值和数据集的大小。在某种程度上,许多算法在添加噪声方面做得很好,因为它们不会扭曲许多聚合物的统计数据。目前,了解哪些机器学习算法仍然可以很好地处理失真位是一个非常活跃的研究领域。
微软和谷歌提供机器学习算法集成工具来存储算法和数据。例如,谷歌Privacy-On-Beam噪声添加机制与Apache Beam结合管道处理。
3. 哈希函数
这些计算有时被称为“信息验证代码”或“单向函数”,它将大文件归因于较小的数字,使其几乎不可逆转。给出一个特定的结果或代码需要太长时间才能找到将生成特定代码的文件。
哈希函数是区块链的重要组成部分,它以可跟踪和识别篡改的方式应用于所有数据更新。这可以防止加密货币交易中的欺诈,许多人正在将这些技术应用于其他需要确保数据一致的数据库。添加哈希函数可以帮助企业应对数据合规性的挑战。
国家标准与技术研究院(NIST)安全散列算法(SHA)是广泛使用的标准集合。一些早期版本(如SHA-0和SHA-1)有已知漏洞,但新版本(如SHA-2和SHA-3)它被认为是非常安全的。
4. 数字签名
像RSA或DSA这种数字签名算法是一个更复杂的计算,它将传输函数的篡改检测特性与具有认证信息的特定个人或机构相结合。它们依赖于只有责任方知道的秘密钥匙。例如,加密货币将财富的所有权与知道正确钥匙的人联系起来。跟踪个人责任的数据库可以包括验证特定交易的数字签名。
5. SNARK
非交互式知识论证简明(SNARK)它是一个更复杂的数字签名版本,可以证明复杂的个人信息而不泄露信息本身。这种技能依赖于更复杂的数学,有时被称为“零知识证明”(ZKP)。
包含SNARK与其他类似的数据库可以保护用户的隐私和合规性。例如,一个非常简单的例子可能是数字驾照,它可以证明一个人的年龄可以在不透露具体出生日期的情况下饮酒。一些人正在研究将该技术应用于疫苗护照。
SNARK与其他非交互式证书一样,它也是研究的热门话题。数十种算法的实现也为新项目奠定了良好的基础。
6. 同态加密
传统加密算法锁定的数据处理的唯一方法是解密它,它可以暴露给任何有权访问计算机的人。同态加密算法旨在计算加密信息而不解密信息。最简单的算法允许一个算术操作,例如添加两个加密数字。更复杂的算法可以随意计算,但速度通常要慢得多。为特定问题寻找最有效的方法也是一个热门的研究领域。
作为该领域研究的先驱之一,IBM同态加密适用于发布工具包iOS和MacOS 集成应用程序。
7. “联邦”处理
一些开发人员将他们的数据集分成更小的部分,有时甚至出乎意料地小,然后分发给许多独立的计算机。有时这些位置会被打乱,因此无法预测哪台计算机将保存哪个记录。该解决方案主要用于软件包,旨在通过并行搜索或分析算法加速所谓的大数据工作。最初的目的是速度,但也可能导致攻击弹性的副作用。
8. 全分布式数据库
如果将一个数据集分成几个块来保护隐私,为什么不是10亿元或更多呢?更常见的解决方案是直接存储在创建和使用的位置。用户的智能手机通常有大量额外的计算能力和存储空间。如果几乎没有集中分析和处理功能,则避免将其传输到云服务器,这将更快、更具成本效益。
例如,许多浏览器支持复杂数据结构的本地存储。W3C本标准包括本地存储具有键和值的文档样式模型和更多关系模型的索引版本。
9. 合成数据
一些研究人员正在通过随机生成新值来创建纯合成数据集,但他们遵循相同的模式,统计数据基本相同。例如,一个名字RTI该研究智库创建了2010年美国人口普查数据的副本,包括随机地址的随机人群。这些人是完全虚构的,但他们的家庭地址和个人信息被选为与真实值相同的基本统计数据。在许多情况下,研究人员可以测试算法生成与处理真实数据相同的准确解决方案。
10. 中介和代理
一些研究人员正在建立限制数据收集的工具,并在存储数据之前预处理数据。Mozilla的Rally跟踪想要研究互联网信息流的研究人员的浏览习惯。它将在调查过程中安装一个特殊的插件,然后最终删除它。该工具正式化了人群关系,并强制执行了收集和聚合的规则。
11. 无数据
无状态计算是大多数网络的基础。当尽可能少地重建记录和保存时,许多高效驱动器可以工作。在某些极端情况下,如果合规性允许,用户愿意接受很少(甚至不)的个性化服务,删除数据库可以最大限度地保护用户隐私。
本文翻译自:https://www.csoonline.com/article/3623814/11-technologies-improving-database-security.html若转载,请注明原文地址。