桑亮 博彦多彩数据科技有限公司解决方案高级顾问
数据隐私保护刻不容缓
在大数据发展成为国家战略的背景下,个人数据已成为重要资源,其使用中面临的隐私保护问题亟待解决。大数据浪潮汹涌来袭,与互联网的发明一样,不仅是信息技术领域的革命,更是在全球范围启动透明政府、加速企业创新、引领社会变革的利器。
进入大数据时代,数据的隐私问题包括两个方面:一方面是个人隐私的保护。随着数据采集技术的发展,在用户无法察觉的时候就能容易地获得用户的个人兴趣、习惯、身体特征等隐私信息;另一方面是个人隐私数据在存放、传输和使用的过程中,也有被泄露的风险。
美国 Facebook 公司被认为是目前拥有最多的社交网络数据的大数据公司。这些拥有大数据的组织,都试图通过复杂计算来挖掘数据中有价值的信息。其中的隐私保护技术是关键。
据报道,通过一款信息收集工具,Skull Security 的研究人员罗恩·鲍维斯获取了 Facebook 用户公共页面的数据,而这些用户没有修改他们的隐私设置。鲍维斯将这些数据打包成一份2.8GB 的内容,并创建 BT 种子供他人下载,并将其用于建立模型,以精准投放广告等方式干预全球多地选举或公民投票前的民意。Facebook 公司承认,8700 万用户受影响。
在美国参议院相关委员会的听证会上,扎克伯格承认,在预防 Facebook 等社交工具被滥用等方面做得还不够,使其被用来传播假新闻、仇恨言论、干涉选举等等。
由此可见,大数据的分析能力导致看似简单的信息可能会被挖掘出其中的隐私,因此面对大数据时代的隐私保护成为新的课题。
个人数据成为重要基础资源
2012 年 3 月,奥巴马政府发布了“大数据研究和发展计划”,旨在提升美国从庞大而复杂的数字资料中提炼真知灼见的能力,以协助科学、工程领域加快创新步伐,强化美国国土安全,转变教育和学习模式。
2012 年 5 月,英国政府宣布建立世界首个开放数据研究所,旨在从开放数据中寻求产品创新、创业机遇和经济增长点。在发达国家纷纷将大数据发展上升为国家战略的背景下,无论是技术还是产业,在大数据领域丧失主动权,都意味着国家安全将在数字空间出现漏洞,国家创新能力将在未来国际竞争中落后于人。
我国人口众多,很多领域都能出现全球最大、最复杂的“数据池”,大数据应用前景十分广阔。国内不少企业家已经意识到了数据的战略价值,如阿里巴巴集团董事局主席马云就提出过销售数据的观点。而大数据是如何产生的?它的来源主要有哪些呢?大数据的原材料即数据,其来源主要有以下四类。
一是网络。社交网站以及电子商务网站是大数据的主要来源,服务提供商可以利用这些数据对用户进行仔细的分析,从而深入了解用户的需求,提供更加具有针对性的服务,如亚马逊、京东等电子商务平台提供的商品推荐服务。
二是移动智能终端。通过智能手机、平板电脑、电子书、PDA、导航仪等移动互联网终端设备搜集相关信息,可以进行有效的决策,比如交通监控和疏导系统。
三是物联网终端。分布在不同地理位置上的传感器以及嵌入物体中的 RFID,对所处环境进行感知,不断生成数据。
四是科研。如在物理研究方面,大型强子对撞机每年积累的新数据量为 15PB左右。
显而易见,数据来源中不少是个人数据。个人数据的大数据分析能直接产生经济效益,是现阶段极为重要的基础资源。而关于个人数据,按照数据的来源,2011年世界经济论坛编制的报告将个人数据分为以下三类。
一是自愿提供的数据。即用户自愿提供的一系列数据,如微博发表的各种言论及照片、向某些网站注册时提交的信息等。
二是被观测到的数据。即用户在使用信息设施或者软件时,被记录和观察到的一系列行为数据,如上网记录、购物记录、搜索记录等。
三是被推断的数据。即根据用户的各种信息推测的个人数据,如个人信用评级、消费需求、购物偏好等。
按照是否涉及隐私,可以将个人数据分为敏感性和非敏感性个人数据。
敏感性个人数据涉及个人隐私,法律给予特殊保护,某些数据会有专门法律进行规制,如个人征信数据。不同的国家对于敏感性数据的划分有所不同,如欧盟将种族、宗教信仰作为敏感性数据,中国对此没有特殊规定。
非敏感性个人数据指不涉及个人隐私的数据,一般没有特殊保护。
图1 大数据的数据主要来源详解个人隐私数据
主要发达国家在积极部署国家安全的同时,着力加强了对个人隐私的保护。反观我国大数据领域的发展,面对日益增长的需求,在当前个人数据规制还不健全的情况下,如何保证在当前的大数据时代,用户隐私不泄露的前提下,提高大数据的利用率,挖掘大数据的价值,是目前大数据研究领域的关键问题。
而谈到大数据环境下的个人隐私保护,首先需要清楚大数据产生的过程中,哪些个人数据属于个人隐私数据。个人数据的内容复杂多样,不胜枚举,以下以当前频繁使用的主要数据进行分类。
一是交易数据。交易数据中的用户账户、支付记录、消费商品记录及电子账户余额等均为重要的个人数据。
二是电子邮件数据。电子邮件中,用户隐私数据和商务机密数据较多。不仅可能包括用户对某一热点事件的看法,而且可能包括用户的年龄、爱好和学历等重要基本信息。
三是社交媒体数据。社交媒体数据则包括了位置信息、行为特征甚至与意识形态相关的重要数据等。这些重要的个人数据不仅蕴涵着较大的商业价值,而且对于经济组织乃至国家而言,极具战略性意义。
四是位置信息 / 数据。随着移动终端的普及并成为生活必需品,个人的位置信息无所遁形,都被移动终端记载下来。
五是医疗信息。世界上不少国家已经应用了电子健康记录。随着电子健康记录的逐步推广,个人的病史、健康状况、医疗保险等也将成为重要的个人数据。
部分个人数据属于个人隐私。并非所有个人数据都是隐私。有时候,每个碎片化的个人数据不是隐私,一旦将其组合分析,便涉及个人隐私。
大数据的发展可能使个人隐私无所遁形,以至于国外隐私保护主义者担忧出现“Big Data is Big Brother”(美国著名小说《1984》中的独裁者老大哥,随时监控着人们)的情况。只有解除这一担忧,才能给大数据发展扫清道路。
图2 个人隐私数据的主要分类用策略性技术保障数据安全
那么,如何在大数据时代尽量保证个人的隐私数据不被泄露呢?在当前大数据时代中,大家普遍认可的隐私保护技 术, 主 要 有 k-anonymity(k- 匿 名化)、l-diversity( l- 多 样 化)、t-closeness个性化匿名、m-invariance匿名、基于“角色构成”的匿名方法等,这里我们不再详细做展开阐述,不论是从隐私保护模型、数据生命周期,还是数据隐私保护技术本身的算法,很多技术性的文章已经详细介绍了这些隐私保护技术对数据的保护。
行文至此,数据隐私保护的重要性已经不言而喻,如何使用大数据技术进行数据的安全加固,恰当的技术策略更显得尤为重要。所以,下文将通过 5 个方面的隐私保护技术进行策略性的说明。
采用数据加密技术保护数据隐私
在考虑大数据发展的同时必须防止数据的丢失。安全问题在信息时代越来越多,对加密技术的灵活性和针对性的要求也越来越高。因此多模透明加密技术就成为最佳选项。这种技术结合了对称和非对称算法的优点,在不损失加密质量的同时更加灵活。处理方式越灵活,越有利于为大规模的数据安全提供保障。
此外,在透明加密技术的帮助下,人们几乎感觉不到大数据的加密。该技术是基于系统内核的,这意味着它将具有更好的兼容性。既然我们要对数据隐私进行保护,那么保护数据本身就应该是我们考虑的起点,因此我们最好使用加密软件。针对性强、防护全面的加密软件像哨兵一样保护了大数据的发展。对于企业来说,为了保护数据安全,拥有快速检测数据威胁的能力是非常重要的,目前部分企业已经能够做到这一点。图3 个人隐私数据技术路线图重新设计大数据架构层面的安全工具
大数据和关系型数据库,这二者看似差别甚微,实际上有很大的区别。首先,它们具有不同的实时性,数据量也有差别。其次,它们的分布式架构也不尽相同,而分布式架构正是给安全防护带来独特困难的“元凶”。此外,大数据在存储与查询时采取与后者不同的模式,此外还需要协调不同网络会话。在大数据环境中,安全产品中有很多技术已经处于失效状态,其中包括监视与分析日志、发现数据以及评估漏洞等方面。因此,需要在架构层面上重新设计安全工具,以满足大数据环境中的安全需要。
加固大数据网络技术的安全防护
进行大数据应用开发时,将数据结构化是一个好方法。该方法降低了数据处理和分类的难度,同时也方便了数据管理和加密。这样当发生非法入侵时,系统就可以准确高效地分辨出入侵行为,从而保证了大量数据在使用前不会被破坏。这种方法提高了系统的效率,但本质上并没有改变数据安全格局。数据结构化已经成为安全模式的发展趋势。作为当前数据安全模式的常规做法,分层构建需要进一步完善。同时随着网络攻击次数的暴增及云计算造成的攻击方法隐秘性的增强,现有的端点安全模式已暴露出明显的弱点,因而使网络层受到强大的压力。所以我们应该在维护端点数据安全时重点考虑网络层。这要求我们在把数据结构化、辨识智能化与本地系统的监控机制结合起来时,只允许常态数据运行。
提高本地数据层面的安全技术
在大数据时代,数据可以带来丰厚的经济收益,这也诱发了许多信息泄露事件,其中很大一部分来自内部。因此,对端点而言,本地安全防护系统看上去完整而成熟了,但实际上相差很大。这就要求调整安全防护思路,在本地安全策略中加入内部监控功能。为防止人为故意破坏,应使用纯数据模式。此外还应重视加强各环节的协作。在处理数据时数据调用有很大的风险,要想避免这种风险就要进一步划分链接,改进存储及缓存方式。
数据存储作为“终端”,受到了高度的重视,但其安全保护措施仍然需要加强,这样才能与新的数据模式相适应。这要求完善数据逻辑策略,作用于存储隔离与调用之间。在大数据领域,只有少数开发资源被投入到增加安全功能中,而其他功能,例如分析功能、易用性和可升性,占据了大部分资源。
此外还有一个显著的问题:大多数系统缺乏配套安全产品,而即便是有,也难以应对常见威胁,而且非关系型数据库、Hadoop 等无法包含大多数安全产品,因此企业构建安全策略就极其重要。本地安全策略可能存在许多未知隐患,这就需要企业一边开发,一边完善自有系统。
个人层面的数据隐私防护建议
对于个人用户来说,将数据存放在对方服务器中就意味着一种抵押,由于对方想取用时无须任何申请,用户对此束手无策,因此也谈不上什么保护隐私。对此有以下几点建议:
采用匿名 IP 地址。禁止网站搜集和跟踪 Cookies,不使用不支持 Do Not Track请求的浏览器。
加密数据。主要针对企业级用户,对于个人用户来说,当其将一个私密文件上传到网络上,最好在压缩时设置加密密码,这无疑让用户的数据多了一道屏障。
拒绝不合理的权限要求。这主要是针对手机用户,现在的手机应用程序,尤其是部分国产软件不顾用户的实际需求,所要求的权限超出了其本身的功能范围。此外,垃圾软件在后台运行占用硬件资源,严重影响手机性能及用户体验。
浏览网页时使用 HTTPS 协议。HTTPS协议是可进行加密传输、身份认证的网络协议,比 HTTP 协议安全,这样就增强了电脑与服务器之间收发的信息传输安全性。
最后,面对大数据应用带来的创新与隐私保护的两难选择,首先梳理国外经验,调研国民对隐私的态度,再进行隐私保护总体设计,明确隐私保护的价值取向、机制构成及其内在关系,同时建立个人数据隐私泄露举报机制和个人数据隐私泄露溯源机制。这里仍然引用作者王忠关于个人隐私数据的技术路线图(如图 3)作为隐私保护手段的总结。总之,在大数据时代到来以后,隐私泄露会更加严重,除非你不上网,否则在技术上无法做到完全的保护。要真正保障每个公民的隐私权和安全,需要靠法律和道德,靠每一个人的良知和社会组织的进步,以及科学技术的发展。
责任编辑:白云