铁路12306平台60万数据价格为20美元,陌陌3000万数据价格为50美元,华住集团旗下酒店近5亿条数据价格为8比特币(时价37万元)……就连3-20岁未成年人的就诊记录也不能幸免于难……
在“黑色产业圈”,这早就已经是广为流传的公开“秘密”了。而拖库与“脱裤”发音接近,还被暗喻为广大被窃取隐私信息的用户已经被扒得“一丝不挂”。
至于相关的企业来说,甚至有人表示,全世界的企业可以分为两种,一种是数据已经泄露的企业,一种是数据即将要泄露的企业。
举例来说,近期网络安全公司Adversis发现数十家公司因员工而导致敏感数据泄露;软件制造商Citrix自爆公司遭国际黑客攻击被窃取了6TB至10TB的商业文件;
抖音海外版TIK TOK直接在美国被控侵犯儿童隐私遭到FTC开出的570万美元罚单;某AI安防企业发生大规模数据泄露事件,超250万人数据可被获取,680万条记录泄露……
据CV智识了解,相关不完全统计显示,仅2018年全球的公开数据泄露量达到了50亿条。
上述这些事件也只是数据泄露的冰山一角,在现实生活中,数据泄露已经成为了无法回避的社会难题。
防不胜防的数据泄露
事实上,作为每时每刻都在创造数据的我们,反而容易对自己所产生的数据熟视无睹。
以最广泛使用的终端设备智能手机为例,公开数据显示,在智能手机用户中,平均每人会下载大约70个APP,这其中绝大部分APP都会让用户选择用手机号码进行登录,这就是背后企业获取用户个人基本数据信息的第一步。
知道创宇404实验室副总监隋刚就直言,现在的手机APP对于我们数据的获取是非常霸道、非常过分的。
由于国内法律没有明显界定哪些信息是不可碰的,所以大多数APP会尽可能多的去获取我们的信息,比如姓名,性别,电话号码,身份证,位置信息等。
图:腾讯安全相关报告中2018年暗网数据交易情况
一位安全从业人员就曾对CV智识谈到,他对于自己的身份信息很敏感,几乎不给别人可乘之机。但是在2007年左右,他曾经注册过一个如家快捷酒店的会员,然后他不经意在黑产库里查信息的时候,就发现了自己的个人信息在里面。
这件事让他心里一惊,因为他没想到自己这样通过正规渠道输入的信息,竟然还能被盗取,被贩卖。
数字联盟CEO杨从安也补充道,不同于欧洲和美洲用户用邮箱注册APP的方式,在我国大部门手机APP是通过手机登录的。
两者的差别在于,用邮箱注册登录就从根本上将自己的一些敏感信息与APP进行了隔离,但是用手机号注册登录的话,黑客很容易追踪到我们的个人身份信息。
对于这一环节,隋刚表示,现在数据是泄露我们个人数据的出口,要想从根源上防止自己信息被泄露,那用户能做到的最好的方式是权限最小化。
他也指出,国内厂商通过APP对个人隐私数据要的权限非常多,而在实际应用中我们会发现很多权限对用户而言并无太大用处。
以共享单车为例,在最开始商家采用了砸钱促销的方式来推广APP,许多用户为其诱惑,争相下载。
然而用户一旦下载APP,那也就意味着,这个平台将会收集到的电话话码,上下班行程,日常定位等等。
当然,如果这些数据用于公司本身运营无可非议。
但是共享单车陷入了大规模的倒闭潮,在他们自顾不暇的这个阶段,原来的用户数据的最终流向我们不得而知,那这种情况相当于堰塞湖,不知道什么时候这些隐私数据会暴漏出来。
除此之外,我们在路上行走时摄像头记录下的人脸信息,上下班打卡用到的指纹信息,快递公司获取的个人信息,甚至日常使用的智能音箱收录的语音信息也都在被收集着。
有位受访者就这样对CV智识抱怨道,自从2018年年底注册了一家新公司,各种陌生电话就不间断地接踵而至,既有推销业务的,也有问是否招聘相关人员的,这种频次甚至高达一天一次,让其不胜其烦。
当然,这些都只是数据泄露中的最细小的个例,而更广泛的数据泄露细节则隐藏在案例之后。
行业观察人员对CV智识介绍到,我们产生的数据流向和归宿主要分为三种:
一种是新兴业务和基础数据也就是我们日常产生的大部分数据会通过公有网络存放在公有云上;
另一种则是金融单位和政府行业会将核心数据通过专有网络存放在私有云上,这样一来,用户的敏感信息就通过物理隔离进行了两层保护。
最后一种,则是像BAT这样的数据大厂会根据业务量数据的大小和敏感程度,搭配公有云和私有云使用。
综合来看近一年发生的数据泄露事件,很容易发现,在数据存储环节被泄露的情况最为常见,而这是由于许多黑客会有目的的去攻击一些数据库,但是由于数据的巨大庞杂,黑客能够攻破数据库,造成大规模数据泄露的事件纯属运气所致。
外因还是内鬼?
在接受CV智识采访时,隋刚表示,数据泄露的途径主要分为两种,即由内而外和由外而内。
具体而言,“由内而外”指的是程序员、运维工作人员等拥有用户数据访问权限 的相关工作人员,由于利益驱使等因素有意地向外导出数据;
而“由外而内”则是数据管理者在管理数据时,没有做好权限设置,漏洞更新不到位,使得防护系统不扎实,进而遭到黑客攻击。
比如,3月7日,贝贝网被爆出存在严重的信息安全隐患,用户在贝贝网消费后,个人姓名、电话、收货地址、消费金额以及交易时间等详细信息便遭到泄露,更有部分用户接连接到诈骗短信和诈骗电话。
据报道,截止目前已经有不少消费者遭遇了不同程度的财产损失,受骗金额从几百元到十几万元不等,整体损失金额或达上百万元。
对此贝贝网回应称是第三方合作伙伴存在系统漏洞,导致的数据泄露。
当然,在杨从安看来,对于现在的数据存储中,数据量巨大,而且没有进行相关的分类处理,几百TB的数据存储在一起,黑客很难获取到想要的关键信息。
所以目前来看,由于数据管理方管理不当,保护意识不强和内部人员造成的数据泄露事件比较多。
就拿最近最受关注的AI安防企业数据泄露事件来说,事后,不止一位安防工作人员跟CV智识说,该公司连最为基本的防火墙和加密都没有设置,而是直接把客户信息放到了大众面前,这样的公司根本没有资格做安防。
这其中,语气充满了恨铁不成钢的气愤。而这也被安防人员视为安防领域的一大耻辱。
同时,他们也强调,这样的公司只是个例,国内大多数从事安防的公司都是非常专业的,希望大众不要因为深网视界这样一家公司,就对我国安防领域失去信心。
与此同时,CV智识找到了分别在海康威视(002415)和大华做技术的员工,他们均表示,深网视界这种数据泄露情况是绝对不会发生在专业的安防公司的。
业内人士也介绍道,现在整个社会的数据规模巨大,形象点来讲,社会现有的数据用1000M带宽的光纤来拷贝的话,至少需要两个月的时间。
所以即使是黑客也很难从大量数据中找到自己的目标数据,更何况黑客攻破数据中心后最多1个小时就能被发现。
该人士进一步指出,这样一来,除非是内部能够接触到数据,处理出结果的人能直接找到目标数据,否则黑客是几乎没办法找出目标数据的。
众所周知,目前人工智能的应用主要以深度学习为主,而模型训练对于有效数据的依赖性非常高。
行业内也一直流传着一句话“得数据者得天下”,也就是说大数据的保管方可以将我们的数据用来作为算法学习的基础。
这样一来,我们所创造的数据就又多了一重数据泄露的风险。
CV智识从专业人士处了解到,数据在被用来跑算法时也有造成数据泄露的风险,不过这种风险大多来自内部人员。
杨从安谈到,目前深度学习基本上就是利用数据、结合自有的算法,进而来增强学习能力,算法在这个过程中只是工具。
换言之,算法在用数据模型训练前是一套算法,在模型训练后输出的是一种结果,所以算法脱离模型环境后不会带走任何数据信息。
一位安防技术人员也表示,在安防领域,基于应用场景的特殊化,训练算法会有两种方式。
一种是在自己的研究大厂采集的自有数据信息进行学习,学习后立即删除;另一种是和公安部门合作,获取合规的正常数据进行学习。
同样,在这个过程中造成数据泄露的唯一关键点是内部人,数据泄露与否与程序员是否对数据有安全防护意识。
综上,移动互联网行业目前存在数据安全的问题不可避免,但是,行业的安全体系还是专业到位的,公众场合下数据泄露的可能性很小。
隐私与技术互相成就
随着数据泄露事件的频发,不管是数据安全从业者还是普通大众,都对数据给予了越来越高的重视度。
但是重视数据安全并不是完全地禁止外界获取大众的数据,完全的数据保护会造成技术的停滞甚至倒退。
以头条的推送机制为例,用户在使用这个APP的时候,会被获取行为习惯,然后头条会通过他们的算法机制做出精准的内容推荐。
在这个过程中,用户可能认为被获取的行为习惯数据是隐私,但是头条并不认为那是隐私,而是本该获取的数据。
所以,在这个过程中,用户和企业如何定义隐私显得尤为重要。
只是,有一个不争的事实是,手机里的绝大多数APP都是免费的,而我们接受并使用这个产品,就意味着已经接受了它获得你的隐私,并为自己所用的事实。
业内人士指出,在现在的法律条款下,我们应用平台方的免费服务,同时以默认同意平台方获取并使用自己的数据为交换,这之中并无问题。
但是如果用户把广告追踪关掉,拒绝平台方拿数据进行推送,但平台依然给用户进行推送、获取用户数据,那就应该受到相应的惩罚。
杨从安也对CV智识提出,平台方应该有允许用户想删除自己的数据的权利,用户拥有要求数据的拥有者接受删除停止的权利。普通用户要明白平台抓的是什么,且要求不可以建立某些数据之间的相关性。
其实,现在欧盟的GDPR隐私法已经明确提出希望数据透明,这也就意味着你拿什么数据我要知道。作为消费者,我要知道我的东西被拿了,同时我有权要求你删掉。
而对于用户而言,社会还需要对最终用户进行知识培养和教育,让用户知道自己付出的成本。
相关报告显示,高达96.6%的安卓应用会获取用户手机隐私权,苹果iOS系统应用的这一比例也接近70%。
所以,苹果设备在涉及到用户的隐私方面比安卓系统设置了许多保护,目前情况下,保护隐私只能自己抬高成本。
除了用户层和平台层需要做出改变外,在隋刚看来,国家层面或政府相关部门,可以牵头做一些数据分类管理的工作。
比如高敏感度的信息由国家专门进行管理,而不涉及个人用户的基础信息或者IoT产生的一些数据可以有企业管理,进而形成数据分级的金字塔等级。
凡事讲究一个度,当下最为重要的问题是找到两者的平衡点,彼此牵制,彼此成就。
立法还是自律?
此次两会期间,多名全国政协委员对数字经济时代个人信息保护存在法律缺位问题提出意见建议,焦点在于数据的权属及监管使用等方面。
全国政协委员、公安部原副部长陈智敏对媒体表示,在数字经济时代,无数公民无偿提供的数据,被极少数人在无形中控制,这很危险。现在急需要在立法上明确数据的权属问题。
陈智敏还指出,现在企业如微信、滴滴打车、外卖等用很小的一点便利,收集了大量的个人数据。公民一开始不觉得,但后来所有的数据都被平台控制,这会给社会带来很多问题。
随着数据保护意识的增强,用户需要拥有要求平台在线存储的不许有用户的身份证号、手机号等的敏感信息不许做关联的权利,而这种权利只有明确法律来规定,没有规定的话,那么平台方就什么都抓。
在3月4日十三届全国人大二次会议新闻发布会上,大会发言人张业遂介绍,全国人大常委会已将制定个人信息保护法列入本届立法规划,相关部门正在抓紧研究和起草,争取早日出台。
全国政协委员、中科院院士、通信网络技术专家尹浩就指出,“安全界有一种说法:三分技术,七分管理。我们要通过管理手段让非法获得和使用信息的人承受很大的代价,严厉打击盗用互联网用户信息的非法行为。”
现在很多个人信息泄露都是内部人员为之,拿用户数据去做交易,必须对这种情况加大打击力度。
一位行业从业者谈到,平台作为数据的管理者和使用者,有义务保护保密这个数据。
每个人都知道谷歌拿用户的数据卖广告,但是谷歌不能把原始数据转卖给第三方、第四方……在一定程度上制定一个最严格的法律没有意义,应该制定符合大多数人需求的的法律法规。
此外,随着5G和IoT时代的来临,数据量会成百上千倍的增长,未来网络生态架构将会是人机物共融和万物互联的,所以大数据的安全保护和合法利用的需求将更加迫切。
需要指出的是,对于人工智能公司对数据安全立法保护的立场时,业内人士对CV智识表示,人工智能公司估计不希望国家限制数据,而是希望能通过他们的技术来颠覆很多的行业。
他们更渴望拿到数据,如果有立法,会对他们产生一些影响。不过,可以考虑最好是给他们创建一个数据交流的方式,能让这类公司也可以有起步的基础。
所以当下单就人工智能这一领域来讲,我们需要用一个正常的手段或规范,让有技术的人和有数据的人有效结合。比如第三方提供数据的公司,给自动驾驶的工具提供数据。
结语
人为刀俎,我为鱼肉。
数字时代,我们的数据随时随地都在被收集着,个人信息的保护也越发不可控,隐私被偷窥,数据被泄露,身份被公开,似乎充斥在生活的各个环节。
不过,乐观的是,我们的社会已经开始关注数据安全,并启动了相应的立法程序,可以预见,随着法律的完善,当下的数据安全现状终将被改变。