读《大数据时代》有感:大数据时代的取舍
学习啦:《大数据时代》是国外大数据研究的先河之作,本书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”。下面请欣赏《大数据时代》优秀读后感。
在《大数据时代》的一开头,讲了这样一则小故事,尤为发人深省——作者维克托的继父去世的时候留下了16000张收藏的照片,这些照片全都是他几十年来周游世界的影像记录。因为体量庞大,维克托选择保留其中的一部分。如何裁决这么多幅照片呢?最后被选出的53张照片具有两个共同特点:1.照片上有认识或可能认识的人;2.照片拍摄得很漂亮。这种取舍是严格按照维克托所设定的程序进行的,其背后投射出人类对大数据时代未来的思考——在记忆成为常态的时代里,什么会是遗忘的例外?说得更玄一些,大数据时代,人类应该如何构建积极而安全的未来?
《大数据时代》书分三部分,分别是商业变革、管理变革和大思维变革。在翻开这本书之前,我们不妨拿这三部分去套一下开头的故事。16000张照片精选出一部分是需要一个工具和流程的,有些人依赖情感感性地挑拣,有些人选择按照心中一个可识别的具体要求过滤。这是对待数据本身的管理方式不同。如果是160000张照片,1600000张照片甚至更多呢?一种算法在精密地处理着每张照片,而维克托选择了这样的两个要求,就要承担使用数据之后万一错过某张绝世佳作的责任。再来看这16000张照片本身,它们本身就是有价值的,每一张都是长辈生活点滴的封存,每一张都有着娓娓道来的动人瞬间。只不过或许有些照片定格的瞬间更加难得,有些风景照却可以日后故地重游重拍,因此让数据价值说话,在维克托的心目中,满足这两个条件的照片更具有被保留的意义,于是商业变革的缩影也可见一斑。最后要提到的,就是大思维变革,更多、更杂也更好的数据看似遮挡视线,但换个方式面对它们,就是在一个兼具广泛性和多样性的空间里选择更适合人类的数据使用方式,让数据不再单纯被陈列,而是可以活起来。不过此处还遗留着一个不大不小的问题,被舍弃的那一万五千多张照片,它们的命运将会何去何从,如果是纸质的可以撕掉、烧掉,但如果是现在存储在电子媒介中的,我们能确保点击删除的那个时刻,这些照片真的从此从这个世界上消失了吗?这些数据,真的是个体可控制,人类可管理的吗?
一、思维转变,“样本=总体”
如果在法律的范畴中,我们提到大数据时代,第一反应是各种各样的。思维变革强调数据处理方式变化引起的思考模式转变。
1、更多
从前收集数据是一件令人苦恼的事情,于是人们无意识地选择规避大数据体量,人为限制了与数据的交流。如今,技术条件已经大大地提高,我们的习惯却常常停留在原地,因此大数据时代通过一些外在的动力去转变这种桎梏是非常有必要的。比如我们想知道应用《婚姻法》24条判案调解的情况,以前或许停留在抽查层面,不然就是要花费大量的时间挨个调研,费时费力还不一定全面。而现在,包括中国裁判文书网、北大法宝在内的多家平台可以提供大数据检索,简单输入关键词就可以在海量的数据库里精确定位到需要的案例信息,并且呈现出来的数据有一定的区分,网站通常会自动提供一些分类指标,例如是在哪个地区哪级法院,案由是什么,方便后期进行图表统计,用以画出饼图、树状图更直观地了解数据面貌。
2、 更杂
但是问题也接踵而来,很多人会发现搜索结果有时并不一定完全符合预设情境,甚至文不对题,比如搜索“转让股权”而非“股权转让”就可能导致一些案例擦肩而过。而数据本身来源的多样性也导致了数据质量不一,各地区各层级司法文书的撰写水平存在差异,于是经检索获得的数据不一定都能充分发挥效用。但是纷繁的数据反应出数据体量的庞大,精确性依赖的应当是算法而非数据源,大数据的利益促使人们精进算法,多次尝试不同的搜索方式以弥补数据瑕疵,我们添加标签时所固带的不准确性从某种意义上说明我们能够接受世界的纷繁复杂,这是对更加精确系统的一种对抗。因为精确的系统通常试图让我们接受一个世界贫乏而规整的现象——因贫乏而规整,然而事实上现实就是纷繁复杂的,天地间存在的事物远多于系统所设想的。不是“一个唯一的真理”,一款法律条文不是只能适用于一种案情,多款法律条文组合可以推导出不同的逻辑链条。要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。
3、更好
还有一点极为精妙地同时出现在法律和大数据的世界里,中国作为非判例法国家,查询其他相似案例固然可以帮助人们预测案情未来走向,但是这些信判例却不可以直接作为法源或是最有力的论证。不过,判例中所提到的法律条文,法律条文串起的逻辑思路却能另一起案件中得以运用。相似不代表相同,这是大数据时代个性化定制中存在的问题,人们在淘宝买了一件衣服之后,相似的预测方式会让系统推荐同样的款式不同的店家,或许由于渠道或者面料的不同,价格存在一定差异,但是消费者很少会在短时间内重复购入。而相关的预测方式会考虑这件衣服的特质和要素,譬如蚕丝面料、短袖、款式较为保守等等,这通常折射出消费者的偏向,于是再有这些元素组合而成的衣服也很有可能受到青睐。让数据更好意味着提高数据的效用,选择关联度高的数据,能成功起到预测的作用。法律是具有预测的功能的,而大数据可以验证或者说提高预测的可信度。当我们看到大量的案例真真实实地告诉我们许多故意杀人罪犯罪嫌疑人最终真的被判处死刑时,我们愈发地相信写在刑法里的条文所具有的威慑力,更加谨言慎行。
二、量化数据,从“T” 到 “I”
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望,如今的信息技术变革重点落在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注数据本身了。
数字化和数据化是两个不同的词语,比如说有一篇判决书适用法律严丝合缝、遣词造句文采斐然,人们把判决书的每一页拍下来,再上传到网上,于是更多的人打开一张张jpg,开始阅读这篇判决书,这是数字化。而中国裁判文书网、北大法宝的字符串已经经过了有效的处理,在我们看来的汉字对于电脑而言是不同意味的0和1,这些网站的后台当然不是活生生的工作人员在一张一张翻看全国各地的司法文书,人为地看到“一审”就归到“一审”那摞纸上,而是计算机算法自动识别着不同的字符串,按照指定要求分门别类,这是数据化。存储成本的大幅下降,使得保存数据比丢弃数据更加容易,书盈四壁固然学问高深,但是大数据时代的数据却可以得到更长久、更妥善的保存。数据的非竞争性使其不同于物质性的东西,价值本身不会随着使用次数增多而减少,可以不断地被处理。前文已叙,对搜索点击的个人用户而言,法律数据库的好处自然是不言而喻。而大数据时代能容许数据发挥的价值,还远不限于这些现时的眼前的帮助。数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,绝大部分隐藏在表面之下。又像是静止在山坡上的小球,它原地静止时不声不响,一旦释放滚下山坡,其中的动能就能被发现。数据的二次利用使得隐藏价值得以有效释放。
我们不妨做个假设,A是一名学生,看到了北大法宝上一篇教授的法学论文后深受启发,悉心查阅资料并独立完成了一篇青出于蓝而胜于蓝的毕业论文。B则是一位律师,同样看到了这篇论文之后,他被其中的论证逻辑所折服,将其迁移到了自己正在代理的案件上,后来这个案件的判决书也上了北大法宝。C则是一个知名微信公众号的运营小编,阅读完这篇论文之后,他将其中的一些关键词句加以摘录,经合理途径征询同意后用以评析时事新闻。不同的个体使用令这篇文章的数据得到再利用,数据的维度被不同的使用者拓展,而这些也反过来增加了这篇论文的效用,使得数据价值一翻再翻。当然这些数据的使用建立在数据公开的前提上,数据公开依托的是大数据时代的技术发展,这是必须要感谢的科技的进步。但技术框架的实体却是由这些看似平凡无奇的数据所共同组成的价值不可估量的整体。数据一旦被公开,自利的人们按照自己的问题导向去使用数据,让数据在无形之间价值倍增,这些不同的使用方式又加成在这些数据之上,成了日后人们面对这些数据时做出预测的依据——哦,这篇论文当年被引用了很多次啊,看来当时很多人都是这么想的,我要多读几遍来了解当时法学的观念。
大数据公司的蓬勃发展,众多互联网公司纷纷提出“互联网+”的理念,进军各学科各行业,足以体现了数据价值的转移。行业成熟致使技术不再是秘密,而数据本身的提供者会更占优势,数据价值移转到数据自身和大数据思维上。传统的商业模式遭到新的风浪,数据中间商们依靠多种多样的数据来源,对未来充满信心。
三、管理变革,数据什么都知道
大数据时代带来的隐忧也是不可小觑的。数据本身的,数据对其他人事物的,提起来都令人蹙眉。大数据带来的威胁源于大数据本身的目的,用规模剧增改变现状。我们的脑子或有可能被数据取代,工具和目的之间的差别显得摇摇欲坠。我们倾向于从数字数据的增长和奥威尔写《1984》时所处“监事炼狱”的角度去理解大数据给个人隐私带来的威胁,但是事实上威胁本身并不只是被加量,而出现了变质的可能性。数据的二次利用使得人们在迷雾之中就遭遇了数据对于个人隐私的迫害,“告知与许可”原来是人际交往和社会运作中可靠的基石,但是在大数据时代人们还是无法完全预知数据公开后可能发挥效用的空间和领域,太过限缩会限制大数据潜在价值的挖掘,而太过空泛则无法真正地保护个人隐私。数据的重组使得部分数据的丧失并不阻碍数据全貌的呈现,当不同的加密系统遮盖住不同的区间时,解密者通过多次尝试可以从尚未被遮盖的区域精巧躲过障碍,直抵目的地。
数据只知道现在和过去吗?不是的,数据会说话,它仿佛会预测未来。在电影Minority Report(《少数派报告》)中,三个超自然人可以想象出逮捕的名义竟是“你即将在今天谋杀你的妻子”。数据对现在什么都知道,让数据自以为精确、全面、细致地掌握了你的全貌,于是它好像比你的大脑还了解你下一步想要做什么。这是和法律上的“无罪推定”有矛盾的,因为人在真正犯罪前就被剥夺了自由权利,我们再也无法知道他究竟会不会犯罪,他会不会因为道德选择的能力而避开这个可能永远都不会去实施的行为。当一个买了刀、砒霜、绳子的人突然良心悔过放弃杀人计划时,他却很有可能会被冲进家门的警察给吓到,更让他害怕的是,明明买这些东西的计划连床边的妻子都不知道,为什么这些警察会了解得一清二楚?
但是,以上是我们假设的坏的情况,我们放弃了自我思考的能力和自我选择的责任,把一切都归于大数据的操纵。也许我们可以不这么滥用大数据呢。也许当我们的数据意识到这个人有可能会有这样或那样的不法举动时,我们可以选择提前劝阻,而不是提前审判?
更大的数据永远来源于人本身,回过头再去看最开头的故事。维克托可以保留所有的16000张照片,毕竟他生活的年代和他的社会地位足以支撑起这样的技术,但是他选择留下53张。这是数据预想不到的决定,但是人类就是做得出这样的决定。当Alpha go战胜了那么多棋手之后,人们还是会觉得学围棋不是一件愚蠢的事情,因为家中的祖父总是兴高采烈地拽着你说“来来来,陪爷爷下一盘棋”。你下得差了,爷爷会气鼓鼓地吹着胡子说“教了你这么多年一点长进都没有”;你下赢了,回头爸爸就拽过你来叮嘱你“叫你让着一点爷爷,下棋不要赢,哄他高兴最重要”。这些,数据,它知道吗?
作者:宋静雯
公众号:新语莘苑
本文为原创文章,版权归作者所有,未经授权不得转载!——学习啦