元数据的可计算化反(中)

题解:这个《元数据》系列本计划介绍一种有关数据的科技讯息,上篇完成后有读者反馈并非人人都懂技术,首当其冲便是这个看不懂的反人类题目。正巧元旦节期出游了趟鲁迅先生故居,从繁糜商业气息中依稀有些关于那个过往时代的见闻。细思之下,我所目标分享的,其实不是数据也不是科技本身,而是这个和数据科技息息相关的时代。而这些狄更斯多年前已经总结完了,无妨对于当下这个时代,填些骨肉,说道说道我眼中这个“失控”的数据时代。

在上一篇中我们提到了人类百万年进化出的一项功能“记忆惰性”:对纷繁复杂的外界信息经过深加工,以类似偷懒的方式,形成记忆知识并储存在大脑神经元中。因此随着年龄的增长,记忆神经元退化,甚至部分脑细胞老化导致相关知识也随之消失,也就是医学上的“阿尔兹海默症”。

人类在进化过程中,不断寻找新的工具弥补自身的短板。从蒸汽革命到电气革命到计算机革命,从体力解放到脑力解放,一次次的技术更新在不断刷新人类的工具包,也不断刷新着追求更大的解放的野心。

在最近一次的计算机革命中(开始于20世纪五六十年代),人们努力寻找各种工具克服自身的“记忆惰性”:不想耗费能量处理复杂的计算,电子计算机由此诞生(电影《模仿游戏》);服务器代替了图书馆,互联网网页的扩张速度远远超过了书本的页数增长;社交网络帮你记录了所有的朋友关系和动态,大脑所需的记忆便是一个网址以及账号;机器学习算法和AI智能技术的最新进展,让人们再次萌生冲动毅然准备放弃这个上帝亲自创造的智慧灵魂。

正是由于人类的“记忆惰性”这一生物制约,促进了20世纪中后期以来在计算机技术上的不断推陈出新,不断追求极致。这是最好的时代。

诚然,一边是进化了百万年以上的躯体,一边是从诞生到繁荣不过六七十年的技术,二者所包含的信息匹敌远远不在一个量级。我们还有很长的路要走。人们诸多的憧憬和YY。这也是最坏的时代,一个有些失控的时代。

失控不仅在主观,也在客观。计算信息技术在初期表现出很强的经济效应,这种繁荣挤压了以往的经济领域,更多的资源将目光投向“新欢”,而冷落了“旧爱”。

这一繁荣正面上得益于两个信息不对称:一个早期高科技的局部繁荣与全球落后之间的不对称,这个不对称造就了少数几个早期信息强国;另一个是高科技扩散在时间上的不对称,这个不对称造就了一些较早接触到这一先机的富裕群体(体现在个人层面便是互联网业鼓吹的一夜暴富)。

在整个发展尺度上看的时候,我们依然处在计算机革命的余波之中,只是波的能量在不断降低,变得有些“波澜不惊”。因为随着信息的传播时间越长、范围越广,上述两个不对称性消失得越快。结合当下,“互联网+”的声嘶力竭的呐喊,仅仅是这一波澜上的一次小小的回音,毕竟,这只是一次努力寻找当前世界中信息不对称的缝隙,而不是发现一个处女的旷地或峡谷。

而之前高不对称的信息时代积累的经济红利,就像一头被困的发情公牛,也对这个所谓的“余波”阶段做了最好的注脚。在商业发展初期,尤其是农业为支撑经济的时代,商业的短期繁荣往往预示着农业的衰弱(吴晓波《浩荡两千年》)。类似地,在出现新的信息不对称机遇之前,以往的资本积累开始玩“金钱游戏”,涌入各种投机市场,此时人的欲望在金钱游戏中被利用(想想现在的金融和投资市场)。这种投机短期来讲对于实体经济有些甜头,但是长期来讲可是会伤筋动骨的。

失控也蕴含着机遇。在计算机革命初期较大的信息化行动之后,人类不仅积累的财富,同时造就了一台覆盖全球的数字机器。这一机器以互联网为载体,连接着数以百亿记的各类数字化信息化设备,7x24小时马力全开地产生着源源不断比特数据。

这一机器在不断自我完善,在便捷我们人类生活的同时,也在不断挑战我们人类自身。好吧,不要嫌我烦,这里又要提我们自身的生物约束,“记忆惰性”。

我们本以为这台机器会帮我们很好的保留信息,可惜的是,一个网页的平均寿命数量级在1000天左右(10.1109/JCDL.2014.6970226)。“记忆惰性”本能地促使人们开始认真思考,如何更好地将我们所在时代的信息有效的留存下来?换句话说,如何从这些海量的数据中萃取出有价值的信息,并借助机器或人类本身,将其存储为知识。

这一内在的冲动,也正是我眼中的这些年技术发展的内在驱动。这种冲动如此强烈,甚至有些焦虑的迹象,以至于可以在短期内,被一个“人狗大战”(记得阿法狗AlphaGo?)的报道搞得热血沸腾,媒体也拿出了可以媲美当年人类登月前后的脑洞和激情。《星球大战》和《星际迷航》系列便诞生在那个时候,很多国内外创业者都表示喜欢这两部作品,或许因为大家都处在相似的年代吧!

这一内在的冲动也并非纯粹的热血。21世纪初几乎火遍全球的“大数据”(也许除了南北极和少有的几个原始部落),便是人们拿出的针对这一焦虑的初期方案。这个方案所起到的实际效果,在笔者看来,布道的成效远大于实际效益本身。

从布道的角度,人们开始认真思考计算机革命的初期不对称性即将消失的时候,如何面对数字机器7x24小时的生产力和人类自身“记忆惰性”之间的矛盾。这一矛盾实际上在积累新的不对称性,新的不对称性同时需要新的能力去解决(当然不仅仅是科技,包括经济、政治、甚至人类认知本身的提升)。这种新的不对称性我们在会详述。

集体的共识往往是在集体的焦虑中达成的。

这几年的云计算、大数据、人工智能技术热,无非在帮助人们从计算、数据、算法维度探索一条走出当前焦虑的道路。这些技术本身并不是我想讨论的重点,否则容易为一木而舍一林(虽然平时80%的时间都在做这些事情)。

这条道路本身建立在新的不对称性之上。不过在笔者看来,这些在新的不对称性积累的初期阶段,新的科技都是相辅相成的,在未来的某个时间、空间点上,大家将会汇聚一起(当然发展过程中也在不断融合),产生更多的突破和能量,从另一个层次上破解新的不对称性难题。

因此可以说,我们处在一个失控、但又可能是最好的时代。这时候请我们再默念下略有修改的狄更斯先生的箴言,会有更多感触:

这是一个最坏的时代,这是一个最好的时代;

这是一个愚蠢的年代,这是一个智慧的年代

……

(未完待续,版权归作者所有,引用请注明出处)

下篇摘要:

在数字化世界里,信息被“拍平”,转换成文字图像,以“超高清”方式记录在网络媒介上。这种“超高清”方式喻指,一个故事的梗概和细节同时被记录,且表示为无差别的表达形式(如文字或像素)。例如,一篇数字化了的文章记录的故事,梗概部分不会随着时间流逝而凸显,细节的部分也不会随着时间流逝而消失。如何借助于人类的“记忆惰性”,实现从数据–>信息–>知识的蜕变的同时,降低人类个体获取信息的成本。这一趋势开始于21世纪初,新技术的蓬勃带来了“信息孤岛”效应,以及数据壁垒,进而造成新的信息不对称….

元数据的可计算化反(上)

元数据,如果按字面释义,是最基本的数据。元,即初始、本源之意。在数据领域,元数据(Metadata)指“描述数据的数据”,记录了一个数据集的基础信息。

如果把数据集比作一个人的话,元数据就像是一张肖像简笔画。一个人能够通过画面认识另一个人(比如杨过在古墓迷恋上神仙姐姐的画像,并倾慕爱恋),是因为画已记录了此人的主要特征;同时这一认知过程又是不完备的,因为那只是一张梗概,缺少骨肉,丢失细节。但这足以说明,通过元信息这一梗概,我们足以抓住被描述主体的主要部分。

本文笔者试图探索有关元数据的两个方面的问题,一是元数据在我们人类理解世界这一过程中所扮演的角色,另一个对于打破我们人类社会面临的信息壁垒、数据孤岛,元数据提供了怎样一种途径、以及如何发挥作用。

带着上述简笔画的例子,让我们类比一下人类大脑处理外界信息的过程。由于我们生活在三维世界中,遥远的祖先和我们现在一样,首先感知到的关于这个世界的元信息便是“长-宽-高”。通过对空间尺寸的感知,形成了对外界陌生物体的第一印象,并积极调动经验知识,对这一几何尺度做出最初的判断,如形态、重量等,进而通过细节观察,判断出对方是石头亦或狮子,安全亦或危险,并作出大脑的应激反应。(对于更高维,有兴趣读者可以独自探索下,一种形象的例子在科幻小说《三体》黑暗森林中有描述)

这一思维过程,通常倏忽急逝,随着个人年龄的增长,经验的增多,这一过程更加熟练。但是不经意间,在这一过程中我们多次调用了大脑对于“元信息”的处理能力,并可以总结为“元信息–知识–元信息”的处理模式。

首先,通过感官如眼睛,人类脑不断摄入外界的细节信息,这些细节作为描述被观察对象的局部元信息,源源不断地被大脑吸收,并不断地与大脑中已储存的经验知识进行对比判断,与经验完美符合的部分,大脑往往选择忽略,并潜意识加固已有的知识,也就是常说的“熟视无睹”。

但是对于异常的部分,例如带来惊喜、惊讶、恐惧的感觉,通常会刺激大脑对这一知识进行进一步处理。当代认知理论认为,大脑会对由大量局部细节信息构成的整体进行删减,形成一般性的知识,并转化为另外一种形式的元信息,记录在大脑神经元之中,以备下次调用,这便是我们所说的“经验”。

当然,这些元信息如何表达、以及被我们大脑存储,依然是我们种族的重要待解谜之一。

这种元信息记录的方式,不妨假设为大脑处于自我保护的一种“偷懒”行为。一来降低身体的能量消耗,毕竟处理和记忆更多的信息,需要消耗更多的体能。二来随着神经元的代谢,旧的知识会消失或消退,为新的知识记忆腾出空间,这意味着“元信息模式”有助于利用有限的大脑资源,记录更多的经验知识。

这种信息处理模式,在数字信息爆发的时代,同时构成了人类的认知负担,抑或局限。

新“拿来主义”

和鲁迅先生八十年前谈论的“拿来主义”不同,这么多年过去了,时过境迁,我们早已习惯了这种“拿来”的方式。在这个意义下,鲁迅先生应该欣慰才是。商品外形设计、电影创意、甚至汽车尾灯的颜色,都被我们一一拿来,有的偷偷地放在自家的东西中,脸皮稍微厚点的甚至会借着观众的无知,自诩为“民族产业”、“自我创新”。时间久了,甚至连自己都被说服,相信某个灵感真的是自我孕育、厚积薄发的产物。 推心而论,中国四五十年来的发展确实瞩目。与此同时,快速发展的需求让我们学会了、甚至熟练使用“拿来主义”。在追赶领跑者的过程中,这样的方式能够短时间内弥补和竞争对手的差距,但是从深层次上,却伤害了我们自身主体的创造力。越能轻易地拿来,越容易让拿来者丧失提升自我的动力。久而久之,甚至像吸食毒品一样,在自我满足中堕落不前。...

Continue Reading →

Python Programs With External Modules to Spark

It is a common scenario that we need external modules in a PySpark program. Three alternatives could be employed here:

  1. Distribute the third-party modules across your spark cluster. This is the easiest way, but needs the administrative right of the cluster;
  2. Write your own functions in a single module and append it to the search path of SparkContext. Two utility functions are available: PySpark sc.addFile and sc.addPyFile.
  3. Package the module with multiple python files into a single .zip or .egg file. Refer to these answers elsewhere:

References

© 2018 InnoTrek All Rights Reserved.
Theme by hiero