元数据的可计算化反(中)

题解:这个《元数据》系列本计划介绍一种有关数据的科技讯息,上篇完成后有读者反馈并非人人都懂技术,首当其冲便是这个看不懂的反人类题目。正巧元旦节期出游了趟鲁迅先生故居,从繁糜商业气息中依稀有些关于那个过往时代的见闻。细思之下,我所目标分享的,其实不是数据也不是科技本身,而是这个和数据科技息息相关的时代。而这些狄更斯多年前已经总结完了,无妨对于当下这个时代,填些骨肉,说道说道我眼中这个“失控”的数据时代。 在上一篇中我们提到了人类百万年进化出的一项功能“记忆惰性”:对纷繁复杂的外界信息经过深加工,以类似偷懒的方式,形成记忆知识并储存在大脑神经元中。因此随着年龄的增长,记忆神经元退化,甚至部分脑细胞老化导致相关知识也随之消失,也就是医学上的“阿尔兹海默症”。 人类在进化过程中,不断寻找新的...

Continue Reading →

元数据的可计算化反(上)

元数据,如果按字面释义,是最基本的数据。元,即初始、本源之意。在数据领域,元数据(Metadata)指“描述数据的数据”,记录了一个数据集的基础信息。 如果把数据集比作一个人的话,元数据就像是一张肖像简笔画。一个人能够通过画面认识另一个人(比如杨过在古墓迷恋上神仙姐姐的画像,并倾慕爱恋),是因为画已记录了此人的主要特征;同时这一认知过程又是不完备的,因为那只是一张梗概,缺少骨肉,丢失细节。但这足以说明,通过元信息这一梗概,我们足以抓住被描述主体的主要部分。 本文笔者试图探索有关元数据的两个方面的问题,一是元数据在我们人类理解世界这一过程中所扮演的角色,另一个对于打破我们人类社会面临的信息壁垒、数据孤岛,元数据提供了怎样一种途径、以及如何发挥作用。 带着上述简笔画的例子,让我们类比一下...

Continue Reading →

新“拿来主义”

和鲁迅先生八十年前谈论的“拿来主义”不同,这么多年过去了,时过境迁,我们早已习惯了这种“拿来”的方式。在这个意义下,鲁迅先生应该欣慰才是。商品外形设计、电影创意、甚至汽车尾灯的颜色,都被我们一一拿来,有的偷偷地放在自家的东西中,脸皮稍微厚点的甚至会借着观众的无知,自诩为“民族产业”、“自我创新”。时间久了,甚至连自己都被说服,相信某个灵感真的是自我孕育、厚积薄发的产物。 推心而论,中国四五十年来的发展确实瞩目。与此同时,快速发展的需求让我们学会了、甚至熟练使用“拿来主义”。在追赶领跑者的过程中,这样的方式能够短时间内弥补和竞争对手的差距,但是从深层次上,却伤害了我们自身主体的创造力。越能轻易地拿来,越容易让拿来者丧失提升自我的动力。久而久之,甚至像吸食毒品一样,在自我满足中堕落不前。...

Continue Reading →

Python Programs With External Modules to Spark

It is a common scenario that we need external modules in a PySpark program. Three alternatives could be employed here:

  1. Distribute the third-party modules across your spark cluster. This is the easiest way, but needs the administrative right of the cluster;
  2. Write your own functions in a single module and append it to the search path of SparkContext. Two utility functions are available: PySpark sc.addFile and sc.addPyFile.
  3. Package the module with multiple python files into a single .zip or .egg file. Refer to these answers elsewhere:

References

© 2019 InnoTrek All Rights Reserved.
Theme by hiero