知识计算引擎可能的实现方式

最近稍微研究了下知识计算引擎的可能实现方式,总结了一些简要的思考: 链结数据模型OWL/RDFS/RDF是目前为止,普遍被业界接受的一种描述性链接数据范式。 其优势在于描述知识的方法灵活,科研和工业界支持程度好,数据源兼容性高。劣势在于其被设计为一种能够被机器方便处理的语言,面向人的设计不够友好。人类的知识具有多样性。 试想,如果重新设计一种描述人类知识元语的方法,在考虑灵活性和表达性两个方面,势必要有所取舍和平衡。因此知识元语的描述方法上,我们暂且接受链接数据模型(Linked-Data Model, LDM)。 原生图模型标记属性图(Labeld Property Graph,LPG)以图的方式描述数据,更加接近人类的思考和知识组织方式。在图处理和分析技术的发展,目前的理论和工程...

Continue Reading →

图数据库简笔

简介 图领域分类:联机事务图的持久化,类似于OLTP;离线图分析技术,类似于OLAP 主流图模型:属性图、资源描述框架RDF三元组、超图 图数据库两个重要特性:底层存储、处理引擎 原生图存储 vs 序列化图存储 原生图处理(免索引邻接,即元素直接与邻居相连) 图数据库中实体之间的关联是“一等公民” 关联数据的挑战(SQL and NoSQL) SQL数据库 数据关系表达成本高、且不易维护 反向查询、递归反向查询代价更大,如Bob的朋友的朋友们 NoSQL,如键值、文档、列存储 添加数据关联,一般采用聚合存储模型,即增加外键 一句话,SQL和NoSQL在关联数据处理中成本高,主要原因是实体之间的关联不是作为“一等公民”存在的,而是隐含的,无论是关系型数据库中的索引,还是...

Continue Reading →

Ubuntu 18.04 LTS安装CNDeepdive

Deepdive是斯坦福前几年开发的知识特征提取引擎,不过项目目前已经进入维护状态。最近由于研究项目需要,准备基于CNDeepdive对中文进行知识抽取。 虽然官方最新支持到Ubuntu 16.04,而自己的系统是18.04,加之不愿折腾新系统,一个周末都在趟坑,不过尚好走通了,记录下来以飨来者。 首先,CNDeepdive可以从OpenKG.cn或百度云盘下载。由于自动化安装基于deepdive发布版,在18.04上主要遇到Python依赖无法满足(读者可以自行尝试),自动化安装失败! 转而从官方源码进行编译安装(也属无奈之举),参考Github项目以及开发者手册。 安装依赖 1git clone --recurse-submodules https://github.com/Ha...

Continue Reading →

元数据的可计算化反(中)

题解:这个《元数据》系列本计划介绍一种有关数据的科技讯息,上篇完成后有读者反馈并非人人都懂技术,首当其冲便是这个看不懂的反人类题目。正巧元旦节期出游了趟鲁迅先生故居,从繁糜商业气息中依稀有些关于那个过往时代的见闻。细思之下,我所目标分享的,其实不是数据也不是科技本身,而是这个和数据科技息息相关的时代。而这些狄更斯多年前已经总结完了,无妨对于当下这个时代,填些骨肉,说道说道我眼中这个“失控”的数据时代。 在上一篇中我们提到了人类百万年进化出的一项功能“记忆惰性”:对纷繁复杂的外界信息经过深加工,以类似偷懒的方式,形成记忆知识并储存在大脑神经元中。因此随着年龄的增长,记忆神经元退化,甚至部分脑细胞老化导致相关知识也随之消失,也就是医学上的“阿尔兹海默症”。 人类在进化过程中,不断寻找新的...

Continue Reading →

元数据的可计算化反(上)

元数据,如果按字面释义,是最基本的数据。元,即初始、本源之意。在数据领域,元数据(Metadata)指“描述数据的数据”,记录了一个数据集的基础信息。 如果把数据集比作一个人的话,元数据就像是一张肖像简笔画。一个人能够通过画面认识另一个人(比如杨过在古墓迷恋上神仙姐姐的画像,并倾慕爱恋),是因为画已记录了此人的主要特征;同时这一认知过程又是不完备的,因为那只是一张梗概,缺少骨肉,丢失细节。但这足以说明,通过元信息这一梗概,我们足以抓住被描述主体的主要部分。 本文笔者试图探索有关元数据的两个方面的问题,一是元数据在我们人类理解世界这一过程中所扮演的角色,另一个对于打破我们人类社会面临的信息壁垒、数据孤岛,元数据提供了怎样一种途径、以及如何发挥作用。 带着上述简笔画的例子,让我们类比一下...

Continue Reading →

© 2019 InnoTrek All Rights Reserved.
Theme by hiero