不知从何时起,大数据(Big Data)这个概念在中国火了。在我的潜意识里,数据包含各种数值、文字、图像、声音等信息,但对数据的集合及产生、获取渠道等问题始终是模糊的。通过以美国数据信息公开的艰难历程为例,回顾了一些历史故事,讲述了大数据浪潮发生的前因后果,更揭示了信息自由、技术创新与社会进步的关系,让我走近大数据,对大数据有了更深入、全面的理解,也有了一些感受。


《大数据》痛苦地提到了国人“差不多”先生的形象,这种形象与当今数据信息时代,需要通过精确分析各种数据,得出有价值结论的要求格格不入。我们必须融入数据信息新时代,迎头赶上,放弃安逸、放弃特权思想,刺破阻碍信息公开的“穹顶”,改变“差不多”先生形象。


----以下是本书摘抄:


马斯洛的需求层次金字塔

马斯洛把人类的需求划分为生理、安全、社交、尊重和自我实现五大类。

低层次的需求相对满足了,更高层次的需求就会成为个人行为的主导。

一切的妥协和交换,都是围绕个人的“主导需求”发生的。但是恰恰在所有能成为“主导需求”的因素当中,道德是最为薄弱的,很难成为一个人的行为的“主导”。


数据和信息的区别

数据是对信息数字化的记录,其本身并无意义;信息是指把数据放置到一定背景下,对数字进行解释、赋予意义。

例如:“1.85”是个数据,“奥巴马的身高1.85米”则是一则信息,“大多数黑人男性的身高超过1.85米”则是提炼规律后的知识。

数据>信息>知识


人类知识的三大种类与科学关系

人类所有的知识,可以划分为三大类:自然科学、社会科学、人文艺术。

自然科学的研究对象是物理世界,讲的是“精确”,丝毫不能含糊,卫星上天,潜艇下海,差之毫厘,就会谬以千里。

社会科学研究的是社会现象,探讨的是人和社会的关系,如经济学、政治学、社会学,它也追求精确,但因为关系到多变善变的人,导致了“测不准”,所以社会科学又被称为“准科学”。

人文艺术则主要包括文学、艺术、哲学,它探讨的是人的信仰、情感和价值,并不强调精确,有时候甚至模糊就是美,所以位于科学的最外围。


智能商务

数据仓库和数据库的最大差别在于,前者是以数据分析,决策支持为目的来组织存储数据,而数据库的主要目的则是为了运营性系统保存、查询数据。


联机分析也称多维分析,本意是把分立的数据库“相联”,进行多维度的分析。“维”是联机分析的核心概念,指的是人们观察事物,计算数据的特定角度。


数据挖掘是指通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间隐藏的关系、模式和趋势,为决策者提供新的知识。


如果说联机分析是对数据的一种透视性的探测,数据挖掘则是对数据进行挖山凿矿式的开车。他的主要目的,一是要发现潜藏在数据表面之下的历史规律,二是对未来进行预测,前者称为描述性分析,后者称为预测性分析。


再造互联网:从网页相连到数据相“联”

语义网就是数据网,从某种程度上来说,就像一个全球性的数据库。......语义网不仅仅把数据放到网上,它还要在数据之间创建联接,数据一旦联接,计算机和人都可以对数据进行搜索:通过一个数据发现另外一些数据。--蒂姆·伯纳斯-李


元数据

元数据是大数据时代的一个重要概念,它是指描述、解释数据属性的数据,是为支持一致性的数据描述所定义的统一准则。



注意:本文归作者所有,未经作者允许,不得转载