本书让我颠覆思维的两个点:

  • 成本收益分析

    很多人创业有个idea的时候,往往只想到“收益(即产品发展到最优的时候带来的好处),这往往忽略了这其中的:时间成本(开发周期)金钱成本(启动资金)、人力物力及所带来的风险(法律风险、失业风险.....)。

  • 用数据说话

    再也不敢轻易说“我认为用户...”  或是 “我觉得用户...”,这些都是主观意识,一切还是需要用数据说话!


本书介绍:   

      从小数据时代到大数据的崛起,作者以宏大的历史观,文化观,大数据观,给我们描绘了一副数据科学、智慧文化的全景图。全书从美国建国之基讲起,通过陈述初始时代、内战时代、镀金时代、进步时代、抽样时代、大数据时代的特征,系统的梳理了美国数据文化的形成,阐述了其数据治国之道,论述了中国数据文化的薄弱之处,展望了未来数据世界的远景。


“尊重事实,用数据说话”,“推崇知识和理性,用数据创新”


以下是个人对本书的要点记录:


1.  统计学

  • 统计学源于人口调查

  • 统计学重要命题:要统计一件东西,必须要有清晰的边界。统计首先是计数,也就是一个一个相加,即“1+1+...”,但首先要清楚地定义什么是“1”。


2.  用统计提高产品质量:

  • 偏差控制



  • 因果分析


 

3. 数据  

  • 数据可视化:数据可视化是指借助图形、地图、动画等生动、直观的方式来展现数据的大小,诠释数据之间的关系和发展趋势,以其更好地理解和使用数据分析的结果。

  • 数据不仅代表事实,还隐藏着社会发展的规律,通过数据不仅能总结过去,还能预测未来。


4. 数据是怎样炼成的

  • 科学抽样

  • 调查问卷(一个成功的调查,除了抽样,问题的设计也很重要


5. 成本收益分析

  • 成本收益分析是指以货币为单位,对一个项目投建的成本和未来的收益进行量化,其目的是找到拥有最佳收益与成本比率的项目或方案。

  • 有意思的案例:

          20世纪90年代,美国政府考虑向烟草公司增税,理由是吸烟损害了大众健康,国家的医疗开支因此增加。哈弗大学的维斯库西教授在用成本收益分析方法对这项政策做了分析之后,却得出了截然相反的结论:政府不仅应该向烟草公司增税,还应该给它们发放补贴!原因在于,美国政府要为老年人的养老金,养老院,医疗保健等支付一笔巨额费用,而吸烟易导致早死,这部分早死的人口无形中减轻了政府的负担。结论一出,舆论一片哗然。


6. 大数据

  • 数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现规律的信息。

    例如:“28”是个数据,今天的气温是28℃是信息,今年7月,广州的平均气温为28℃是知识。

  • 数据的三大来源:测量,记录,计算。

  • 大数据之大,不仅在于其大容量,更在于其大价值,价值在于使用。


7. 数据挖掘和统计抽样的区别


数据样本数据来源数据时效数据成本
数据挖掘用的是已经存在的大数据,样本偏差可能很大,但是如果数量足够大,偏差又可能缩小。多个源头实时基本免费
统计抽样根据设计好的问卷,收集自己需要的数据,如果设计科学,那样本会比较均匀,偏差小。比较单一滞后比较昂贵

注:大数据特点除了“量大”,还有“多源”。


7.  众包

  • “众包”是美国的两位记者在2005年发明的新词,意思是利用互联网将工作打包分配出去,其关键在于,分包是并不知道接包人是谁,这正是“众包”区别与“外包”的地方。

 


注意:本文归作者所有,未经作者允许,不得转载