《为数据而生》读书笔记


目录

I . 大数据时代,用数据说话

1.从万物皆数到万事皆数

2.从十数九表到数态万千

3.从隔水相望到阡陌交通

4.大数据驱动新工业革命

II. 大数据1.0:分析

1.统计呈现洞见

2.关联蕴含价值

3.预测指导决策

III. 大数据2.0:外化

1.寻求外部数据的帮助

2.自身数据的外部价值

3.机器学习,数据外化最神奇的利器

IV. 大数据3.0:集成

1.数据交易:数据资源的汇集地

2.数据城堡:数据人才的竞技场

3.创新工程:数据技术的嘉年华

成为大数据企业

深谙大数据的理念

掌握大数据的核心技术

数据化的核心——定量化

万物皆数,万事皆数

1.我们自己主动贡献了大量数据

  e.g.拉斯洛《爆发》:

   1)艺术家哈桑 伊拉希在网站上记录到过的地方和所到之处的照片

   2)微软研究院的Gordon Bell随身携带自动拍下眼前照片的相机

   3)麻省理工媒体实验室德布 罗伊在家装了11个摄像头14个麦克风,记录数十万小时的音像资料

2.我们也是数据被动的贡献者

浏览器cookie记录

手机,汽车,电视的数据记录

十数九表到数态万千

结构化数据:可以用一个二维表表示的数据

非结构化数据:涵盖文本、图片、音频、视频、时空序列、网络

绝大多数企业在数据分析和应用方面还停留在利用传统分析软件处理表格数据的阶段

文本数据。我们能够容易获取的最丰富的非结构化数据,也是目前价值密度(单位数据量中能够挖掘出来的价值大小)最大的一种非结构化数据。通过对文本数据的分析,我们能够了解兴趣、评价、情绪、关联和趋势,等等。

图像和语音。仅次于文本的常见的数据形态。目前,前者的分析方法和应用场景都比后者丰富,但是,最近语音的应用场景有爆发性的增长,因此,我认为语音分析的技术在未来会特别受欢迎。视频数据的分析技术从某种意义上讲是基于图像的,当然,视频分析中的部分技术,例如对特定对象的动态追踪、不损失有效内容的压缩和定位视频的主角,等等,都是仅靠图像分析不能完成的。由于这些技术可以看成是图像分析和若干技术的组合,所以没有单独强调视频分析。

网络。需要受到特别重视的一类数据结构,不仅仅电话通信关系、社会交际关系等可以通过网络表达,金融系统的“企业-企业”和“企业-个人”资金流、电子商务中的“用户-商品”浏览购买记录、物流系统的供销关系,甚至电视节目之间的竞争关系都可以甚至需要通过网络表示——可以这么说,哪里有关系,哪里就有网络。网络数据不仅仅要求例如GraphLab这样的高效率计算框架,更需要在图挖掘算法方面的创新和突破。

空间轨迹。利用车载或者手机GPS,我们能够采集到越来越多交通工具和个人的空间轨迹,这些轨迹的分析,对于从基于位置的个性化服务到城市的区域布局和交通规划都有重要的作用。

时间序列。对时间序列的分析,从宏观上讲能够让我们预测到未来的发展趋势,察觉到可能的失稳甚至危机;从微观上讲能够从用户的活跃序列中分析用户的特征,设计更好的服务方案。时空数据有机融合后的深入挖掘分析会带来以前没有的巨大价值,而这方面的技术和人才储备基本是零。

从隔水相望到阡陌交通

大数据的精髓:还不是数据量的爆炸性增长和数据形态的多样性,而是数据与数据之间关联形式的变化。

地点数据

个人数据

数据与数据,1+1远大于2

不同个体之间的关联,以及针对同一个个体不同数据源之间的关联,将彻底改变熟悉的商业模式。e.g.手机的GPS信号+签到信息=哪些人去过哪些地方——地点 关联 人

销售记录——产品 关联 人

实践创新:用购买记录给用户画像

电子商务网站和资讯媒体上 浏览、收藏、购买的记录——用户的住家、工作的地点(包裹寄达地)——住家或工作地点的经济水平、搬迁频繁程度(是否经常更换收包裹地址)——购买偏好、价格水平。

社交媒体的种种行为——社会影响力

社交媒体行为的文本信息(原创博文、评论、回复等)——是否有抑郁症倾向,是否喜欢合作和沟通

手机和签到行为——主要地理活动区域

。。。

用途:发放信用卡、个人信贷的参考

  帮助人力资源部门招聘做决定

  感兴趣用户的地理分布,指导更精准的地面广告投放

  指导更精准的互联网广告投放

  指导更好的产品设计和市场策略

e.g.  湛庐文化——中关村云基地

总结起来,我认为大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、教育理念、生活方式和观念形态上的颠覆性变化的总和。它绝不仅仅是某些特定技术和需求的变化,而是代表一种新的理念。

人:

David Hilbert

  大江健三郎

  哈桑 伊拉希

  Gordon Bell

作品:

《爆发》

  《青春咖啡馆》

  《信号与噪声》

  《希格斯》

概念:

  《微积分》

  《线代》

  偏微分方程

  波动方程

  热传导方程

  拉普拉斯方程

  GraphLab

  B-share

  Open ID

思考:

怎么在中国培养出一批能够适应数据形态变化的数据挖掘和数据分析的人才?

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: