大数据概述—读书笔记
《实战Hadoop大数据处理》 作者:曾刚
大数据特点
数据体量巨大、数据类型多样、数据生成快速、存在潜在价值
大数据的关键技术
- 数据采集
- 数据预处理
- 大数据存储
- 大数据分析与挖掘
- 可视化
大数据处理系统
批处理系统
批处理系统的代表是GFS和MapReduce编程模型(google研发,未开源),而Hadoop是根据谷歌发表的相关论文实现的开源产品,其包括HDFS和MapReduce。HDFS负责分布式数据存储,MapReduce进行分布式计算。
- 特征
- 数据量巨大
- 多为静态数据
- 数据的价值密度低
- 应用
- 搜索引擎
- 社交网络分析
- 电子商务
- 公共安全领域
流式数据处理系统特征及典型应用
流式数据是一个无穷的数据序列,序列中的每一个元素来源各异,格式复杂,序列往往包含时序特征。
- 特征
- 流式数据的元组通常带有时序标签或其他含序属性
- 数据流中的数据格式复杂,可能是结构化的、半结构化的甚至是无结构化的
- 流式数据是活动的,用完即弃
- 典型应用包括两类
- 数据采集应用
- 日志采集
- 传感器采集
- Web数据采集
- …
- 金融行业的应用
- 通过对大数据的流式计算,发现隐藏在其中的内在特征,帮助金融行业进行实时决策。
- 数据采集应用
总的来说,流式数据特点:数据连续不断、来源众多、格式复杂、物理顺序不一、数据的价值密度低。
流式数据处理系统的典型代表有Twitter的Storm,Facebook的Scribe,Linkedin的Samza,Cloudera的Flume,Apache的Nutch
交互式数据处理系统的特征及典型应用
图数据处理系统
- 特点
- 节点间具有关联性
- 图数据种类繁多
- 图数据具有很强的耦合性
- 应用
- 自然科学研究:如在DNA中查找特定序列
- 网络社会分析:如研究社交网络中人与人的关系,进而研究群体社会关系
- 交通领域:如使用图来就算最短路径
- 典型代表: Pregel系统(Google)、GraphLab、Giraph、Neo4j、hyperGraphDB、Trimity和Grappa等。
总结
大数据处理系统很多,大体上呈现为以下三种发展趋势:
- 数据处理引擎专用化
- 数据处理平台多样化
- 数据计算实时化