大数据概述---读书笔记

什么是大数据?

Posted by carm on April 15, 2016

大数据概述—读书笔记

《实战Hadoop大数据处理》 作者:曾刚

大数据特点

数据体量巨大、数据类型多样、数据生成快速、存在潜在价值

大数据的关键技术

  1. 数据采集
  2. 数据预处理
  3. 大数据存储
  4. 大数据分析与挖掘
  5. 可视化

大数据处理系统

批处理系统

批处理系统的代表是GFS和MapReduce编程模型(google研发,未开源),而Hadoop是根据谷歌发表的相关论文实现的开源产品,其包括HDFS和MapReduce。HDFS负责分布式数据存储,MapReduce进行分布式计算。

  1. 特征
    • 数据量巨大
    • 多为静态数据
    • 数据的价值密度低
  2. 应用
    • 搜索引擎
    • 社交网络分析
    • 电子商务
    • 公共安全领域

流式数据处理系统特征及典型应用

流式数据是一个无穷的数据序列,序列中的每一个元素来源各异,格式复杂,序列往往包含时序特征。

  1. 特征
    • 流式数据的元组通常带有时序标签或其他含序属性
    • 数据流中的数据格式复杂,可能是结构化的、半结构化的甚至是无结构化的
    • 流式数据是活动的,用完即弃
  2. 典型应用包括两类
    • 数据采集应用
      • 日志采集
      • 传感器采集
      • Web数据采集
    • 金融行业的应用
      • 通过对大数据的流式计算,发现隐藏在其中的内在特征,帮助金融行业进行实时决策。

总的来说,流式数据特点:数据连续不断、来源众多、格式复杂、物理顺序不一、数据的价值密度低。

流式数据处理系统的典型代表有Twitter的Storm,Facebook的Scribe,Linkedin的Samza,Cloudera的Flume,Apache的Nutch

交互式数据处理系统的特征及典型应用

  1. 特征: 交互式数据处理系统与操作人员以对话的方式进行交互
  2. 应用:信息处理应用与互联网领域
  3. 典型代表:Berkeley的Spark和Google的Dremel系统

图数据处理系统

  1. 特点
    • 节点间具有关联性
    • 图数据种类繁多
    • 图数据具有很强的耦合性
  2. 应用
    • 自然科学研究:如在DNA中查找特定序列
    • 网络社会分析:如研究社交网络中人与人的关系,进而研究群体社会关系
    • 交通领域:如使用图来就算最短路径
  3. 典型代表: Pregel系统(Google)、GraphLab、Giraph、Neo4j、hyperGraphDB、Trimity和Grappa等。

总结

大数据处理系统很多,大体上呈现为以下三种发展趋势:

  1. 数据处理引擎专用化
  2. 数据处理平台多样化
  3. 数据计算实时化