大数据的特点

魔法师LQ

特点

  • 数据的规模

TB$\to$PB$\to$EB$\to$ZB$\to$$\to$…

  • 数据类型

数据的类型:结构化+半结构化+非结构化

  • 生命周期

数据处理生命周期(获取记录,抽取清洗,集成聚合,分析建模,解释展示)以及面临的共同问题(异构,规模,时效,隐私,协同)

  • 加工深度

数据加工深度:从数据,信息,知识,到智慧

  • 处理方式

批量(Batch)$\to$在线(Online)$\to$实时(In time)

  • 用户

内部用户+外部用户号

  • 数据质量

数据质量:精确性;完整性;一致性;时效性

  • 数据价值
    • 价值稀疏:大部分的数据都是“辣鸡”或者无人问津。例如微博和红楼梦。
    • 长尾效应