大数据技术体系

魔法师LQ

大数据技术体系现状

大数据技术分类:1.采集和集成;2.存储和管理;3.分析和挖掘;4.可视化;5.计算范式;6.隐私和安全

数据质量

  • 传统数据质量
    • 仅通过ETL(抽取、转换、加载)执行
    • 没有完全覆盖数据及质量的基本性质

挑战

  • 分布式环境中,保障全局数据的一致性,进取型,完整性
  • 流处理环境中,如何保证时效性
    • 例如:时序一致性

在大数据中保证绝对的数据质量并不现实

  • 高纬,异质,模糊,海量,多变

数据存储和管理

某些转变

  • Hash大于扫描
  • 单副本转向多副本
  • 但阶段转为多阶段
  • 压缩不再解压

传统数据分析和大数据

大数据分析的特点:和传统的数据分析相比,大数据分析焦点在对未来的预测,数据多是大规模、多样化、无关联的数据,更侧重于关联分析

大数据分析的特点

  • 监控动态流数据,跟踪变化趋势而非仅仅考虑静态数据
  • 数据科学家要和领域科学家一起进行分析
  • 将大数据分析集成到核心业务和运营环节

可视化挑战

可视化挑战:将蕴含在原始数据中的关联和因果关系可视化展示出来,并根据人的交互反馈,触发新一轮的知识发现

  • 强调人的作用
  • 强调分析中的迭代

计算范型

大数据计算范型:关注人在知识发现中的作用,大规模分布式并行计算平台,共享平台,众包模式等

安全与隐私

要尽量保证数据安全和隐私的前提下发展,不能因噎废食