大数据系统基础绪论

魔法师LQ

今天开始学习清华大学王建民教授等人开设的《大数据系统基础》课程。

什么是大数据

BigData是一个保罗万象的概念,又称海量资料,巨量资料,指资料规模巨大和复杂到当前主流处理方式无法在短时间内进行有效截取、存储、管理并帮助企业经营决策。

来源

个人、工业设备、传感器、仪表等

作用

从数据资源中获取数据的价值

多大

现在一天数据==以前几个世纪产生的数据。

类型

  • 关系型(Tables/Transaction)
  • 文本
  • 半结构(HTML)
  • 多媒体
  • 社交网络/知识图谱(RDF)

大数据系统

大数据系统,用于大数据分析处理的软件系统。

大数据系统基础目的:

  • 大数据系统的构建、开发、运维
  • 技术
  • 使用方法

大是相对的

  • 给定有限资源c,或成本
  • 给定问题输入x
  • 在一定时间t内
  • 计算出结果f(x)

当输入数据大到超过一定的计算能力或者可以容忍的时间t,就成为大数据问题

产业界看大数据

数据治理的无政府组

  • 结构化和非结构化
  • 数据的产生和使用过程相分离

学术界看大数据

Michael Stonebraker@MIT
大数据是计算机科学中的一个旗帜。

  • Stanford: Stanford Network Analysis Project
  • CMU: Pegasus and GraphLab
  • MIT: Intel Science & Technology Centre(ISTC) for Big Data

最火的实验室: SNAP

SNAP:三个维度,分别是数据库,机器学习以及操作系统

数据科学

数据科学:从数据中获取知道人们行动的知识

从数据到大数据

从数据到大数据