了解了调查数据的统计分析,同学们很自然的 一个联想就是,调查数据的统计分析方法,
是不是可以用到大数据的分析中去呢?还记得调查数据分析的两个方式, 统计描述,统计推断。
在大数据分析中,显然,统计推断的方式就不存在了。
那么,统计描述是不是可以运用到大数据的分析中去呢?
不仅如此,大数据分析常常还会与数据挖掘一起出现,那么两者之间会有什么关系呢?
这就是这一部分课程的内容,为了帮助同学们理解数据挖掘,
这里推荐一本参考文献《数据挖掘导论》,同学们可以找来翻一翻。
这一部分的课程,我们希望达成两个目的。第一,让同学们了解大数据分析的原理,
至少消除对大数据分析的神秘感,了解大数据分析的路径。
第二呢,了解数据挖掘的基本知识。
为此我们安排了三节的内容,第一,大数据与数据挖掘, 简要说明大数据分析与数据挖掘之间的关系。
第二,数据挖掘的类型,讨论数据挖掘要解决的问题。
第三,讨论数据挖掘的基础技术。
让同学们知道,如果希望在这个领域进一步的学习, 可以朝哪个方向努力。在讨论技术性问题之前,
先解决概念性问题,了解大数据分析与数据挖掘之间的关系。
为了帮助同学们理解大数据分析,这里也推荐一本参考文献。
《大数据 互联网大规模数据挖掘与分布式处理》, 同学们可以找来翻一翻。
显然在大数据分析中,运用了数据挖掘的方法与技术,可是数据
挖掘并不是在大数据出现之后才产生的,而是早在大数据概念之前就已经出现了,就一直- 存在了。
早在2000年,就有人认为,数据挖掘就是
对大量数据进行探讨和分析,以便发现有意义的模式和规则。
这种策略在商业领域开始运用时, 被称之为BI,即商业智能,business intelligence。
一些大型的软件早在20世纪的末期,就在 开发这样的分析工具。比如,关联数据库工具,Oracle。
大型统计软件SUS,甚至比较通用的SPSS, 都在开发BI工具和模块。
同学们需要澄清的是,在真正的大数据概念到来之前,
商业机构就已经在考虑,如何挖掘自己掌握的商业数据的价值了。
在大数据出现之后, 数据挖掘自然成为了大数据环境下,商业智能发展的一个策略和工具。
正是在这个意义上,数据挖掘是针对大数据分析的策略,而不是具体的分析方法。
我们来看一个HBCC的框架图, 这幅图清晰的告诉了我们,从大数据到商业应用的4个环节,
也是大数据分析的基本策略。绿色的部分为大数据的数据部分,
蓝色的部分为我们之前讨论的数据清理的部分。红色的部分呢,为数据挖掘部分,
运用的都是数据挖掘策略。
紫色部分就是挖掘后的应用部分。
在前面的课程中, 讨论数据清理之后,我们就把大数据的议题放下来。同学们还记得通过数据清理,我们得到-
了什么? 对的,一堆已经分类了的单的变量值,就是这里的useful data。
注意,这些变量值并不像调查那样,在研究设计阶段就已经有了
变量之间关系模式的假设。大数据清理完成之后的变量值,就是一个一个的变量值。
变量之间的关系是不清楚的。
如果要做数据挖掘,对这类数据,还需要 进行加工和处理。我们之前得到的,是一个数据集成,
对这个集成,需要进行数据选择。选择以后呢?还需要经过数据变换,
转换为可计算的数据类型和格式。
此时就可以进入数据的挖掘阶段,数据挖掘,
就是在一堆一个一个的变量之间,寻找发现变量之间的关系模式。
挖掘之后呢?模型是不是可靠,还需要评估。比如谷歌的流感模型,
2012到2013年就有点不靠谱,为此就需要改进。
如果模型具有预测性,就可以形成暂时的标准模型了。
这就是知识的表达。如何能够做到这一点呢?这就涉及到了数据挖掘的技术,
在数据挖掘中,理论上就是统计学理论,也运用统计学的分析技术。
在数据分析的效率上,则需要
使用算法技术。此外,还需要用到其他技术,比如缓存技术、存储技术等等。
对大数据而言,数据挖掘的关键在于,在明确了理论之后,算法技术就是关键。
它涉及到数据库, 挖掘结果的可视化,挖掘过程的机器学习,以及挖掘中的模式识别。
下边我们把这一节的内容做一个小结。
大数据分析的基本策略来自于数据挖掘,可是数据
挖掘呢,是早于大数据的概念,是从商业智能发展演变过来的。
数据挖掘是在可计算的条件下,对数据进行探索,以获取有意义的
事物之间的关联模式,在数据挖掘的行当里叫做模式识别。
无论是数据挖掘,还是大数据分析,分析技术的理论还是统计学的。
对事物之间关系模式的认识呢,还是社会科学的。
这节的内容就到这里,谢谢大家。