博亚体育本文内容主要来自课程UCSD大学网络课程Big Data的学习笔记+笔者的理解。
机构产生的数据举例:一家超市,有所有的进销存数据,客户购物数据,还有官网对超市的评论等,有结构化的数据,也有非结构化的数据。
价值来自整合不同类型的数据源!以超市举例说明,通过进销存数据+客户购物数据+社交网络舆情监测数据,预测接下来几天的销售预期,进而制定合适的营销策略增加销售。
我们通过6个维度来定义什么是大数据,这个维度的英文单词都是由字母V开头,所以也可以简记为6个“V”。分别是:Volume(规模)、Velocity(速度)、Variety(多样)、Veracity(质量)、Valence(连接)、Value(价值)
利用大数据产生价值的学问定义为“数据科学”。具体来说,这门学问可以通过以下5个“P”来定义:Purpose(目标)、People(人物)、Process(过程)、Platforms(平台)、Programmability(可编程)
People(人物):数据科学家往往具备多个领域的技能,包括:科学或商业知识、数据统计知识、机器学习和数学知识、数据管理知识、编程及计算机知识。一般来说往往需要“互补”的多位科学家组队工作。
Process(过程):包括如何团队沟通大数据、使用何种技术、采取什么工作流程等等
Programmability(可编程):开展数据科学需要编程语言的帮助博亚体育,例如R和patterns,MapReduce等。
在真正开始进行数据分析之前,提出正确的问题至关重要!!!名言:正确定义要解决的问题相当于已经解决了问题的一半!
分布式文件系统的存储方式是,首先将一份文件切分为n份(图中以5份为例),然后将这5份复制后分别存放在不同的机柜不同的主机中。
Hadoop是由一系列软件组成的,用于处理分布式存储博亚体育、云计算、大数据处理等等的各类框架的集和。
我们通过下面这种“层叠结构”的方式来解释hadoop博亚体育。“层叠结构”中,上一层的结构依赖于下一层提供的资源。如下图中,B和c依赖a提供的资源,而b和c之间无任何依赖关系。
hadoop就是一个这样的“生态环境”,可以用下面的“层叠结构”图来表示: