(注:本文根据小讲“企业大数据战略及价值变现”中的“什么是大数据”章节的分享整理而成)
对于大数据,我想不管你是否行业内人士,在这高度信息化的社会里面,都会有意无意的听说过大数据这么一个概念。小到一个店家,大到一个国家,都在讲大数据。不过,真正搞清楚什么是大数据的人可能真不那么多。其实,故名思议,大数据肯定体现在“大”上,可数据是一个比较抽象的东西,我们该怎么去描述数据的“大”呢?这里面就涉及到一些专业领域的东西了。
麦肯锡对“大数据”给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
我们应该怎么去理解这句话呢,首先,我们知道,在大数据出现之前,我们对数据的日常处理分析常常使用的是诸如sqlsever/oracle/mysql等传统关系数据库,处理T级别的数据量已经是这些数据库的极限,面对PB/EB/ZB级的数据量那就更无能为力了。那是不是以前就没有这么大的数据量呢,也不是,早在20世纪80年代,未来学家 阿尔文托夫勒 就将大数据称作“第三次浪潮的华彩乐章”,只不过当时由于数据处理能力有限,所以大数据一直没有被提起来,直到2005年,Hadoop项目诞生,从技术层面上搭建了一个使对结构化和复杂数据快速、可靠分析变为现实的平台。从这个时候开始,“大数据”才逐步成为互联网信息技术行业的高频词汇,为人们所熟知。从这个上,我们可以看出,技术的发展不仅在改变人们的生活,其本身也在推进着更高级的技术的诞生。话说回来,“大数据”是不是只是一种规模大的数据集合就够了呢,显然不是的,还必须具备4V的特征。先说说海量的数据规模,前面说到处理PB/EB/ZB级的数据量,正是大数据优势所在,处理数据量的PB化,以前是不可能的事情,但在大数据时代,将会是一个常态,这是一个什么概念呢,一部高清电影约4g,一个PB=1024*1024g,大数据瞬时处理1PB的数据量,就相当于瞬时处理26万部的高清电影的量博亚体育。其次,说到“快速的数据流传”,怎么说呢,所有数据都有时效的,商业业务决策也是有时效的,如果不快速处理,得到结果来,那么就很可能会失去商机,所以,我们也在一直强调利用大数据做实时分析。再次,“多样的数据类型”又是什么呢,在大数据走进大众之前,传统的数据处理工具,往往处理的是标准的结构化的数据,也就是存在我们的数据库表格中的数据。针对非结构化的数据,比如文本、语音、视频、图像等等,这是大数据要经常面对的事情。最后,“价值密度低”,这个概念有点抽象,怎么去理解呢,大数据是一个海量的数据,在大海中捞针,这针就是我们的宝藏。但我们把这个针经过一系列的分析处理确定是在某一平方米的水域,那么这个密度就会高很多了,在这一块区域去捞针就容易获得成功多了。
(注:本文根据小讲“企业大数据战略及价值变现”中的“大数据平台”章节的分享整理而成)
大数据有非常大的价值,不管是从帮助企业创造营收还是从提高效率、节省企业成本角度。大数据要是做好了,将会是一个企业增长的发动机,推动业务突飞猛进的发展。要实现大数据的价值,真正让大数据为企业创造贡献,首先必须要积累有大数据,把日常的业务和用户行为数据收集起来。有些数据是可再生资源,但更多的数据是不可再生资源,这就需要我们搭建一个平台负责数据的采集、规整、运算、存储、应用、展现等,有了这样一个大数据平台,我们才能做好数据的积累,从小数据到大数据,数据是企业的资产,好的数据是企业的优质资产。大数据平台该怎样搭建呢?请看下面这幅图,不管我之前在阿里还是在腾讯工作,还是到哪个企业工作,基本上我都是通过这幅图进行一些简单的适应企业的调整,就可以完全搬过来使用了。
1)大数据平台由三个平台+一个服务组成:工具平台,大数据仓库基础平台、大数据门户大数据,其中,工具平台又包含运维平台和数据采集平台,大数据门户又包含大数据分析平台和大数据产品应用平台。
运维平台主要负责整个大数据平台的任务调度、任务监控、元数据管理、权限管理等,分别由调度系统、任务监控中心、元数据管理系统、权限管理系统等系统组成。
大数据采集平台主要负责把数据采集到大数据仓库平台中。企业的大数据来源从大的角度来说,主要是从三个方面获取数据,业务系统、行为日志采集系统、外部数据来源。每一个方面来源又包含途径,大家可以看上面的图就了解。这里特别要强调的是外部数据来源,可以通过网络爬虫工具收集,通过和相应的合作方进行数据交换,通过从数据商那里采购过来,也有极少部分可以通过一些大公司的开放平台接口获取,比如阿里、腾讯等。
大数据基础平台,在传统的关系数据库时代,这个平台也是企业必须要做的平台,只不过当时叫数据仓库系统,在大数据时代,我称作为大数据仓库基础平台。这部分是整个大数据平台的核心。我们接下来会详细讨论。
大数据门户,是数据成果的集成一体化平台,包含大数据分析平台和数据应用平台。大数据门户作为整个数据部门的窗口,所有数据研究成果都会展现在数据门户中,极大的方便了企业各层级、各职能人员使用数据。我们接下来也将会详细讨论下这部分内容。
用户服务,使用我们数据的人主要有公司的各层级的管理人员、数据分析人员、运营人员、产品经理、技术研发工程师、企业的投资相关方,还可能有部分的公司提供对外的数据服务。提供服务的方式有多种多样,或通过大数据门户、或通过API接口、或是直接在分析报告中体现。
注:详细分享每个平台如何构建的内容,欢迎大家参加小讲“企业大数据战略及价值变现”,会有很多的干货和独门绝技分享。
(注:本文根据小讲“企业大数据战略及价值变现”中大数据价值章节的分享整理而成)
a.数据辅助决策:为企业提供基础的数据统计报表分析服务。分析师能够轻易获取数据产出分析报告指导产品和运营,产品经理能够通过统计数据完善产品功能和改善用户体验,运营人员可以通过数据发现运营问题并确定运营的策略和方向,管理层可以通过数据掌握公司业务运营状况,从而进行一些战略决策;
b.数据驱动业务:通过数据产品、数据挖掘模型实现企业产品和运营的智能化,从而极大的提高企业的整体效能产出。最常见的应用领域有基于个性化推荐技术的精准营销服务、广告服务、基于模型算法的风控反欺诈服务征信服务,等等
c.数据对外变现:通过对数据进行精心的包装,对外提供数据服务博亚体育,从而获得现金收入。市面上比较常见有各大数据公司利用自己掌握的大数据,提供风控查询、验证、反欺诈服务,提供导客、导流、精准营销服务,提供数据开放平台服务,等等
但在实践中,我更加喜欢把数据的价值分为两个方面,一个方面是给企业创造营收,另一个方面就是给企业节省成本博亚体育。整体梳理的框架如下,请大家参考:
除了上面我对数据价值的理解外,阿里前数据委员会主席车品觉老师从数据的应用价值出发,归纳出如下的5类数据价值,也有一定的道理,大家可以作为参考:
欢迎大家拍砖指正,欢迎大家关注我的知乎专栏“大数据实践与职业生涯”并留言,专栏会陆续的推出过往十多年的大数据工作经验总结和我的一些研究实践成果。如果你是大数据新人,或者想转行进入大数据领域,或者职业生涯上存在一些疑惑,都欢迎关注我的知乎live分享“大数据人的职业生涯规划” 和 “数据分析师-从零入门到精通”、“大数据人的数据科学家之路”、“企业大数据战略及价值变现”。