从字面的意思来看,大数据就是大量的数据。业界一般认为数据量达到普通的设备存不下,算不动的程度,就可以称之为大数据了。
例如,常见的固态硬盘,512GB就已经比较大了;常见的机械硬盘,可达1TB/2TB/4TB的容量。
而大数据是什么级别呢?PB/EB级别。其实就是在TB的基础上每一级接着乘以1024。
上述的这些大的单位在日常生活中几乎接触不到,而且常人也已经无法直观地感受到这些单位能大到什么让人吃惊的程度。下面我们举个简单的例子来说明。
这样算下来,一块1TB的硬盘大约可以存储50万本电子书,3万张图片,400部电影。假定三天时间看完一本书,这50万本就需要4000多年才能看完。
1PB的容量大约可存储5亿本书,3千万张图片,或40万部90分钟的电影。看书的时间过于夸张就不说了,这些电影也需要持续近140年时间才能看完。
1EB这个单位的庞大已经超乎了人们的想象,仅仅存放这些数据需要大约2000个机柜的存储设备。
如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。
事实上,阿里、百度、腾讯这样的互联网巨头,因为其拥有数亿的用户,这些海量用户产生的数据量早已超越PB级,接近EB级。
随着互联网,物联网的发展,万事万物皆可连接,皆可源源不断地产生数据,从涓涓细流汇聚成汪洋大海。
经过移动互联网的大爆发,中国的上网用户数已经约等于智能手机的用户数,通过4G网络随时连接博亚体育,实时在线。
这些用户在手机上的每一次滑动和点击,都会被各式各样的APP上传并存储,以及在微博,微信,知乎,抖音等各种社交或者UGC类APP上创作的文本,图片和视频,形成海量的数据。
物联网方面也不遑多让。据GSMA智库预测,到2025年全球将会有18亿移动物联网连接(总共31亿蜂窝物联网连接),以及138亿工业物联网连接,其中63亿在亚太地区和中国,占总数的65%。
如果放在以前博亚体育,计算机的硬件(存储,计算)等资源还很金贵的情况下大数据,这些数据只能是经过简单汇总之后就被丢掉。
然而随着技术的发展,计算机硬件的存储和计算能力越来越强,越来越不值钱,这些原本被认为食之无肉弃之有味数据才能被大量存储和处理,并挖掘价值。
目前微信拥有11亿的用户,每天发送数百亿条消息,还有朋友圈,支付,扫一扫,摇一摇等多种行为都存储在微信的后台。
如果要从这些海量数据中分析所有微信用户的行为习惯,比如每天的使用时长,偏好发语音还是文字,对哪些类型的公众号感兴趣等数据就没有那么简单了。这就是各种大数据技术诞生及发展的驱动力。博亚体育