大数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言博亚体育,大数据的出现促成广泛主题的新颖研究。这也导致各种大数据统计方法的发展。大数据并没有统计学的抽样方法;它只是观察和追踪发生的事情。因此,大数据通常包含的数据大小超出传统软件在可接受的时间内处理的能力。由于近期的技术进步,发布新数据的便捷性以及全球大多数政府对高透明度的要求,大数据分析在现代研究中越来越突出。
截至2012年,技术上可在合理时间内分析处理的资料集大小单位为艾位元组(EB)。在许多领域,由于资料集过度庞大,科学家经常在分析处理上遭遇限制和阻碍;这些领域包括气象学、基因组学、神经网络体学、复杂的物理模拟,以及生物和环境研究。这样的限制也对网络搜寻、金融与经济信息学造成影响。资料集大小增长的部分原因来自于信息持续从各种来源被广泛收集,这些来源包括搭载感测设备的移动设备、高空感测科技(遥感)、软件记录、相机、麦克风、无线射频辨识(RFID)和无线年代起,现代科技可储存资料的容量每40个月即增加一倍;截至2012年,全世界每天产生2.5艾位元组(2.5×1018位元组)的资料。
巨量资料几乎无法使用大多数的资料库管理系统处理,而必须使用“在数十、数百甚至数千台服务器上同时平行运行的软件”(电脑丛集是其中一种常用方式)。巨量资料的定义取决于持有资料组的机构之能力,以及其平常用来处理分析资料的软件之能力。“对某些组织来说,第一次面对数百GB的资料集可能让他们需要重新思考资料管理的选项。对于其他组织来说,资料集可能需要达到数十或数百TB才会对他们造成困扰。”
随着大数据被越来越多的提及,有些人惊呼大数据时代已经到来了,2012年《》的一篇专栏中写到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。但是并不是所有人都对大数据感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众取宠的时髦术语(buzzword),看起来很新颖,但只是把传统重新包装,之前在学术研究或者政策决策中也有海量数据的支撑,大数据并不是一件新兴事物。
大数据时代的来临带来无数的机遇,但是与此同时个人或机构的隐私权也极有可能受到冲击,大数据包含各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即是否有权利要求数据商不保留自己的某些信息,大数据时代信息为某些互联网巨头所控制,但是数据商收集任何数据未必都获得用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧盟法院就“被遗忘权”(right to be forgotten)一案作出裁定,判决谷歌应根据用户请求删除不完整的、无关紧要的、不相关的数据以保证数据不出现在搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重才是时势所趋的潮流。
巨量资料由巨型数据集(Data set})组成,这些数据集大小常超出人类在可接受时间下的数据收集(data acquisition)、资料庋用(data curation)、管理和处理能力。巨量资料的大小经常改变,截至2012年,单一资料集的大小从数太位元组(TB)至数十兆亿位元组(PB)不等。
在一份2001年的研究与相关的演讲中,麦塔集团(META Group,现为高德纳)分析员道格·莱尼(Doug Laney)指出数据长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,资料输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部份巨量资料产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“巨量资料是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最佳化处理。”另外,有机构在3V之外定义第4个V:真实性(Veracity)为第四特点。
巨量资料必须借由计算机对资料进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调巨量资料会是之后的未来石油。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于特殊大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据取得之来源影响其应用之效益与品质,依照取得的直接程度一般可分为三种:
第一方数据(First Party Data):为己方单位自己和消费者、用户、目标客群互动产生的数据,具有高品质、高价值的特性,但易局限于既有顾客资料,如企业蒐集的顾客交易资料、追踪用户在APP上的浏览行为等,拥有者可弹性地使用于分析研究、行销推广等。
第二方数据(Second Party Data):取自第一方的资料,通常与第一方具有合作、联盟或契约关系,因此可共享或采购第一方数据。如:订房品牌与飞机品牌共享资料,当客人购买某一方的商品后,另一单位即可推荐他相关的旅游产品;或是已知某单位具有己方想要的资料,通过议定采购,直接从第一方取得数据。
第三方数据(Third Party Data):提供资料的来源单位,并非产出该资料的原始者,该资料即为第三方数据。通常提供第三方数据的单位为资料供应商,其广泛蒐集各式数据,并贩售给资料需求者,其资料可来自第一方、第二方与其他第三方资料,如爬取网络公开资料、市调公司所发布的研究调查、经去识别化的交易信息等。
巨量资料的应用范例包括大科学、RFID、感测设备网络、天文学、大气学、交通运输、基因组学、生物学、大社会资料分析、网际网络文件处理、制作网际网络搜寻引擎索引、通信记录明细、军事侦查、金融巨量资料,医疗巨量资料,社群网络、通勤时间预测、医疗记录、照片图像和影像封存、大规模的电子商务等。
大型强子对撞机中有1亿5000万个感测器,每秒传送4000万次的资料。实验中每秒产生将近6亿次的对撞,在过滤去除99.999%的撞击资料后,得到约100次的有用撞击资料。
将撞击结果资料过滤处理后仅记录0.001%的有用资料,全部四个对撞机的资料量复制前每年产生25拍位元组(PB),复制后为200拍位元组。
如果将所有实验中的资料在不过滤的情况下全部记录,资料量将会变得过度庞大且极难处理。每年资料量在复制前将会达到1.5亿拍位元组,等于每天有近500艾位元组(EB)的资料量。这个数字代表每天实验将产生相当于500垓(5×1020)位元组的资料,是全世界所有资料来源总和的200倍。
国际卫生学教授汉斯·罗斯林使用“Trendalyzer”工具软件呈现两百多年以来全球人类的人口统计资料,跟其他数据交叉比对,例如收入、宗教、能源使用量等。
目前,发达国家的政府部门开始推广大数据的应用。2012年奥巴马政府投资近两亿美元开始推行《大数据的研究与发展计划》,本计划涉及美国国防部、美国卫生与公共服务部门等多个联邦部门和机构,意在通过提高从大型复杂的的数据中提取知识的能力,进而加快科学和工程的开发,保障国家安全。
亚马逊公司,在2005年的时点,这间公司是世界上最大的以LINUX为基础的三大资料库之一。
沃尔玛可以在1小时内处理百万以上顾客的消费处理。相当于美国议会图书馆所藏的书籍之167倍的情报量博亚体育。
西雅图文德米尔不动产(Windermere Real Estate)分析约1亿匿名GPS信号,提供购入新房子的客户从该地点使用交通工具(汽车、自行车等)至公司等地的通勤时间估计值。
软银,每个月约处理10亿件(2014年3月现在)的手机LOG情报,并用其改善手机讯号的讯号强度。
大企业对大数据技能需求量大,吸引了许多大学诸如伯克利大学开专门提供受过大数据训练的毕业者的大学部门。硅谷纽约为主《The Data Incubator》公司,2012年成立,焦点是数据科学与大数据企业培训,提供国际大数据培训服务。
大资料产生的背景离不开Facebook等社交网络的兴起,人们每天通过这种自媒体传播信息或者沟通交流,由此产生的信息被网络记录下来,社会学家可以在这些数据的基础上分析人类的行为模式、交往方式等。美国的涂尔干计划就是依据个人在社交网络上的数据分析其自杀倾向,该计划从美军退役士兵中拣选受试者,透过Facebook的行动app收集资料,并将用户的活动数据传送到一个医疗资料库。收集完成的数据会接受人工智能系统分析,接着利用预测程序来即时监视受测者是否出现一般认为具伤害性的行为。
运用资料探勘技术,分析网络声量,以了解客户行为、市场需求,做行销策略参考与商业决策支援,或是应用于品牌管理,经营网络口碑、掌握负面事件等。如电信业者通过品牌的网络讨论资料,即时找出负面事件进行处理,减低负面讨论在网络扩散后所可能引发的形象危害。
巨量资料的出现提升了对信息管理专家的需求,Software AG、Oracle、IBM、微软、SAP、易安信、惠普和戴尔已在多间资料管理分析专门公司上花费超过150亿美元。在2010年,资料管理分析产业市值超过1,000亿美元,并以每年将近10%的速度成长,是整个软件产业成长速度的两倍。
经济的开发成长促进了密集资料科技的使用。全世界共有约46亿的移动电线亿人进入中产阶级,收入的增加造成了识字率的提升大数据,更进而带动信息量的成长。全世界通过电信网络交换信息的容量在1986年为281兆亿位元组(PB),1993年为471兆亿位元组,2000年时增长为2.2艾位元组(EB),在2007年则为65艾位元组。根据预测,在2013年网际网络每年的信息流量将会达到667艾位元组。博亚体育博亚体育