大数据
定义
大数据由巨型 数据集 ( 英语 : Data set ) 组成,这些数据集大小常超出人类在可接受时间下的 收集 ( 英语 : data acquisition ) 、 庋用 ( 英语 : data curation ) 、管理和处理能力 。大数据的大小经常改变,截至2012年 ( 2012-Missing required parameter 1= month ! ) ,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。
在一份2001年的研究与相关的演讲中 ,麦塔集团(META Group,现为高德纳)分析员道格·莱尼( Doug Laney )指出数据增长的挑战和机遇有三个方向:量( Volume ,数据大小)、速( Velocity ,数据输入输出的速度)与多变( Variety ,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据 。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理 。”另外,有机构在3V之外定义第4个V:真实性( Veracity )为第四特点 。
大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。
数据挖掘(data mining)则是在探讨用以解析大数据的方法。
应用示例
大数据的应用示例包括大科学、RFID、感测设备网络、天文学、大气学、交通运输、基因组学、生物学、大社会数据分析 、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、社交网络、通勤时间预测、医疗记录、照片图像和视频封存、大规模的电子商务等 。
应用于运动界
巨大科学
大型强子对撞机中有1亿5000万个感测器,每秒发送4000万次的数据。实验中每秒产生将近6亿次的对撞,在过滤去除99.999%的撞击数据后,得到约100次的有用撞击数据 。
将撞击结果数据过滤处理后仅记录了0.001%的有用数据,全部四个对撞机的数据量复制前每年产生25拍字节(PB),复制后为200拍字节。
如果将所有实验中的数据在不过滤的情况下全部记录,数据量将会变得过度庞大且极难处理。每年数据量在复制前将会达到1.5亿拍字节,等于每天有近500艾字节(EB)的数据量。这个数字代表每天实验将产生相当于500垓(5×10 )字节的数据,是全世界所有数据源总和的200倍。
科学研究
卫生学
国际卫生学教授汉斯·罗斯林使用“Trendalyzer”工具软件呈现两百多年以来全球人类的人口统计数据,跟其他数据交叉比对,例如收入、宗教、能源使用量等。
公共部门
目前,发达国家的政府部门开始推广大数据的应用。2012年奥巴马政府投资近两亿美元开始推行《大数据的研究与发展计划》,本计划涉及美国国防部、美国卫生与公共服务部门等多个联邦部门和机构,意在通过提高从大型复杂的的数据中提取知识的能力,进而加快科学和工程的开发,保障国家安全。
民间部门
亚马逊,在2005年的时点,这间公司是世界上最大的以LINUX为基础的三大数据库之一 。
沃尔玛可以在1小时内处理百万以上顾客的消费处理。相当于美国议会图书馆所藏的书籍之167倍的情报量 。
Facebook,处理500亿枚的用户照片 。
全世界商业数据的数量,统计全部的企业全体、推计每1.2年会倍増 。
西雅图 文德米尔不动产 ( 英语 : Windermere Real Estate ) 分析约1亿匿名GPS信号,提供购入新房子的客户从该地点使用交通工具(汽车、脚踏车等)至公司等地的通勤时间估计值 。
软银,每个月约处理10亿件(2014年3月现在)的手机LOG情报,并用其改善手机信号的信号强度 。
社会学
大数据产生的背景离不开Facebook、微博等社交网络的兴起,人们每天通过这种自媒体传播信息或者沟通交流,由此产生的信息被网络记录下来,社会学家可以在这些数据的基础上分析人类的行为模式、交往方式等。美国的涂尔干计划就是依据个人在社交网络上的数据分析其自杀倾向,该计划从美军退役士兵中拣选受试者,透过Facebook的行动app收集资料,并将用户的活动数据传送到一个医疗资料库。收集完成的数据会接受人工智能系统分析,接着利用预测程序来即时监视受测者是否出现一般认为具伤害性的行为。
市场
大数据的出现提升了对信息管理专家的需求,Software AG、甲骨文、IBM、微软、SAP、易安信、惠普和戴尔已在多间数据管理分析专门公司上花费超过150亿美元。在2010年,数据管理分析产业市值超过1,000亿美元,并以每年将近10%的速度成长,是整个软件产业成长速度的两倍 。
经济的开发成长促进了密集数据科技的使用。全世界共有约46亿的移动电话用户,并有10至20亿人链接互联网 。自1990年起至2005年间,全世界有超过10亿人进入中产阶级,收入的增加造成了识字率的提升,更进而带动信息量的成长。全世界通过电信网络交换信息的容量在1986年为281兆亿字节(PB),1993年为471兆亿字节,2000年时增长为2.2艾字节(EB),在2007年则为65艾字节 。根据预测,在2013年互联网每年的信息流量将会达到667艾字节 。
相关条目
数据挖掘
数据库
对象数据库
关系数据库
统计学
商务智能
分布式计算、分布式数据库、分布式文件系统、分布式运算环境
超级计算机
运筹学
MapReduce
合成作战中心
延伸阅读
Big Data for Good (PDF) . ODBMS.org. 2012-06-05 [ 2013-11-12 ] .
Hilbert, Martin; López, Priscila.The World"s Technological Capacity to Store, Communicate, and Compute Information. Science. 2011, 332 (6025): 60–65. doi:10.1126/science.1200970 . PMID 21310967 .
The Rise of Industrial Big Data. GE Intelligent Platforms. [ 2013-11-12 ] .
ISBN 978-986-320-191-5 《大數據》
ISBN 978-986-241-673-0 《云时代的杀手级应用:Big Data海量数据分析》
IEEE Big Data Service. ODBMS.org. 2014-09-07 [ 2014-09-07 ] .
免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。
- 有价值
- 一般般
- 没价值