族谱网 头条 人物百科

大数据

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:583
转发:0
评论:0
定义大数据由巨型数据集(英语:Dataset)组成,这些数据集大小常超出人类在可接受时间下的收集(英语:dataacquisition)、庋用(英语:datacuration)、管理和处理能力。大数据的大小经常改变,截至2012年(2012-Missingrequiredparameter1=month!),单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。在一份2001年的研究与相关的演讲中,麦塔集团(METAGroup,现为高德纳)分析员道格·莱尼(DougLaney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息...

定义

大数据由巨型 数据集 ( 英语 : Data set ) 组成,这些数据集大小常超出人类在可接受时间下的 收集 ( 英语 : data acquisition ) 、 庋用 ( 英语 : data curation ) 、管理和处理能力 。大数据的大小经常改变,截至2012年 ( 2012-Missing required parameter 1= month ! ) ,单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。

在一份2001年的研究与相关的演讲中 ,麦塔集团(META Group,现为高德纳)分析员道格·莱尼( Doug Laney )指出数据增长的挑战和机遇有三个方向:量( Volume ,数据大小)、速( Velocity ,数据输入输出的速度)与多变( Variety ,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据 。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息资产,它需要新型的处理方式去促成更强的决策能力、洞察力与最优化处理 。”另外,有机构在3V之外定义第4个V:真实性( Veracity )为第四特点 。

大数据必须借由计算机对数据进行统计、比对、解析方能得出客观结果。美国在2012年就开始着手大数据,奥巴马更在同年投入2亿美金在大数据的开发中,更强调大数据会是之后的未来石油。

数据挖掘(data mining)则是在探讨用以解析大数据的方法。

应用示例

大数据的应用示例包括大科学、RFID、感测设备网络、天文学、大气学、交通运输、基因组学、生物学、大社会数据分析 、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦查、社交网络、通勤时间预测、医疗记录、照片图像和视频封存、大规模的电子商务等 。

大数据

应用于运动界

巨大科学

大型强子对撞机中有1亿5000万个感测器,每秒发送4000万次的数据。实验中每秒产生将近6亿次的对撞,在过滤去除99.999%的撞击数据后,得到约100次的有用撞击数据 。

将撞击结果数据过滤处理后仅记录了0.001%的有用数据,全部四个对撞机的数据量复制前每年产生25拍字节(PB),复制后为200拍字节。

如果将所有实验中的数据在不过滤的情况下全部记录,数据量将会变得过度庞大且极难处理。每年数据量在复制前将会达到1.5亿拍字节,等于每天有近500艾字节(EB)的数据量。这个数字代表每天实验将产生相当于500垓(5×10 )字节的数据,是全世界所有数据源总和的200倍。

科学研究

卫生学

国际卫生学教授汉斯·罗斯林使用“Trendalyzer”工具软件呈现两百多年以来全球人类的人口统计数据,跟其他数据交叉比对,例如收入、宗教、能源使用量等。

公共部门

目前,发达国家的政府部门开始推广大数据的应用。2012年奥巴马政府投资近两亿美元开始推行《大数据的研究与发展计划》,本计划涉及美国国防部、美国卫生与公共服务部门等多个联邦部门和机构,意在通过提高从大型复杂的的数据中提取知识的能力,进而加快科学和工程的开发,保障国家安全。

民间部门

亚马逊,在2005年的时点,这间公司是世界上最大的以LINUX为基础的三大数据库之一 。

沃尔玛可以在1小时内处理百万以上顾客的消费处理。相当于美国议会图书馆所藏的书籍之167倍的情报量 。

Facebook,处理500亿枚的用户照片 。

全世界商业数据的数量,统计全部的企业全体、推计每1.2年会倍増 。

西雅图 文德米尔不动产 ( 英语 : Windermere Real Estate ) 分析约1亿匿名GPS信号,提供购入新房子的客户从该地点使用交通工具(汽车、脚踏车等)至公司等地的通勤时间估计值 。

软银,每个月约处理10亿件(2014年3月现在)的手机LOG情报,并用其改善手机信号的信号强度 。

社会学

大数据产生的背景离不开Facebook、微博等社交网络的兴起,人们每天通过这种自媒体传播信息或者沟通交流,由此产生的信息被网络记录下来,社会学家可以在这些数据的基础上分析人类的行为模式、交往方式等。美国的涂尔干计划就是依据个人在社交网络上的数据分析其自杀倾向,该计划从美军退役士兵中拣选受试者,透过Facebook的行动app收集资料,并将用户的活动数据传送到一个医疗资料库。收集完成的数据会接受人工智能系统分析,接着利用预测程序来即时监视受测者是否出现一般认为具伤害性的行为。

市场

大数据的出现提升了对信息管理专家的需求,Software AG、甲骨文、IBM、微软、SAP、易安信、惠普和戴尔已在多间数据管理分析专门公司上花费超过150亿美元。在2010年,数据管理分析产业市值超过1,000亿美元,并以每年将近10%的速度成长,是整个软件产业成长速度的两倍 。

经济的开发成长促进了密集数据科技的使用。全世界共有约46亿的移动电话用户,并有10至20亿人链接互联网 。自1990年起至2005年间,全世界有超过10亿人进入中产阶级,收入的增加造成了识字率的提升,更进而带动信息量的成长。全世界通过电信网络交换信息的容量在1986年为281兆亿字节(PB),1993年为471兆亿字节,2000年时增长为2.2艾字节(EB),在2007年则为65艾字节 。根据预测,在2013年互联网每年的信息流量将会达到667艾字节 。

相关条目

数据挖掘

数据库

对象数据库

关系数据库

统计学

商务智能

分布式计算、分布式数据库、分布式文件系统、分布式运算环境

超级计算机

运筹学

MapReduce

合成作战中心

延伸阅读

Big Data for Good (PDF) . ODBMS.org. 2012-06-05 [ 2013-11-12 ] .

Hilbert, Martin; López, Priscila.The World"s Technological Capacity to Store, Communicate, and Compute Information. Science. 2011, 332 (6025): 60–65. doi:10.1126/science.1200970 . PMID 21310967 .

The Rise of Industrial Big Data. GE Intelligent Platforms. [ 2013-11-12 ] .

ISBN 978-986-320-191-5 《大數據》

ISBN 978-986-241-673-0 《云时代的杀手级应用:Big Data海量数据分析》

IEEE Big Data Service. ODBMS.org. 2014-09-07 [ 2014-09-07 ] .


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

推荐阅读

· 国际数据
批评许多IDC的报告和预测由于方法的缺陷而受到批评,著名案例包括:预测英特尔安腾架构的销售预测WindowsPhone的市场份额竞争对手阿伯丁集团ABIResearchBurtonGroupCanalysDittbernerAssociatesForresterResearchFrost&Sullivan高德纳咨询公司GfKJupiterResearchTechnologyEvaluationCentersTekPlusThe451GroupWirelessFederationYankeeGroup
· 数据传输
协议分层与子条目在数据传输领域的课程与教材中,通常使用如下的OSI模型处理协议分层与主题:第一层,物理层:第二层,数据链路层:第六层,表示层:应用及历史基带或通带传输串行与并行传输通讯信道类型异步与同步数据传输参见计算机网络信息论Media(communication)信号处理电信Transmission
· 数据库
数据库管理系统数据库管理系统(英语:DatabaseManagementSystem,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML;或依据所支持的电脑类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。类型关系数据库MySQLPostgreSQLMicrosoftAccessMicrosoftSQLServerGoogleFusionTables(英语:GoogleFusionTables)FileMakerOracle数据库SybasedBASEClipperFoxProfosh...
· 元数据
定义元资料是指“描述资料的资料”。虽然说源自于希腊介词和前缀μετά-的英文前缀“meta”代表“之后”或“之下”的意思,在此处实际上是使用知识论中“关于”的意思。元资料被定义为提供某些资料单方面或多方面资讯的资料;它被用来概述资料的基础资讯,以简化查找过程与方便使用。例如:创建资料的方法资料的用途建立的时间与日期资料的建立者或作者资料被建立在电脑网络的何处用作标准档案大小举例,一个数位影像档案可能会包括描述图片大小、色彩深度、图片分辨率、图片建立时间、快门速度等资料的元资料。一份文档的元资料可能会包含文档长度、作者、建立时间、文档概述等资讯。网页中的元资料也可以包含叶面内容的描述,以及有关于内容的关键字等等。这些东西常被称作“元标签”(Metatags),其在1990年代后期以前被用来当作决定搜索引擎结果顺序的主要因素。在1990年代后期,由于“关键字堆砌(英语:keywordstuff...
· 数据压缩
概要对于任何形式的通信来说,只有当信息的发送方和接受方都能够理解编码机制的时候压缩数据通信才能够工作。例如,只有当接受方知道这篇文章需要用汉语字符解释的时候这篇文章才有意义。同样,只有当接受方知道编码方法的时候他才能够理解压缩数据。数据压缩能够实现是因为多数现实世界的数据都有统计冗余。例如,字母“e”在英语中比字母“z”更加常用,字母“q”后面是“z”的可能性非常小。无损数据压缩通常利用了统计冗余,这样就能更加简练地、但仍然是完整地表示发送方的数据。如果允许一定程度的保真度损失,那么还可以实现进一步的压缩。例如,人们看图画或者电视画面的时候可能并不会注意到一些细节并不完善。同样,两个音频录音采样序列可能听起来一样,但实际上并不完全一样。有损数据压缩在带来微小差别的情况下使用较少的位数表示图像、视频或者音频。然而,经常有一些文件不能被有损数据压缩压缩,实际上对于不含可以辨别样式的数据任何压缩...

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信