族谱网 头条 人物百科

数据挖掘

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:337
转发:0
评论:0
历史数据挖掘是因为海量有用数据快速增长的产物。使用计算机进行历史数据分析,1960年代数字方式采集数据已经实现。1980年代,关系数据库随着能够适应动态按需分析数据的结构化查询语言发展起来。数据仓库开始用来存储大量的数据。因为面临处理数据库中大量数据的挑战,于是数据挖掘应运而生,对于这些问题,它的主要方法是数据统计分析和人工智能搜索技术。定义数据挖掘有以下这些不同的定义:“从数据中提取出隐含的过去未知的有价值的潜在信息”“一门从大量数据或者数据库中提取有用信息的科学。”尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。它与KDD的关系是:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。事实上,在现今的文献中,这两个术语经常不加区分的使用。...

历史

数据挖掘是因为海量有用数据快速增长的产物。使用计算机进行历史数据分析,1960年代数字方式采集数据已经实现。1980年代,关系数据库随着能够适应动态按需分析数据的结构化查询语言发展起来。数据仓库开始用来存储大量的数据。

因为面临处理数据库中大量数据的挑战,于是数据挖掘应运而生,对于这些问题,它的主要方法是数据统计分析和人工智能搜索技术。

定义

数据挖掘有以下这些不同的定义:

“从数据中提取出隐含的过去未知的有价值的潜在信息”

“一门从大量数据或者数据库中提取有用信息的科学。”

尽管通常数据挖掘应用于数据分析,但是像人工智能一样,它也是一个具有丰富含义的词汇,可用于不同的领域。 它与KDD的关系是:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是KDD通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。 事实上,在现今的文献中,这两个术语经常不加区分的使用。

过程

数据库知识发现(KDD)过程 通常定义为以下阶段:

预处理

在运用数据挖掘算法之前,必须收集目标数据集。由于数据挖掘只能发现实际存在于数据中的模式,目标数据集必须大到足以包含这些模式,而其余的足够简洁以在一个可接受的时间范围内挖掘。常见的数据源如数据集市或数据仓库。在数据挖掘之前,有必要预处理来分析多变量数据。然后要清理目标集。数据清理移除包含 噪声 ( 英语 : statistical noise ) 和含有缺失数据的观测量。

数据挖掘

数据挖掘涉及六类常见的任务:

异常检测(异常/变化/偏差检测)– 识别不寻常的数据记录,错误数据需要进一步调查。

关联规则学习(依赖建模)– 搜索变量之间的关系。例如,一个超市可能会收集顾客购买习惯的数据。运用关联规则学习,超市可以确定哪些产品经常一起买,并利用这些信息帮助营销。这有时被称为市场购物篮分析。

聚类– 是在未知数据的结构下,发现数据的类别与结构。

分类– 是对新的数据推广已知的结构的任务。例如,一个电子邮件程序可能试图将一个电子邮件分类为“合法的”或“垃圾邮件”。

回归– 试图找到能够以最小误差对该数据建模的函数。

汇总 ( 英语 : Automatic summarization ) – 提供了一个更紧凑的数据集表示,包括生成可视化和报表。

结果验证

数据挖掘的价值一般带着一定的目的,而这目的是否得到实现一般可以通过结果验证来实现。验证是指“通过提供客观证据对规定要求已得到满足的认定”,而这个“认定”活动的策划、实施和完成,与“规定要求”的内容紧密相关。数据挖掘过程中的数据验证的“规定要求”的设定,往往与数据挖掘要达到的基本目标、过程目标和最终目标有关。验证的结果可能是“规定要求”得到完全满足,或者完全没有得到满足,以及其他介于两者之间的满足程度的状况。验证可以由数据挖掘的人自己完成,也可以通过其他人参与或完全通过他人的项目,以与数据挖掘者毫无关联的方式进行验证。一般验证过程中,数据挖掘者是不可能不参与的,但对于认定过程中的客观证据的收集、认定的评估等过程如果通过与验证提出者无关的人来实现,往往更具有客观性。通过结果验证,数据挖掘者可以得到对自己所挖掘的数据价值高低的评估。

隐私问题及伦理

与数据挖掘有关的,还牵扯到隐私问题,例如:一个雇主可以通过访问医疗记录来筛选出那些有糖尿病或者严重心脏病的人,从而意图削减保险支出。然而,这种做法会导致伦理和法律问题。

对于政府和商业数据的挖掘,可能会涉及到的,是国家安全或者商业机密之类的问题。这对于保密也是个不小的挑战。

数据挖掘有很多合法的用途,例如可以在患者群的数据库中查出某药物和其副作用的关系。这种关系可能在1000人中也不会出现一例,但药物学相关的项目就可以运用此方法减少对药物有不良反应的病人数量,还有可能挽救生命;但这当中还是存在着数据库可能被滥用的问题。

数据挖掘实现了用其他方法不可能实现的方法来发现信息,但它必须受到规范,应当在适当的说明下使用。

如果数据是收集自特定的个人,那么就会出现一些涉及保密、法律和伦理的问题。

方法

数据挖掘的方法包括监督式学习、非监督式学习、半监督学习、增强学习。监督式学习包括:分类、估计、预测。非监督式学习包括:聚类,关联规则分析。

例子

数据挖掘在零售行业中的应用:零售公司跟踪客户的购买情况,发现某个客户购买了大量的真丝衬衣,这时数据挖掘系统就在此客户和真丝衬衣之间创建关系。销售部门就会看到此信息,直接发送真丝衬衣的当前行情,以及所有关于真丝衬衫的资料发给该客户。这样零售商店通过数据挖掘系统就发现了以前未知的关于客户的新信息,并且扩大经营范围。

数据捕捞

通常作为与数据仓库和分析相关的技术,数据挖掘处于它们的中间。然而,有时还会出现十分可笑的应用,例如发掘出不存在但看起来振奋人心的模式(特别的因果关系),这些根本不相关的、甚至引人误入歧途的、或是毫无价值的关系,在统计学文献里通常被戏称为“数据捕捞”( Data dredging , data fishing, or data snooping )。

数据挖掘意味着扫描可能存在任何关系的数据,然后筛选出匹配的模式,(这也叫作“过度匹配模式”)。大量的数据集中总会有碰巧或特定的数据,有着“令人振奋的关系”。因此,一些结论看上去十分令人怀疑。尽管如此,一些探索性数据分析 还是需要应用统计分析查找数据,所以好的统计方法和数据数据的界限并不是很清晰。

更危险是出现根本不存在的关系性。投资分析家似乎最容易犯这种错误。在一本叫做《顾客的游艇在哪里?》的书中写道:“总是有相当数量的可怜人,忙于从上千次的赌轮盘的轮子上查找可能的重复模式。十分不幸的是,他们通常会找到。”

多数的数据挖掘研究都关注于发现大量的数据集中,一个高度详细的模式。在《大忙人的数据挖掘》一书中,西弗吉尼亚大学和不列颠哥伦比亚大学研究者讨论了一个交替模式,用来发现一个数据集当中两个元素的最小区别,它的目标是发现一个更简单的模式来描述相关数据。

参见

异常/变化检测

关联式规则

分类问题

聚类分析

决策树

因子分析 ( 英语 : Factor analysis )

遗传算法

意图挖掘 ( 英语 : Intention mining )

多线性子空间学习 ( 英语 : Multilinear subspace learning )

人工神经网络

回归分析

序列挖掘 ( 英语 : Sequence mining )

结构化数据分析 ( 英语 : Structured data analysis (statistics) )

支持向量机

文本挖掘

代理挖掘 ( 英语 : Agent mining )

解析学 ( 英语 : Analytics )

行为信息学 ( 英语 : Behavior informatics )

大数据

生物信息学

商业智能

数据分析

数据仓库

决策支持系统

领域驱动的数据挖掘 ( 英语 : Domain driven data mining )

药物发现 ( 英语 : Drug discovery )

探索性数据分析 ( 英语 : Exploratory data analysis )

预测分析

网络挖掘 ( 英语 : Web mining )

参见:Category:应用数据挖掘。

客户分析 ( 英语 : Customer analytics )

农业数据挖掘 ( 英语 : Data mining in agriculture )

气象中的数据挖掘 ( 英语 : Data mining in meteorology )

教育数据挖掘 ( 英语 : Educational data mining )

美国国家安全局

定量构效关系

监视/大规模监控(e.g.,恒星风 (情报活动代号))

数据挖掘是关于 分析 数据的;有关从数据中提取信息的信息,参见:

数据集成

数据变换 ( 英语 : Data transformation )

电子发现 ( 英语 : Electronic discovery )

信息抽取

信息融合

命名实体识别 ( 英语 : Named-entity recognition )

资料搜集 ( 英语 : Profiling (information science) )

网页抓取

延伸阅读

Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to Implementation , Prentice Hall, ISBN 0-13-743980-6

M.S. Chen, J. Han, P.S. Yu (1996) "Data mining: an overview from a database perspective". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883

Feldman, Ronen; Sanger, James (2007); The Text Mining Handbook , Cambridge University Press, ISBN 978-0-521-83657-9

Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and Systems , Kluwer Academic Publishers

Han, Jiawei, Micheline Kamber, and Jian Pei. Data mining: concepts and techniques . Morgan kaufmann, 2006.

Hastie, Trevor, Tibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction , Springer, ISBN 0-387-95284-5

Liu, Bing (2007); Web Data Mining: Exploring Hyperlinks, Contents and Usage Data , Springer, ISBN 3-540-37881-2

Murphy, Chris. Is Data Mining Free Speech?. InformationWeek (UMB). 16 May 2011: 12.

Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining Applications , Academic Press/Elsevier, ISBN 978-0-12-374765-5

Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science Reference , ISBN 978-1-59904-162-9

Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data Mining , ISBN 0-321-32136-7

Theodoridis, Sergios; and Koutroumbas, Konstantinos (2009); Pattern Recognition , 4th Edition, Academic Press, ISBN 978-1-59749-272-0

Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data Mining , Morgan Kaufmann

Witten, Ian H.; Frank, Eibe; Hall, Mark A. Data Mining: Practical Machine Learning Tools and Techniques 3. Elsevier. 30 January 2011. ISBN 978-0-12-374856-0. (See also Free Weka software)

Ye, Nong (2003); The Handbook of Data Mining , Mahwah, NJ: Lawrence Erlbaum

外部链接

开放式目录计划中和知识发现软件相关的内容

开放式目录计划中和数据挖掘工具供应商相关的内容


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

推荐阅读

· 国际数据
批评许多IDC的报告和预测由于方法的缺陷而受到批评,著名案例包括:预测英特尔安腾架构的销售预测WindowsPhone的市场份额竞争对手阿伯丁集团ABIResearchBurtonGroupCanalysDittbernerAssociatesForresterResearchFrost&Sullivan高德纳咨询公司GfKJupiterResearchTechnologyEvaluationCentersTekPlusThe451GroupWirelessFederationYankeeGroup
· 大数据
定义大数据由巨型数据集(英语:Dataset)组成,这些数据集大小常超出人类在可接受时间下的收集(英语:dataacquisition)、庋用(英语:datacuration)、管理和处理能力。大数据的大小经常改变,截至2012年(2012-Missingrequiredparameter1=month!),单一数据集的大小从数太字节(TB)至数十兆亿字节(PB)不等。在一份2001年的研究与相关的演讲中,麦塔集团(METAGroup,现为高德纳)分析员道格·莱尼(DougLaney)指出数据增长的挑战和机遇有三个方向:量(Volume,数据大小)、速(Velocity,数据输入输出的速度)与多变(Variety,多样性),合称“3V”或“3Vs”。高德纳与现在大部分大数据产业中的公司,都继续使用3V来描述大数据。高德纳于2012年修改对大数据的定义:“大数据是大量、高速、及/或多变的信息...
· 数据传输
协议分层与子条目在数据传输领域的课程与教材中,通常使用如下的OSI模型处理协议分层与主题:第一层,物理层:第二层,数据链路层:第六层,表示层:应用及历史基带或通带传输串行与并行传输通讯信道类型异步与同步数据传输参见计算机网络信息论Media(communication)信号处理电信Transmission
· 数据库
数据库管理系统数据库管理系统(英语:DatabaseManagementSystem,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML;或依据所支持的电脑类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。类型关系数据库MySQLPostgreSQLMicrosoftAccessMicrosoftSQLServerGoogleFusionTables(英语:GoogleFusionTables)FileMakerOracle数据库SybasedBASEClipperFoxProfosh...
· 元数据
定义元资料是指“描述资料的资料”。虽然说源自于希腊介词和前缀μετά-的英文前缀“meta”代表“之后”或“之下”的意思,在此处实际上是使用知识论中“关于”的意思。元资料被定义为提供某些资料单方面或多方面资讯的资料;它被用来概述资料的基础资讯,以简化查找过程与方便使用。例如:创建资料的方法资料的用途建立的时间与日期资料的建立者或作者资料被建立在电脑网络的何处用作标准档案大小举例,一个数位影像档案可能会包括描述图片大小、色彩深度、图片分辨率、图片建立时间、快门速度等资料的元资料。一份文档的元资料可能会包含文档长度、作者、建立时间、文档概述等资讯。网页中的元资料也可以包含叶面内容的描述,以及有关于内容的关键字等等。这些东西常被称作“元标签”(Metatags),其在1990年代后期以前被用来当作决定搜索引擎结果顺序的主要因素。在1990年代后期,由于“关键字堆砌(英语:keywordstuff...

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信