族谱网 头条 人物百科

信息抽取

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:479
转发:0
评论:0
起源信息检索技术又称为“消息理解”(MessageUnderstanding),其主流研究起源于1987年消息理解会议(MessageUnderstandingConference,MUC),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。目的信息抽取的基本任务包含了:命名实体识别(Namedentityrecognition,又译“专名辨识”)共指消解(Coreference)术语抽取(Terminology_extraction)在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化...

起源

信息检索技术又称为“消息理解”(Message Understanding),其主流研究起源于1987年消息理解会议(Message Understanding Conference,MUC),这个会议主要提倡利用自然语言处理技术,对文字信息作更深度的剖析,以提高信息检索的认知程度。从1987年第一届会议迄今,MUC已经举办过六次会议,每年会中皆会提供文字数据以及标准问题,供与会者以所发展的系统自动抽取消息,这种竞赛方式对于整个领域的技术提升有很大的助益。

目的

信息抽取的基本任务包含了:

命名实体识别(Named entity recognition,又译“专名辨识”)

共指消解(Coreference)

术语抽取(Terminology_extraction)

在自然语言处理范畴,信息截取技术是雷同于信息检索领域的一种类型,它的目的是要以自动化的方式来截取结构化信息,例如:在某一个特定领域或是从非结构化机器可读的文件中,对明确的数据进行分类、判断上下文以及语义化的分析。

模板分类

信息截取技术一般借助事先准备的模板(Template)以截取特定新闻事件包括人(Who)、事(What)、地(where)与时间(When)等事实(Fact)。因为截取事实必须对所分析的文件有某种程度的剖析理解能力,在各种信息检索研究课题中,信息截取技术一直相当仰赖自然语言处理技术,因此是传统上最典型的智能检索技术之ㄧ。

判断文句

一般信息截取技术的做法包括具备文件过滤程序(Text Filter),借此从大量文件中过滤出较相关的文字片段,其作法与信息过滤技术(Information Filtering)较为类似。接着利用剖析程序(Parser),将文件片段转化成剖析树(Parsing Tree)。剖析树类似我们阅读英文时的文法结构,是对文句做语法的分析(例如找出动词、主词、受词),之后再将这些剖析树与原先欲抽取的模板比对,截取出有关人事地物的事实出来。

语义化分析

信息截取的研究,主要还是针对特定领域的文件进行深度分析,因此过程中还包括词汇语义标定(Semantic Tagging)、重要名词词组抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、产生语义格框(Semantic Frame)等相关技术,因此开发一个信息截取系统必须事先创建很完整的领域知识,包括相关词汇、词组、文法规则、语义规则等。

参考资料

《图书信息检索技术》卜小蝶著:文华,台北市,民85


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

推荐阅读

· 信息
词源在古希腊文中信息单词为μορφή或εἶδος,后者是著名哲学家柏拉图的经常用词(以及后来的亚里士多德),以表示理想的身份或事物的本质。在英文单词中则源于拉丁文宾格形式(informationem)的主格(informatio):这个名词是由动词反过来又衍生出“informare”(告知)在“togiveformtothemind”,“todiscipline”,“instruct”,“teach”:“这么聪明的男人应该去通知他们的国王。”狭义定义美国数学家,信息论的奠基人克劳德·艾尔伍德·香农(ClaudeElwoodShannon)在他的著名论文《通信的数学理论》(1948)中提出计算信息量的公式,(一个信息由n{\displaystylen}个符号所构成,符号k{\displaystylek}出现的概率为pk{\displaystylep_{k}}),则有:这个公式和热力学的熵的本...
· 信息需求
数据的定义数据(Data)被定义为单纯的文字或字词,例如是“好”。“好”这个字除了本身的意义之外并没有任何意思。信息的定义广义上当由两种或两种以上的数据链接在一起时形成有其他意思的信息(Information)及为信息。意即数据经过整理或分析将数据变的有其他意义即为信息。狭义上,信息就是符号的排列的顺序。但作为一个概念,信息有着多种多样的含义。一般来说,与信息这一概念密切相关的概念包括约束(constraint)、沟通(communication)、控制、数据、形式、指令、知识、含义、精神刺激、模式、感知以及表达。信息是人们在适应外部世界并使这种适应反作用于外部世界过程中,同外部世界进行互相交换的内容和名称。需求的定义需求即内心渴望的状态,但是对于现况感到不满足,所产生出来想要改变的一种心理落差状态,另外此一感觉会改变一个人的行动或者想法。
· 信息不全怎么查寻家谱族谱信息
在寻根问祖、重修家谱族谱、查寻家谱族谱时,很多人都会遇到族人信息不全的情况,尤其是一些家族成员可能因为老谱的损毁或者丢失,只能提供姓名和模糊字辈,导致修谱进程遭遇挫折,无法进行下去,所以,大家要掌握一些方法才能增加找到正确家谱族谱信息的概率。那么,信息不全怎么查寻家谱族谱信息呢?首先,委托专业查谱机构查询。这是一个最方便快捷的方式。网上有很多查谱、修谱、寻根问祖的网站就提供这些信息,比如族谱网。族谱网是国内知名的寻根问祖、查谱修谱网站,可以让专业的工作人员帮我们查询族谱家谱。当然了,我们需要尽可能的提供更多的家族中的族人信息给他们:比如字辈、祖居地、始祖、先祖、堂号、宗祠等,只有提供足够多的信息,才能够更好的检索查询到家谱族谱信息。其次,祖籍地搜集信息。我们在现居地的家族搜集一定资料信息后,可以选择去祖籍地走访和咨询当地的老人及相关族谱研究机构查询家族家谱信息,一般经过多次迁徙导致家谱信息...
· 信息系统
根据Laudon的MIS层次结构与系统间的关系有六大系统支持四个层次结构:作业控制层次结构主要为DPS(DataProcessingSystem,数据处理系统)或称TPS(TransactionProcessingSystem,交易处理系统),负责收集各项可用于管理的数据,处理日常例行的交易数据,并产生报表以支持组织的作业控制活动,即MRS。此类系统基本上是一种孤岛式的功能性文件系统,通常在信息系统发展的早期进行自动化时产生,可用来代替人工处理繁复的结构化数据。而此一层次结构管理人员也可以应用DSS(DecisionSupportSystem,决策支持系统)完成相关决策工作。知识管理层次结构主要是KWS(KnowledgeWorkSystem,知识工作系统)与OS(OfficeSystem,办公室系统),负责累积知识与协助运用知识以提高组织的竞争力。而此一层次结构管理人员也可以应用DSS完...
· 信息素
費洛蒙的分类費洛蒙可依其作用目的分成警报、追踪、性等种类(通常用来描述昆虫的費洛蒙),或依作用机制分为释放体費洛蒙(releaserpheromones)与引体費洛蒙(primerpheromones)两种。依作用目的警报費洛蒙警报費洛蒙(alarmpheromones)是可以引发进攻或逃跑等行为的費洛蒙。例如蚯蚓在有害物质刺激下分泌出的一种为其他蚯蚓所厌恶的粘液。有些物种被掠食者攻击时,同一物种间多数的成员会散发具有挥发性的化学物质来启动飞行的行为(如蚜虫)或者攻击行为(如蚂蚁、蜜蜂、白蚁)。費洛蒙也存在于植物中。当动物在吃它们的时候,这些植物会分泌警戒費洛蒙使得相邻的植物产生单宁酸,而单宁酸会使得草食动物觉得植物的口感变差,不好吃。追踪費洛蒙追踪費洛蒙(trailpheromones)可在社会性昆虫,如蚂蚁和白蚁中起到道路定向作用。普遍存在于具有社会性的群居昆虫中,如蚂蚁利用追踪費洛蒙...

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信