信息抽取-族谱新闻-族谱网

信息抽取

2020-10-16

出处：族谱网

作者：阿族小谱

浏览:514次

转发:0次

评论:0

起源信息检索技术又称为“消息理解”（MessageUnderstanding），其主流研究起源于1987年消息理解会议（MessageUnderstandingConference,MUC），这个会议主要提倡利用自然语言处理技术，对文字信息作更深度的剖析，以提高信息检索的认知程度。从1987年第一届会议迄今，MUC已经举办过六次会议，每年会中皆会提供文字数据以及标准问题，供与会者以所发展的系统自动抽取消息，这种竞赛方式对于整个领域的技术提升有很大的助益。目的信息抽取的基本任务包含了：命名实体识别（Namedentityrecognition，又译“专名辨识”）共指消解（Coreference）术语抽取（Terminology_extraction）在自然语言处理范畴，信息截取技术是雷同于信息检索领域的一种类型，它的目的是要以自动化的方式来截取结构化信息，例如：在某一个特定领域或是从非结构化...

起源

信息检索技术又称为“消息理解”（Message Understanding），其主流研究起源于1987年消息理解会议（Message Understanding Conference,MUC），这个会议主要提倡利用自然语言处理技术，对文字信息作更深度的剖析，以提高信息检索的认知程度。从1987年第一届会议迄今，MUC已经举办过六次会议，每年会中皆会提供文字数据以及标准问题，供与会者以所发展的系统自动抽取消息，这种竞赛方式对于整个领域的技术提升有很大的助益。

目的

信息抽取的基本任务包含了：

命名实体识别（Named entity recognition，又译“专名辨识”）

共指消解（Coreference）

术语抽取（Terminology_extraction）

在自然语言处理范畴，信息截取技术是雷同于信息检索领域的一种类型，它的目的是要以自动化的方式来截取结构化信息，例如：在某一个特定领域或是从非结构化机器可读的文件中，对明确的数据进行分类、判断上下文以及语义化的分析。

模板分类

信息截取技术一般借助事先准备的模板（Template）以截取特定新闻事件包括人（Who）、事（What）、地（where）与时间（When）等事实（Fact）。因为截取事实必须对所分析的文件有某种程度的剖析理解能力，在各种信息检索研究课题中，信息截取技术一直相当仰赖自然语言处理技术，因此是传统上最典型的智能检索技术之ㄧ。

判断文句

一般信息截取技术的做法包括具备文件过滤程序（Text Filter），借此从大量文件中过滤出较相关的文字片段，其作法与信息过滤技术（Information Filtering）较为类似。接着利用剖析程序（Parser），将文件片段转化成剖析树（Parsing Tree）。剖析树类似我们阅读英文时的文法结构，是对文句做语法的分析（例如找出动词、主词、受词），之后再将这些剖析树与原先欲抽取的模板比对，截取出有关人事地物的事实出来。

语义化分析

信息截取的研究，主要还是针对特定领域的文件进行深度分析，因此过程中还包括词汇语义标定（Semantic Tagging）、重要名词词组抽取（Noun Phrase Extraction），文句部分剖析（Partial Parsing）、产生语义格框（Semantic Frame）等相关技术，因此开发一个信息截取系统必须事先创建很完整的领域知识，包括相关词汇、词组、文法规则、语义规则等。

参考资料

《图书信息检索技术》卜小蝶著：文华，台北市，民85

免责声明：以上内容版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。感谢每一位辛勤著写的作者，感谢每一位的分享。

——— 没有了 ———