族谱网 头条 人物百科

问答系统

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:282
转发:0
评论:0
发展历史早在计算机诞生不久的1950年,AlanTuring就提出了著名的图灵测试。该测试的目的并不是为了获取信息,而是用于测试计算机是否具有智能,但是过程是相似的。图灵测试是把计算机和人都藏在用户看不见的地方,用户提出一系列的询问,计算机或者人给出问题的解答,如果用户分不清是人在回答还是计算机在回答问题,那么该计算机就具有了智能。为了鼓励进行图灵测试的研究,1991年HughLoebner设立了一个LoebnerPrize,奖金10万美元,用于奖励第一个通过图灵测试的系统,遗憾的是,迄今为止,尚没有个人或者组织能够获此殊荣。除了大奖以外,比赛还每年拿出2000美元奖励当年表现最出色的系统。十多年来,出现了PCTherapist,Albert等优秀的聊天机器人系统,它们提出的一些技术,很值得开放域问答系统所借鉴。早期还有一些基于知识库的问答系统研究(Hendfixeta1.1978,Woo...

发展历史

早在计算机诞生不久的1950年,Alan Turing就提出了著名的图灵测试。该测试的目的并不是为了获取信息,而是用于测试计算机是否具有智能,但是过程是相似的。图灵测试是把计算机和人都藏在用户看不见的地方,用户提出一系列的询问,计算机或者人给出问题的解答,如果用户分不清是人在回答还是计算机在回答问题,那么该计算机就具有了智能。为了鼓励进行图灵测试的研究,1991年Hugh Loebner设立了一个Loebner Prize,奖金10万美元,用于奖励第一个通过图灵测试的系统,遗憾的是,迄今为止,尚没有个人或者组织能够获此殊荣。除了大奖以外,比赛还每年拿出2000美元奖励当年表现最出色的系统。十多年来,出现了PC Therapist,Albert等优秀的聊天机器人系统,它们提出的一些技术,很值得开放域问答系统所借鉴。

早期还有一些基于知识库的问答系统研究(Hendfix et a1. 1978,Woods 1973),包括基于本体的问答系统,受限语言的数据库查询系统,问答式专家系统等。这些系统虽然能在特定的领域中达到比较好的性能,但是它们大多是受限的。首先是语言受限,即只能使用少数几种问题语言模式,一旦采用比较随意的语言,质量就会明显下降。其次是知识受限,一般只能够回答某一个特定领域中的专业性问题。

为了推动开放域问答系统的发展,信息检索评测组织(Text REtrieval Conferenee,TREC)自1999年开始,设立了开放域问答的评测任务,是TREC中历时最长的评测任务。其他的一些著名评测组织(如NTCIR和CLEF)也设置了问答系统评测的任务。目前,关于问答系统的研究已在领域内受到强烈的关注。

问答系统的分类

我们可以从知识领域、答案来源等角度来替问答系统做分类。从知识领域来看,可分为“封闭领域”以及“开放领域”两类系统。封闭领域系统专注于回答特定领域的问题,如医药或特定公司等。由于问题领域受限,系统有比较大的发挥空间,可以导入如专属本体论等知识,或将答案来源全部转换成结构性资料,来有效提升系统的表现。开放领域系统则希望不设限问题的内容范围,天文地理无所不问。系统中所有知识与元件都必须尽量做到与领域不相关,当然难度也相对地提高。

若根据答案来源来区分,可分为“数据库问答”、“常问问题问答”、“新闻问答”、“互联网问答”等系统。数据库是最常见的结构化资料储存媒介。虽然透过操控SQL语言便能够有效率地存取资料,但有些系统试图提供更直觉的自然语言查询界面,希望能进一步降低学习门槛。1970年代的LUNAR系统算是早期成功的案例,其正确答题率可以达到百分之七十,可回答月球陨石相关资料。微软的English Query则是近期的一个商业产品。English Query在剖析完英文问句后,会根据底层数据库结构,自动产生出相对应的SQL查询。虽然有这些成功系统案例,但数据库问答系统似乎很难被大众所接受,其中一个因素可能是因为对于结构化资料来说,结构化的查询界面在查询上更为方便。常问问题(Frequently Asked Questions, FAQs)是公司或者长期经营领域中常见的重要资源。一份FAQ资料包含了一个问句以及相对应的答案描述。FAQ问答系统的主要责任在比对使用者问句与现有FAQ问句的相似度,此与其他问答系统着重在答案语料中撷取答案的作法不同。另一种重要的系统为新闻问答系统。今日新闻媒体都已经数字化了,每日累积所产生的新闻资讯量是相当可观的,加上新闻的内容广泛丰富,作为开放领域问答系统的答案来源是最适合不过的。这样的特性使得此类系统的评估较为容易,因此稍后会提到的国际评估会议都是采用此类系统作为评估对象。最后一类的是互联网问答系统,这些系统利用搜索引擎回传的结果网页,从中撷取答案。主要挑战在于如何处理网络多异质性的资料,以及高噪声网页过滤等问题。

问题类型

问答系统接受的是自然语言问句,为了有效控制研究变因,多会订定可接受的问题类型来限制研究范围。最基本的类型为“仿真陈述问答”(Factoid Question Answering),此类系统根据答案语料所述资讯,取出一小段字串作为答案。由于答案的正确与否是根据答案语料的内容来决定,在现实生活中不一定为真,故称为仿真陈述问答。有些系统把问答范围进一步缩小,限定在人、地、组织等明确的专有名词上。若此类系统有能力回答如“请列举美国有哪些城市”这种清单型的问句,则称为“清单问答”(List Question Answering);若能回答定义问题,则称为“定义问答”(Definition Question Answering);以此类推还能定义出其他类型的问题。除了这些与问句资讯内容有关的类型外,最近评鉴会议引进如“时间限制问题”(Temporally Restricted Questions)与“序列问题”(Series of Questions)等复杂的问题类型。时间限制型的问题会在问句中明确指出答案的时间范围,限制序列问题则把问答系统未来的应用定位在互动式的系统上。经过来回多次问答的方式来满足使用者的资讯需求。了解这些问题类型分类,有助于研究范围界定,同时在分析比较上也比较有依据。

国际性评估会议

截至目前为止,世界主要语言都有问答系统发表在文献上,甚至还有少数跨语言的案例。在过去问答系统的研究中,所有研究都是在各自的假设下进行,加上系统复杂度高,不同单位的研究成果很难拿来做客观的评估与比较。除此之外,这类系统的评估是非常消耗人力的,事前的准备包含要产生足够多且合适的问题题目,同时每一题可能出现的答案都必须以人工方式从比赛语料中挑选出来。以上所述对问答系统的研究发展非常不利。有鉴于此,由单一组织举办、多个研究单位共同参与的问答系统比赛应运而生。

英文问答系统早在1999年就开始由TREC (Text REtreival Conference)会议主办进行这类型的比赛;日文的比赛于2003年由日本国立情报学研究所NII的NTCIR会议(NTCIR Workshop)所主办;欧洲同样于2003年由CLEF (Cross Language Evaluation Forum)会议主办欧洲语言的比赛。根据2004年的报告,目前最佳英文问答系统的水准已经可以达到70%左右的正确率。也就是说,一百个自然语言问句中,有七十题可以直接回答精准而正确的答案。此最佳英文系统由Language Computer Corporation所发展,逻辑推理能力为其致胜关键。在日文系统方面,正确率稍微低了些,但也有51%。日本电信电话公司(NTT)是目前成绩最好的团队。欧洲方面,QA@CLEF在规模上相当大,参与比赛的语言高达九种,加上跨语言问答的项目,比赛内容最为丰富。其中法文、葡萄牙文等语言系统于2005年都已经可以达到六成多的正确率。

阅读这些评鉴会议数据时必须注意评鉴方式间的差异。TREC会议主要的评鉴项目有“仿真陈述”、“列举”、以及“定义”问题,各类型又有其特定的评鉴标准。而CLEF看似与TREC的“仿真陈述”类型相同,但最近特别强调“时间限制问题”,使得问题更有挑战性。而NTCIR的2005年的日文题目则全为“序列问题”。就算题目类型相同,评鉴方式仍可能不同。TREC使用三位评鉴者来评估每一结果,而CLEF依照语言的不同,使用一或两位来评鉴每一题。2005新引进的NTCIR中文问答则使用了两位评鉴者。评鉴标准最大的差异在于是否有考虑“文章支持度”的问题,TREC、CLEF以及NTCIR的中文问答都会考虑答案所在的文章是否“支持”该答案为真,若证据不明确,就算答案字串正确,该题仍会被视为是错误的。早期NTCIR日文问答则没有考虑文章支持度的问题。根据TREC的评鉴结果,有考虑跟没考虑文章支持度的评鉴结果差距可达十几的百分比之多。以上说明显示了问答系统在评鉴与解读上到处充满陷阱。


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

推荐阅读

· 教义问答
相关条目教义教理
· 高血压病问答录(一)
正常人的血压随内外环境变化在一定范围内波动。在整体人群,血压水平随年龄逐渐升高,以收缩压更为明显,但50岁后舒张压呈现下降趋势,脉压也随之加大。近年来,人们对心血管病多重危险因素作用以及心、脑、肾靶器官保护的认识不断深入,高血压的诊断标准也在不断调整,目前认为同一血压水平的患者发生心血管病的危险不同,因此有了血压分层的概念,即发生心血管病危险度不同的患者,适宜血压水平应有不同。医生面对患者时在参考标准的基础上,根据其具体情况判断该患者最合适的血压范围,采用针对性的治疗措施。病因1.习惯因素遗传大约半数高血压患者有家族史。2.环境因素3.年龄发病率着随年龄增长而增高的趋势,40岁以上者发病率高。4.其他肥胖者发病率高;避孕药;睡眠呼吸暂停低通气综合征。临床上高血压可分为两类:1.原发性高血压是一种以血压升高为主要临床表现而病因尚未明确的独立疾病。2.继发性高血压又称为症状性高血压,在这类疾病...
· 系统
历史“系统”一词,源自于古希腊语:σύστημα(systēma),译为拉丁语:systēma,转变为英语:system,日本汉字书为“系统”,成为中文名词。其涵义最早可追溯到柏拉图、亚里士多德(政治学)和欧几里德(《几何原本》)等。它的意思是“总体”、“整体”或“联盟”。在19世纪第一个发展自然科学中“系统”概念的,是研究热力学的法国物理学家尼古拉·卡诺。1824年,他研究了蒸汽发动机中的“工作物质”,即通常说的水蒸汽,在一个由锅炉、冷储(冷水流)、活塞组成的体系中做功的能力。德国物理学家克劳修斯扩展了系统的含义,使之包括了环境的概念。生物学家贝塔郎非是发展一般系统论的一个先驱。1945年他引入了讨论广义系统或它们的子类的模型和法则,而不纠缠于其特定种类、性质、组成要素之间的关系或相互作用等细节。诺伯特·维纳及RossAshby应用数学方法对系统概念做出了重大发展。自然系统人体系统生态系...
· 《山中问答/山中答俗人问》
《山中问答/山中答俗人问》问余何意栖碧山,笑而不答心自闲。桃花流水窅然去,别有天地非人间。《山中问答/山中答俗人问》译文及注释译文有人疑惑不解地问我,为何幽居碧山?我只笑而不答,心里却一片轻松坦然。桃花飘落溪水,随之远远流去。此处别有天地,真如仙境一般。注释余:我,诗人自指。何意:一作“何事”。栖:居住。碧山:山名,在湖北省安陆市内,山下桃花洞是李白读书处。一说碧山指山色的青翠苍绿。自闲:悠闲自得。闲:安然,泰然。“桃花”句:晋陶渊明《桃花源记》载,东晋时,武陵有一渔人在溪中捕鱼。忽进桃花林,林尽处有山。山有小口。从山口进去,遇一与外界隔绝的桃花源,里边的人过着安居乐业的生活。此句暗用其事。窅(yǎo)然:指幽深遥远的样子。别有天地:另有一种境界。别:另外。非人间:不是人间,这里指诗人的隐居生活。《山中问答/山中答俗人问》参考资料:1、詹福瑞等.李白诗全译.石家庄:河北人民出版社,1997...
· 山中问答/山中答俗人问
山中问答/山中答俗人问典故,隐居,生活,唐代,李白问余何意栖碧山,笑而不答心自闲。桃花流水窅然去,别有天地非人间。译文及注释注释译文有人疑惑不解地问我,为何幽居碧山?我只笑而不答,心里却一片轻松坦然。桃花飘落溪水,随之远远流去。此处别有天地,真如仙境一般。余:我,诗人自指。何意:一作“何事”。栖:居住。碧山:山名,在湖北省安陆市内,山下桃花洞是李白读书处。一说碧山指山色的青翠苍绿。自闲:悠闲自得。闲:安然,泰然。“桃花”句:晋陶渊明《桃花源记》载,东晋时,武陵有一渔人在溪中捕鱼。忽进桃花林,林尽处有山。山有小口。从山口进去,遇一与外界隔绝的桃花源,里边的人过着安居乐业的生活。此句暗用其事。窅(yǎo)然:指幽深遥远的样子。别有天地:另有一种境界。别:另外。非人间:不是人间,这里指诗人的隐居生活。

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信