问答系统
发展历史
早在计算机诞生不久的1950年,Alan Turing就提出了著名的图灵测试。该测试的目的并不是为了获取信息,而是用于测试计算机是否具有智能,但是过程是相似的。图灵测试是把计算机和人都藏在用户看不见的地方,用户提出一系列的询问,计算机或者人给出问题的解答,如果用户分不清是人在回答还是计算机在回答问题,那么该计算机就具有了智能。为了鼓励进行图灵测试的研究,1991年Hugh Loebner设立了一个Loebner Prize,奖金10万美元,用于奖励第一个通过图灵测试的系统,遗憾的是,迄今为止,尚没有个人或者组织能够获此殊荣。除了大奖以外,比赛还每年拿出2000美元奖励当年表现最出色的系统。十多年来,出现了PC Therapist,Albert等优秀的聊天机器人系统,它们提出的一些技术,很值得开放域问答系统所借鉴。
早期还有一些基于知识库的问答系统研究(Hendfix et a1. 1978,Woods 1973),包括基于本体的问答系统,受限语言的数据库查询系统,问答式专家系统等。这些系统虽然能在特定的领域中达到比较好的性能,但是它们大多是受限的。首先是语言受限,即只能使用少数几种问题语言模式,一旦采用比较随意的语言,质量就会明显下降。其次是知识受限,一般只能够回答某一个特定领域中的专业性问题。
为了推动开放域问答系统的发展,信息检索评测组织(Text REtrieval Conferenee,TREC)自1999年开始,设立了开放域问答的评测任务,是TREC中历时最长的评测任务。其他的一些著名评测组织(如NTCIR和CLEF)也设置了问答系统评测的任务。目前,关于问答系统的研究已在领域内受到强烈的关注。
问答系统的分类
我们可以从知识领域、答案来源等角度来替问答系统做分类。从知识领域来看,可分为“封闭领域”以及“开放领域”两类系统。封闭领域系统专注于回答特定领域的问题,如医药或特定公司等。由于问题领域受限,系统有比较大的发挥空间,可以导入如专属本体论等知识,或将答案来源全部转换成结构性资料,来有效提升系统的表现。开放领域系统则希望不设限问题的内容范围,天文地理无所不问。系统中所有知识与元件都必须尽量做到与领域不相关,当然难度也相对地提高。
若根据答案来源来区分,可分为“数据库问答”、“常问问题问答”、“新闻问答”、“互联网问答”等系统。数据库是最常见的结构化资料储存媒介。虽然透过操控SQL语言便能够有效率地存取资料,但有些系统试图提供更直觉的自然语言查询界面,希望能进一步降低学习门槛。1970年代的LUNAR系统算是早期成功的案例,其正确答题率可以达到百分之七十,可回答月球陨石相关资料。微软的English Query则是近期的一个商业产品。English Query在剖析完英文问句后,会根据底层数据库结构,自动产生出相对应的SQL查询。虽然有这些成功系统案例,但数据库问答系统似乎很难被大众所接受,其中一个因素可能是因为对于结构化资料来说,结构化的查询界面在查询上更为方便。常问问题(Frequently Asked Questions, FAQs)是公司或者长期经营领域中常见的重要资源。一份FAQ资料包含了一个问句以及相对应的答案描述。FAQ问答系统的主要责任在比对使用者问句与现有FAQ问句的相似度,此与其他问答系统着重在答案语料中撷取答案的作法不同。另一种重要的系统为新闻问答系统。今日新闻媒体都已经数字化了,每日累积所产生的新闻资讯量是相当可观的,加上新闻的内容广泛丰富,作为开放领域问答系统的答案来源是最适合不过的。这样的特性使得此类系统的评估较为容易,因此稍后会提到的国际评估会议都是采用此类系统作为评估对象。最后一类的是互联网问答系统,这些系统利用搜索引擎回传的结果网页,从中撷取答案。主要挑战在于如何处理网络多异质性的资料,以及高噪声网页过滤等问题。
问题类型
问答系统接受的是自然语言问句,为了有效控制研究变因,多会订定可接受的问题类型来限制研究范围。最基本的类型为“仿真陈述问答”(Factoid Question Answering),此类系统根据答案语料所述资讯,取出一小段字串作为答案。由于答案的正确与否是根据答案语料的内容来决定,在现实生活中不一定为真,故称为仿真陈述问答。有些系统把问答范围进一步缩小,限定在人、地、组织等明确的专有名词上。若此类系统有能力回答如“请列举美国有哪些城市”这种清单型的问句,则称为“清单问答”(List Question Answering);若能回答定义问题,则称为“定义问答”(Definition Question Answering);以此类推还能定义出其他类型的问题。除了这些与问句资讯内容有关的类型外,最近评鉴会议引进如“时间限制问题”(Temporally Restricted Questions)与“序列问题”(Series of Questions)等复杂的问题类型。时间限制型的问题会在问句中明确指出答案的时间范围,限制序列问题则把问答系统未来的应用定位在互动式的系统上。经过来回多次问答的方式来满足使用者的资讯需求。了解这些问题类型分类,有助于研究范围界定,同时在分析比较上也比较有依据。
国际性评估会议
截至目前为止,世界主要语言都有问答系统发表在文献上,甚至还有少数跨语言的案例。在过去问答系统的研究中,所有研究都是在各自的假设下进行,加上系统复杂度高,不同单位的研究成果很难拿来做客观的评估与比较。除此之外,这类系统的评估是非常消耗人力的,事前的准备包含要产生足够多且合适的问题题目,同时每一题可能出现的答案都必须以人工方式从比赛语料中挑选出来。以上所述对问答系统的研究发展非常不利。有鉴于此,由单一组织举办、多个研究单位共同参与的问答系统比赛应运而生。
英文问答系统早在1999年就开始由TREC (Text REtreival Conference)会议主办进行这类型的比赛;日文的比赛于2003年由日本国立情报学研究所NII的NTCIR会议(NTCIR Workshop)所主办;欧洲同样于2003年由CLEF (Cross Language Evaluation Forum)会议主办欧洲语言的比赛。根据2004年的报告,目前最佳英文问答系统的水准已经可以达到70%左右的正确率。也就是说,一百个自然语言问句中,有七十题可以直接回答精准而正确的答案。此最佳英文系统由Language Computer Corporation所发展,逻辑推理能力为其致胜关键。在日文系统方面,正确率稍微低了些,但也有51%。日本电信电话公司(NTT)是目前成绩最好的团队。欧洲方面,QA@CLEF在规模上相当大,参与比赛的语言高达九种,加上跨语言问答的项目,比赛内容最为丰富。其中法文、葡萄牙文等语言系统于2005年都已经可以达到六成多的正确率。
阅读这些评鉴会议数据时必须注意评鉴方式间的差异。TREC会议主要的评鉴项目有“仿真陈述”、“列举”、以及“定义”问题,各类型又有其特定的评鉴标准。而CLEF看似与TREC的“仿真陈述”类型相同,但最近特别强调“时间限制问题”,使得问题更有挑战性。而NTCIR的2005年的日文题目则全为“序列问题”。就算题目类型相同,评鉴方式仍可能不同。TREC使用三位评鉴者来评估每一结果,而CLEF依照语言的不同,使用一或两位来评鉴每一题。2005新引进的NTCIR中文问答则使用了两位评鉴者。评鉴标准最大的差异在于是否有考虑“文章支持度”的问题,TREC、CLEF以及NTCIR的中文问答都会考虑答案所在的文章是否“支持”该答案为真,若证据不明确,就算答案字串正确,该题仍会被视为是错误的。早期NTCIR日文问答则没有考虑文章支持度的问题。根据TREC的评鉴结果,有考虑跟没考虑文章支持度的评鉴结果差距可达十几的百分比之多。以上说明显示了问答系统在评鉴与解读上到处充满陷阱。
免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。
- 有价值
- 一般般
- 没价值