信息检索
概述
当用户向系统输入查询时,信息检索过程开始。查询是信息需求(英语:information need)的正式声明,例如在Web搜索引擎中的搜索字符串。在信息检索中,查询不会唯一地标识集合中的单个对象。相反可以有不止一个对象匹配查询,它们可能具有不同程度的相关性。
对象是由内容集合或数据库中的信息表示的实体。用户查询要与数据库信息进行匹配。然而,与数据库的经典SQL查询相反,在信息检索中,返回的结果可能匹配或不匹配查询,因此结果通常被排名。这种结果排名是信息检索搜索与数据库搜索相比的关键区别。
根据应用,数据对象可以是文本文档、图像、音频、思维导图或视频等。通常文档本身不保存或直接存储在IR系统中,而是以文献替代或元数据在系统中表示。
大多数IR系统对数据库中的每个对象与查询匹配的程度计算数值分数,并根据此值对对象进行排名。然后向用户显示排名靠前的对象。如果用户希望细化查询,则可以重复该过程。
信息检索的类型
按照检索手段,可分为:
传统信息检索(手工检索)和
现代信息检索(计算机检索);
按照检索内容,分为:
书目检索、
数据检索、
事实检索、
全文检索、
图像检索:例如:Google images
多媒体检索:例如:Soundhound(声频检索)。
信息检索的主要技术指标
传统的指针:
齐全率
准确率
检索速度
常用的指针代号:
X ∩ ∩ --> Y {\displaystyle X\cap Y} :两个检索的交集
| X | {\displaystyle |X|} :检索结果的数量
∫ ∫ --> {\displaystyle \int 积分:积分
∑ ∑ --> {\displaystyle \sum } :求和
Δ Δ --> {\displaystyle \Delta } :对称差
检索系统
运用一定的方法从某种信息媒介上(包括书、硬盘、光盘等) 的数据中查找所需要情报的系统。一般可区分为手工情报检索系统(检索卡)、机械情报检索系统(微缩卷)和计算机情报检索系统三大类。
ProQuest(英语:ProQuest)是目前最大及历史最悠久的情报检索服务供应商,从1938年起就开始为学校把期刊制成微缩胶卷来存储 。这些胶卷在数字以后,继续以光盘阵及网上服务的形式为学校提供过期期刊内容的访问服务。
以下为市面上比较常见的情报系统:
DIALOG
Ovum
Emerald
ABI
参见
跨语检索
文本信息检索
免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。
- 有价值
- 一般般
- 没价值