大学图书馆信息服务与信息素养教育理论与实践研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第六节 信息检索的途径和检索效果评价

一、信息检索的途径

检索途径是用户与检索工具建立联结的中介,所以又称检索入口。按照检索途径与信息内容相关的程度,检索途径可分为反映信息外部特征的途径与反映信息内容特征的途径。反映信息外部特征的途径一般有著者途径、题名途径、序号途径等。反映信息内容特征的途径有分类途径、主题途径等。因为信息的外部特征对信息来说具有唯一性,即某则信息的一组外表特征只对应这则信息,而信息的内容特征与信息是一种模糊的对应关系,一则信息有多个主题词(关键词)或分类号,一个主题词(关键词)或分类号也可对应多则信息。这种对应关系使得信息的内部特征和外部特征的用途大不相同。利用反映信息外部特征的检索途径只能检索出很少的信息,利用反映信息内容特征的检索途径一次则能检索出一批信息。

(一)分类途径

分类途径是一种按学科分类体系来查找信息的途径,以分类检索语言为依托,使用“分类目录”“分类索引”等进行查找。分类途径检索信息的优点在于族性检索,有利于精选。当研究课题较大,需要全面了解某一学科及其相关知识的时候,或者难于判定研究课题所属主题范围的时候,经常通过分类途径查找信息。缺点在于费时,在检索过程中必须不断地分析、评判、取舍,并不断地调整检索路线,检索才能获得成功。

印刷型检索工具利用分类途径检索信息的步骤为:分析待检课题的主题→根据主题获取相应的类目→依据类目在分类表中提取分类号→利用分类号查找检索工具中的信息线索及文摘→根据信息线索中的出处查找信息原文。电子检索工具从分类途径检索信息的步骤要简单得多,即分析待检课题的主题→根据检索平台上设置的类目主题架构中与主题相关的分类主题→点击分类主题就可以浏览到信息线索或文摘→根据信息线索中的出处获取原文或直接点击信息线索的全文链接获取全文。

从分类途径使用印刷型检索工具时,获取课题的分类号是检索的关键。

单概念课题分类号的确定。所谓单概念课题是指课题涉及的主题概念只有一个。使用分类表给单概念课题确定类号的方法是掌握分类表的体系结构中大类的分布。在相关的大类中由大到小,查找最接近于课题要求的类号,利用类目注释和类目指引确定准确的类号。

涉及两个或两个以上概念的多概念课题。使用分类表确定分类号时应注意:对于涉及几个并列研究对象的课题,有主次者,应取其重点或主要研究对象归类;无主次者,应将涉及的几个主题同时查找。研究一种理论、方法、工艺、材料、设备、产品等某方面应用的课题,应在所应用的类目中查找。研究一种理论、方法、工艺等在多方面应用的课题则在该理论、方法、工艺等本身所属的类目中查找。

分类途径查找信息的另外一个诀窍是:当待查课题在分类表无现成类目或无符合要求的专指类目时,可以代之以查它的上位类。例如,“灰色系统理论”在《中图法》中没有现成的类号可用,经分析“灰色系统理论”是在控制论、信息论、系统论基础上发展而来的一个理论,因此,“灰色系统理论”的类号,可以用上位法选择“N94系统论”。

(二)主题途径

主题途径是以代表信息主题内容的实质性的词汇作为检索标识进行检索的一种途径,以主题检索语言为依托,使用“主题索引”“关键词索引”“叙词索引”等进行查找。这种途径有利于将分散的各学科的有关信息集中于同一主题词之下,表达概念准确灵活,便于特性检索。主题途径较适合于相对具体、专深、新兴边缘学科的课题,能较好地满足特性检索的要求。

主题途径查找信息的关键是确定主题词。

课题的主题词确定方法。分析课题,提取概念。最主要的事物名称应作为首先考虑的检索概念——整理概念,将概念整理归纳,分成若干个组面(Facets)。

例如,“计算机辅助设计在光学中的应用”这个课题可分成“光学(0ptical)”“计算机辅助设计(CAD或Computer Aided Design)”二组。每一组用同义词、缩写词、复数形式等予以扩充。如光学用同义词“optical”和“optic”扩充,以避免漏检,保证课题的查全,直接利用所确定的词查找检索工具或将所确定的词汇与检索工具的词表对照确定正式词再查。

选取主题词应当注意以下几点:①当用提取的主题词查找检索工具没有结果时,可试着采用最近一级的上位词进行查找。②要查的课题中如包含数个事物概念,就应选择相应个数的主题词,以保证查准。③避免选择泛指性词作为检索主题词。比如“研究”、“发展”、“分析”、“高性能”和“快速”。④要选择能代表课题实质意义的词作为主题词,不能仅从字面上选词。比如,要确定“运用计算机程序建立气候模式”这个课题的主题词,“计算机模拟”和“气候模拟”作为主题词更合题意。

(三)著者途径

著者途径是根据已知信息作者姓名或机构名称来查找信息的途径。因为从事科学技术研究的个人或团体都是各有所专的,同一著者在一定时期内所发表的信息,在内容上常常限于某一学科或专业范围之内,因此能在一定程度上集中同类信息。利用著者途径查找信息的优点是可以满足对个人及团体著者的学术水平进行评价时的信息查找。缺点是著者途径不能满足全面检索某一课题文献的需要。著者途径查找信息的关键是确定著者名称。在著者索引中,姓名通常倒置排列。

如:ArrowB.Smith(阿罗·B.史密斯)著录为:Smith, ArrowB.

同姓名著者,先按名字的首字母顺序排列,不全者排在全者之前,简名排在全名之前。如:

Smith, Amey;

Smith, A.A.;

Smith, Alice Amey。

复姓作者,将复姓作整体看待。如:

Margaret Martin-Smith著录为:Martin-Smith, Margaret。

团体著者也同个人著者一样,按团体单位名称的字序排列。另外以个人姓名命名的公司名称,个人姓名也应倒置。如:

Williams, John W., Co.。

在确定著者姓名的过程中,应该注意的问题是:在著者索引中,有时对同一著者的姓名有不同的表示法。如:

Oppenheim, A.V.116704。

Oppenheim, Alan V.000673。

中国著者姓名问题。国外检索工具对中国著者姓名和团体机构名称的处理是,一般按汉语拼音直接音译(也有使用威妥玛拼音方法的,例如Lee Ming)。如:Shandong Univ山东大学、Li Xiaomin李筱敏。但需要注意的是,外国检索工具一般喜欢将名字缩写,如Li Xiaomin缩写成Li X.M.,并且经常将中国人的名和姓颠倒,如Li Xiaomin弄成Xiaomin Li或Xiaomin L.,甚至Lixiao min或Min lixiao。所以在检索时应将几种名字的写法都试一试,才能够保证课题的查全。

(四)其他途径

包括题名途径、序号途径、分子式途径等。

(1)题名途径。包括书名、刊名和篇名等途径。使用“书名目录”“刊名目录”“会议资料索引”等进行查找。这虽然是一种反映信息外部特征的检索途径,但现在在检索工作中应用非常广泛,是主题途径的一种非常重要的补充手段。

(2)序号途径。序号包括报告号、标准号、专利号、登记号等。使用“报告号索引”“标准号索引”“专利号索引”“登记号索引”等进行查找。

(3)分子式途径。分子式途径是以化学物质的分子式作为检索标识等查找文献的途径。通过“分子式索引”进行查找,是主题途径的一种特殊形式,主要为美国《化学文摘》所用。

二、检索效果的评价

检索效果是指利用检索系统(或工具)开展检索服务时所产生的有效结果。检索效果评价是根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价以进一步完善检索工作的过程。常用的评价指标有:收录范围、查全率、查准率、响应时间、输出形式等,其中主要的指标是查全率和查准率。美国学者克里维顿(C.M.Cleverdon)首次将查全率与查准率作为信息检索系统质量的评价指标。

(一)查全率(Recall Factor,简写为R)

查全率指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。查全率=(检索出的相关信息量/系统中的相关信息总量)×100。例如,要利用某个检索系统查某课题。假设在该系统文献库中共有相关文献总量为40篇,而只检索出来30篇,那么查全率就等于75。

(二)查准率(Precision Factor,简写为P)

查准率指在进行某一检索时,检出的相关文献量与检出文献总量的比率。查准率=(检索出的相关信息量/检索出的信息总量)×100。例如,如果检出的文献总篇数为50篇,经审查确定其中与项目相关的只有40篇,另外10篇与该课题无关,那么这次检索的查准率就等于80。显然,查准率是用来描述系统拒绝不相关文献的能力的指标,有人也称查准率为相关率。

(三)查全率和查准率都有局限性

查全率的局限性主要表现在:它是检索出的相关信息量与存储在检索系统中的全部相关信息量之比,但系统中相关信息量究竟有多少一般是不确知的,只能估计;另外,查全率或多或少具有“假设”的局限性,这种“假设”是指检索出的相关信息对用户具有同等价值,但实际并非如此,对于用户来说,信息的相关程度在某种意义上比它的数量重要得多。

查准率的局限性主要表现在:如果检索结果是题录式而非全文式,由于题录的内容简单,用户很难判断检索到的信息是否与课题密切相关,必须找到该题录的全文,才能正确判断出该信息是否符合检索课题的需要;同时,查准率中所讲的相关信息也具有“假设”的局限性。

(四)影响查全率与查准率的因素

(1)影响查全率的因素主要有:检索策略过于简单,选词和进行逻辑组配不当,检索途径和方法太少,检索时不能全面地描述检索要求等。

(2)影响查准率的因素主要有:选词及词间逻辑关系或匹配规则不当,检索词(或检索式)专指度不够等。

查准率和查全率结合起来,描述了系统的检索成功率。在实际检索中,查全率和查准率往往成反比关系,要想做到查全,将扩大检索范围和放宽检索条件限制,其结果是会把许多不相关的文献检索进来,势必影响查准率。用户应当根据具体信息检索需要,合理调节查全率和查准率,才能保证检索效果。