第一章 信息检索概述
什么是信息检索
广义的信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程;狭义的信息检索则仅指该过程的后半部分,即从信息集合中找出所需信息的过程。
信息检索的基本原理
通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的信息检索系统,并通过一定的手段和方法使存储与检索这两个过程所采用的的特征标识达到一致,以便有效的获得和利用信息源。存储是检索的基础,检索是存储的目的。
信息检索的类型
文献型信息检索:是以文献(包括题录、文摘和全文)为检索对象的检索,凡是查找某一主题、时代、地区、著者、文种的有关文献以及这些文献的出处和收藏处,都属于文献型信息检索。完成文献型信息检索主要借助各种书目型数据库。
数值型信息检索:是以数值或数据为对象的一种检索,包括文献中的某一数据、公式、图表,以及某一物质的化学分子式等,数据检索分为数值型与非数值型。完成数值型信息检索主要借助各种数值数据库和统计数据库。
事实型信息检索:是以某一客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索看,其检索结果主要是客观事实或为说明事实而提供的相关资料。完成事实型信息检索借助指南数据库和全文数据库。
信息检索的3个经典模型
布尔模型(集合论):布尔模型是基于集合理论和布尔代数的一种简单的检索模型。优点在于形式简单、结构简单;不足在于只是判断文献要么相关,要么不相关,无法描述与查询条件部分匹配的情况,可能导致检出的文献过多或过少。
向量空间模型(代数论):向量空间模型通过对检出文献按相似度降序排列的方式来实现文献与查询的部分匹配,结果就是结果集中文献排列顺序比布尔模型得到的结果要合理的多。优点在于标引词加权改进了检索结果;其部分匹配策略运行检出与查询条件接近的文献;余弦公式根据文献与查询之间的相似度对文献进行排序。不足是标引词被认为彼此之间相互独立。
(经典)概率模型(概率论):概率模型试图在一个概率的框架下解决信息检索问题。优点是从理论上讲文献根据他们相关的概率按递减的顺序排列。缺点是需要最初把文献分成相关的集合和不相关的集合;这种方法不考虑标引词在文献中出现的概率;假设标引词相互独立。
指南数据库
是存储有关某些客体(如机构、人物等)的一般指示性描述的一类参考数据库,其主要用途是供用户查询有关某一客体的基本信息或简要情况,包括各种名录数据库、传记数据库。
全文数据库
是存储文献全文或其中的主要部分的源数据库。全文数据库由若干个文库组成,每个库划分为若干个文档,文档由若干个文献构成,文献又细分为若干片断。
书目数据库
是以文档的形式组织起来的、提供书目信息的数据库,包括各种目录、文摘与索引数据库。目前已有许多书目数据库提供全文链接或全文文献的传递服务。
数值数据库与统计数据库
是以自然数值形式表示的、计算机可读的数据集合。数值数据库的结构可以是单元形式也可以是表格形式。
查全率与查准率
查全率是检出文献中合乎需要的文献数量栈数据库中存在的合乎需要的所有文献的比例。查全率高说明相关的记录被检中的比例高。查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例,查准率高说明检出的记录的相关度高。查全率和查准率一般难以两全,呈现反比的关系。
第二章 信息检索的方法与技术
信息检索的方法
布尔逻辑检索、位置检索(邻近检索)、短语检索(精确检索)、截词检索、字段限制检索
信息检索的技巧
分析信息需求、选择合适的检索工具、确定检索字段与检索词、正确构造检索式、及时调整检索策略
短语检索
短语用双引号表示,检索出与双引号中内容完全一致的短语,以提高检索的精度和准度,因此也叫精确检索。
邻近检索
邻近检索又叫位置检索,是用一些特定的算符(位置算符)来表达检索词与检索词之前的顺序和词间距。依据就是文献记录中语词的位置不同,表达的意思可能不同;同一个检索式中语词的位置不同,表达的检索意图也不同。
截词检索
在检索标识中保留相同的部分,用相应的截词符代替可变化部分,根据截词符在检索词中的位置,可分为前截词、中截词和后截词
字段限制检索
将检索范围限制在特定的字段中即字段限制检索。一篇记录中用来表示文献内容特征的字段叫基本索引字段;表达文献外部特征的字段是辅助索引字段。
如何扩大/缩小检索范围
扩大检索范围:使用布尔逻辑“或”连接表达某一概念的同义词、近义词或相关词;减少用布尔逻辑运算符AND连接的最不重要的词;去掉布尔逻辑运算符NOT及其连接的检索词;选用上位词,减少专指度;减少某些限制如文献类型、出版年等等;使用截词检索检索出某些词的单复数形式和一些差异;使用多个检索工具;使用元搜索引擎
缩小检索范围:使用逻辑“与”连接更多的关键词;使用逻辑“非”把不需要查找的关键词排除在外;使用位置限制检索;使用字段限制检索;用短语检索进行精确检索;使用检索工具的进阶功能如二次检索等等;限制查询的范围,如地域,时间,文件类型
第三章 搜索引擎
搜索引擎
搜索引擎是一种web上应用的软件系统,它以一定的策略在web上搜集和发现信息,在对信息进行处理和组织后,为用户提供信息查询服务。
搜索引擎的工作原理
搜索引擎有三个功能模块,包括网页搜集、预处理和查询服务。
首先,搜索引擎通过爬虫程序在网络中收集和发现网页信息并将它们存储到数据库中;
然后,搜索引擎对获取的网页进行关键词的提取,并对重复的网页进行消除。随后通过超链接分析的方式,通过不同网页之间的外链关系计算网页的重要程度从而实现网页的排序。然后再构建正排索引数据库,根据正排索引数据库中的关键词构建倒排索引数据库,实现依据关键词查找文档。
最后,搜索疫情在接受用户提交的查询请求后,检索索引数据库,找到用户所需要的资源并返回给用户,列表显示摘要结果。
搜索引擎的类别
根据信息内容的组织方式,搜索引擎可以划分为目录式搜索引擎和机器人搜索引擎。
目录式搜索引擎是以人工或半自动的方式搜集信息,有搜索引擎的编辑员查看信息后,依据一定的标准对网络资源进行选择、评价,人工形成信息摘要,并将信息置于事先确定的分类框架中而形成的主题目录。优点是信息准确、信息质量较高,有助于全面了解某一主题包含哪些高质量网络资源;缺点是收录网络资源规模有限、维护量大、信息更新不及时,对于专指性强的课题查询效果可能不佳。
机器人搜索引擎不依靠人工发现和甄别信息,是由计算机程序自动在互联网中搜集和发现信息,由索引器为收集到的信息建立索引,由检索器根据用户的查询输入检索索引库并将查询结果返回给用户。优点是信息量大、更新速度快;缺点是返回信息过多、冗余信息较多,用户必须筛选。
根据专业范畴划分,可将搜索引擎划分为综合性搜索引擎和专业性搜索引擎。
综合性搜索引擎涵盖各个学科和生产生活的各个领域,可检索视频、图像多种资源类型,使用对象广泛。
专业性搜索引擎包括收录一个或几个学科资源的搜索引擎;具有专门搜索功能的搜索引擎;面向特定用户的搜索引擎
根据检索功能划分,可将搜索引擎划分为独立搜索引擎和元搜索引擎
独立搜索引擎特点是建立独立的数据库,通常只在该数据库中进行搜索并返回查询结果。
元搜索引擎是多个独立搜索引擎的集合,通过一个统一的用户界面可同时对多个搜索引擎进行检索操作。两者主要区别在于前者拥有独立的网络资源采集标引机制和相应的数据库,后者一般没有独立的数据库,多提供同一链接界面,形成一个由多个具备独立功能的分布式搜索引擎构成的虚拟平台。
根据搜索运营方式划分,可将搜索引擎分为通用搜索引擎和垂直搜索引擎
通用搜索引擎提供综合性的搜索服务,面向所有用户,不特别针对某一行业或领域,具有信息量大,对于特定领域的查询不准确深度不够等问题。
垂直搜索引擎是针对某一个行业某一领域的专业搜索,具有“专、精、深”的特点,是对web中某个特定主题信息的整合,可以满足用户个性化的检索需要。
搜索引擎的选择与评价标准
收录范围:搜索引擎收录的范围是否完备充分,包括学科专业范围、地域范围、语言范围、资源类型范围等等
检索功能:是否有完善的检索手段(既能满足一般用户的浏览检索,又能满足专业用户的专指检索如高级检索和专业检索);是否具有完备的检索功能(如布尔逻辑检索、位置检索、短语检索、截词检索和字段限制检索)
检索效果:包括查准率、查全率,响应速度等等。
对检索结果的处理:检索结果的处理是影响搜索引擎使用效果的重要因素之一。结果的内容组织、排序方式、返回结果描述的详细程度、相关信息的完备程度等等都将影响用户对检索结果的判断。
外链程度:即通过超链接分析对网站进行排序
用户体验:用户体验在搜索引擎评价中的重要性日渐突出,这也体现了搜索引擎的个性化发展趋势。是否可智能化识别用户的检索需求,分析用户检索习惯和使用行为并在检索结果中去除多余信息有针对性地推送检索结果,也是影响搜索引擎用户体验的重要方面。
第四至第六章
词表检索
词表检索就是利用词表来确认、选择规范化主题词,然后在叙词字段中执行检索。
第七章 专类信息的检索
专利
专利是专利权的简称,它是由专利机构依据发明申请所颁发的一种文件。这种文件叙述发明的内容,并且产生一种法律状态,即该获得专利的发明在一般情况下只有得到专利所有人的许可才能利用,专利的保护有时间和地域的限制。
专利的三层含义
专利权:专利权是指国家专利主管机构依据专利法授予申请人的一种实施其发明创造的专有权。
专利技术:指受专利保护的技术发明。专利技术具有新颖性、创造性和实用性三个特点。
专利说明书:专利说明书中记载有发明内容的详细说明和受保护的技术范围,不仅是法律文献,也是技术情报。
专利的类别
发明、实用新型和外观设计
专利信息
专利信息是指以专利文献作为主要内容或以专利文献为依据,经分解、加工、标引、统计、分析、整合和转化等信息化手段处理,并通过各种信息化方式传播而形成的与专利有关的各种信息的总称。专利信息可分为五种信息:技术信息、法律信息、经济信息、著录信息和战略信息。
专利文献
专利文献主要是指实行专利制度的国家及国际专利组织在受理、审批、注册专利过程中产生的官方文件及其出版物的总称(主要包括申请说明书、专利说明书等各类有关文件和专利公报、检索工具和专利分类表等出版物)。
专利文献的类型
一次专利文献:泛指各种类型的专利说明书。
二次专利文献:一般指各工业产权局出版的专利公报、专利文摘出版物和专利索引。
专利分类(按专利文献的技术内容或主题分类)资料:专利分类资料是用于检索专利文献的工具,即专利分类表及分类表索引等。
专利文献的结构
专利说明书是专利文献的主体内容,我国的专利说明书一般由扉页、权利要求书、说明书及附图组成。扉页主要包括发明名称、申请人、申请号、专利代理情况及发明内容的摘要等内容;权利要求书以说明书为依据,是说明发明或实用新型的技术特征,清楚、简要地表述请求专利保护范围的文件;说明书是清楚完整地描述发明创造的技术内容的文件,包括技术领域、背景技术、发明内容等等;附图是用于补充说明书文字部分。
商标
商标是区别商品或服务来源的一种标志,每一个注册商标都是指定用于某一商品或服务上的。
商标信息检索
商标信息检索是指商标注册申请人亲自或委托商标代理人到商标注册机关查询有关商标登记注册情况,以了解自己准备申请的商标是否与他人已经注册或正在注册的商标相同或近似的程序。
商标信息的检索入口
商标权所有者姓名、商标名称、商标注册用商品和服务描述词、国际分类、商标图形要素国际分类等。
商标信息检索的途径
分类检索:即从商标分类表的有关商品或服务类目中查找某行业商标情况。
关键词检索:利用商标申请的相关信息的关键词进行检索,如商品名、注册号、企业名称等途径检索具体的商标
图像检索:通过图像检索商标信息。
商标信息的主要来源
商标主管部门提供的商标信息:各国商标管理机构、国际商标协会
商业性的商标数据库
专门的商标搜索引擎
企业的商标数据库
白色、灰色、黑色文献
白色文献:公开出版发行且具有国际标准刊号或国际标准书号的正式出版物。
灰色文献:不经营利性出版商控制,而由各级政府、科研院所、学术机构、工商业界等所发布的各类印刷版与电子版文献资料。
黑色文献:不对外公开、具有完全保密性质的文献。
学位论文
学位论文是作者在从事科学研究取得创造性结果或有了新的见解后以此为内容撰写而成的、作为申请授予相应的学位时,送交评审用的学术论文。学位论文主要指硕士和博士论文两种。学位论文具有学术性、独创性、新颖性和研究的专深性等特点。
会议文献
会议文献就是在各种会议上宣读和交流的论文、报告、产生的记录和发言、论述、总结等各种形式的文献资料,是国际学术交流的重要组成部分。
会议文献的优点
论点新颖:能反映某学科或专业国内外的最新水平和发展动向
学术性、专业性强:有非常明确的主题、具有极强的专业针对性
及时性:会议论文比期刊的发表更快
连续型:大多数重要的学术会议是连续性的,因而会议论文也呈现连续性。
科技报告
科技报告是围绕某个课题的科技活动所取得的阶段性进展或最终性成果的记录与书面报告,是科研生产活动的第一手资料。它是研究人员交流其研究活动的重要手段,是研究单位向为其提供经费的部门反映研究情况的正式技术文件,以积累、传播和交流为目的,由科研人员按照有关规定和格式撰写,真实而完整反映科研人员所从事科技活动的内容和经验。
科技报告的特点
科技报告的内容比较新颖、详尽、专深、可靠、速度较快。同时大多与政府的研究活动,国防及尖端科技领域有关,因此具有保密性。
第八章 移动搜索
移动搜索
基于移动通信网络,用户利用各种移动终端设备,通过多种接入方式,如短信息服务、无线应用协议等获取web或WAP站点网页内容、移动增值服务内容和本地信息,能够为用户提供随时随地、快速高效与情景感知的个性化信息与服务,满足其信息需求的信息搜索方式。
移动搜索的情景要素
用户情境
时间情境:作息时间和手机使用时间
位置情境:地理位置信息
任务情境:搜索任务
设备情境:使用的搜索设备
移动搜索类型
基于WAP的搜索:WAP是针对移动搜索设计的,通过对网页进行格式转换,从而满足用户的移动搜搜、浏览需求。
基于短信的搜索方式:基于手机或其他支持短消息服务的移动终端的短信搜索引擎服务。通过编辑短信将关键词发送到移动搜索服务提供商地点服务代码,就可以获得搜索结果。
基于APP的搜索方式:垂直类或专业类的APP能够更好的满足用户精细化的搜索需求。
移动搜索特点
用户需求的多变性:移动搜索的用户需求增多并且大多数为即时性需求,其信息需求的持续时间较短且紧急,往往随着具体的移动搜索情境不断变化。
输入方式多样性:文本输入、语音输入、拍照输入,用户交互更加多样。
便捷性:自由度更大,移动搜索终端设备体积小、易携带、自由便利,并且WIFI的普及使用户随时随地获取信息不受时间地点限制。
实时性:根据当前搜索的地点时间等能够随时调整搜索结果
本地化:GPS技术的发展,移动搜索服务根据用户的位置信息,用户习惯等为用户提供针对性的本地化的信息。
精准性:移动搜索技术更加注重使用的简约化和查询的时效性,具备更强的自然语言分析能力,提供更精准的搜索结果。
搜索情境的多样化:移动搜索使用户能够在不同情境中随时随地搜索。
移动搜索工具
按照搜索的专业范围:综合性搜索工具和垂直性搜索工具
综合性搜索引擎内容涵盖各个学科和生产生活各个领域,检索多种类型资源,适用对象广泛。
垂直性搜索工具针对专业特定的领域或行业的内容进行专业和深入的分析挖掘,精确分类,信息定位更精准的专业搜索。具有“专,精,深”的特点。
按照搜索的内容划分,基于文本的搜索、多媒体的搜索、APP搜索、基于位置的搜索
基于文本的搜索工具是指搜索内容以文字为主的网络搜索工具
多媒体搜索工具是伴随移动搜索出现的搜索工具之一,在社交应用中十分广泛。
APP搜索工具是移动设备多样化的前提和基础。APP数量巨大,需要APP搜索和推荐系统。
基于位置的搜索是用户根据当前的位置信息搜索更多位置信息
移动搜索工具评价
一般搜索引擎的评价:略...(收录范围、检索功能、检索效果、用户体验性、外链程度、检索结果的展示等等)
可访问性:在移动终端是否可访问,支持哪些移动终端设备,访问的速度和方便性,灵活性。
结果的可用性:移动搜索工具对搜索结果的筛选和判断能力
用户体验性:包括对用户地理位置信息的感知能力和获取信息的成本。
移动搜搜未来发展趋势
人机互动、人工智能
基于位置的、社交化的搜索服务(路线导航、精准推荐等等)
定制化、个性化、垂直化
跨屏搜索和跨设备搜索:搜索的时间从早到晚,并且不同时段采用的设备不同
搜索数据的云服务:服务发展在云平台上,减少设备管理成本;实现多终端的的信息同步;数据安全
视觉搜索:对图像的局部特征进行搜索。
第九章 网络信息检索与利用中的有关问题
网络信息选择与评价的原因
信息数量庞杂而无序:网络信息范围广;网络信息类型多样;信息污染严重
信息的不稳定性强:处于变动之中,内容可靠性相对低。
网络安全存在隐患:计算机病毒
网络信息选择与评价的主体
用户:从使用的感受,涉及功能、设计,内容等。
专家:参照一定的标准
第三方:借助特定工具
网络信息选择与评价的客体
网站:直接统计(访问量等等技术角度)、间接评价(相关权威的推荐;对网站的评价)
网络信息内容:参考网络信息内容的评价标准,定性方法为主
网站信息的评价标准
网站性能的评价标准:网址,形式,稳定性,浏览与检索功能,编排设计,链接,传输速度
网站内容的评价(网站信息评估最重要的指标):
权威性:发布者
客观性:引用注明出处;描述客观
独特性:信息内容与形式有无特色
时效性:时效性
有序性:如何组织分类
交互性:在线帮助、反馈
费用
写作质量
网络信息安全
第十章 信息检索的主要应用
参考这篇博客:https://blog.csdn.net/weixin_62588253/article/details/128115667?spm=1001.2014.3001.5502
如有遗漏欢迎补充!