您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 公司方案 > 信息组织第4章主题法
第4章信息组织技术方法——主题法5.1主题法的沿革主题法是以自然语言中的名词术语作为标识符号,并依据这些标识符号的语义和字顺,编排和组织文献信息资源建立各种查询工具和检索系统。主题法的基本要素:词语标识、语义脉络、字顺系统主题法的两种涵义:指一种用语词标识处理文献信息资源,组织主题检索工具或检索系统的方法指主题检索语言(主题标引语言)主题检索语言的演变标题语言单元词语言;叙词语言关键词语言标题法早期类型的主题检索语言开始:1856年,英国Crestadoro发表《图书馆的编目技术》形成:1895年出版的《美国图书馆学会标题表》和1911年诞生的《美国国会图书馆标题表》标题法:以“标题”表达文献内容主题,“标题”最初取自篇名,逐渐发展到取自文献的主题内容。叙词法新型的后组式主题检索语言与单元词出现同期,美国穆尔斯(C.N.Mooers)创造是对单元词语言的直接继承,但克服了单元词语言的不足,吸收并综合了多种标引语言的原理和方法,是能结合计算机使用的后组式语言,是目前主要的受控语言。叙词法3.1.2叙词描述语言(1)叙词语言的前身——单元词语言(2)叙词语言的原理(3)叙词表主题标引实例叙词法概念组配与字面组配在形式上有时相同,有时不同;而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。例如:字面组配概念组配模拟+控制--模拟控制模拟+控制--模拟控制河北+梆子-河北梆子河北地方剧+梆子-河北梆子香蕉+苹果--香蕉苹果香蕉味食品+苹果--香蕉苹果叙词法在以上第一例中,无论是字面组配还是概念组配,其结果都是“模拟控制”,第二例“河北”和“梆子”,如果用“河北”检索则范围太广泛,用“河北地方剧”更符合检索要求;第三例中,根据字面组配原理,“香蕉”和“苹果”组配是“香蕉苹果”,而概念组配的结果应是指“一种香蕉和苹果杂交的品种”,而这样的品种目前是不存在的。所谓“香蕉苹果”只能是一种有香蕉味的苹果,因此,根据概念组配原理,这个概念应当用“香蕉味的食品”和“苹果”两个词组配,才符合概念逻辑。叙词法吸收:以分面组配语言的概念组配代替单元词语言的字面组配适当采用标题语言的先组式采用标题语言和单元词语言对语词的严格控制采用并完善标题语言的参照系统采用体系分类语言的原理编制叙词分类索引和等级索引采用关键词语言的轮排方法,编制叙词轮排索引叙词法优点:概念组配准确,标引能力强结构完备,词汇控制严格适合多途径检索,检索效率高对检索系统的适应性强缺点:叙词表编制和管理难度较大利用叙词语言标引和检索较复杂,使信息报道速度相对较慢叙词法我国目前使用最广的《中国分类主题词表》(前身是《汉语主题词表》)就是属于叙词法,有电子版和印刷版两种形式。《中国分类主题词表》是分类主题一体化的词表,与《中图法》相互对应,这对文献信息的组织和检索十分方便。可以看出,各个主题词及其之间的关系是严格控制的,从而构成一个严密的语义网络,为建立高效的文献信息检索系统提供了保证。《中国分类主题词表》实例叙词法下面是它的主题词款目片段:funan主题词的汉语拼音呋喃主题词Efuran主题词英译名O626.11《中图法》类号D氧茂同义词S氧杂环化合物上位概念F四氢呋喃下位概念呋喃甲醇呋喃甲醛呋喃酮呋喃西林Z杂环化合物族首词C呋喃并喹啉生物碱相关词关键词法自然语言形式的情报检索语言随计算机出现,为适应索引编制自动化的需要产生直接以自然语言中未经控制或只作少量控制的语词为文献主题标识,通过关键词轮排方法揭示文献主题。关键词表简单,不必设参照,使用禁用词表。关键词法关键词是指出现在文献标题(篇名、章节名)、文摘、正文中,对表征文献主题内容具有实质意义的语词,亦即对揭示和描述文献主题内容是重要的、关键性的(可作为检索“入口”的)那些语词。它与标题词语言、叙词语言同属主题法系统。但是,标题词语言、叙词语言使用的都是经规范化的自然语言,而关键词语言基本上不作规范化处理。例如,“国际联机检索概论”中的“国际联机”、“联机”、“检索”都是能描述这篇文献的主题的,可以作为检索词。关键词法关键词是从文献题目或文摘、正文中提取出来的具有实质意义,能代表文献主题内容的词汇。它与叙词的区别在于非规范化,是自然语言。其优点是便于计算机检索系统的应用,能准确检索到许多新概念方面的文献;缺点是因为关键词是作者自己选定的,词的形式不同,拼法不同或各近义词、同义词等容易造成文献分散在各不同关键词之中,不能集中。例如:异博定、异博停、维拉帕米是同一种药物的不同名称,均可作为关键词,若仅选一个关键词检索,就会漏掉另二个词的文献。关键词法优点:直接源于自然词汇,专指性优于其它主题语言标引无需查表,简便易行,节省人力及时更新词汇,报道信息快适于计算机自动抽词标引,标引一致性高、标引深度大关键词法缺点:词语不规范,不能显示词间的等同关系、等级关系和相关关系,查全率、查准率相对较低5.2国内外主题语言应用实例叙词语言的语义关系特性,是通过叙词表体现的。国内用叙词语言编制的叙词表已有七、八十种之多。最常用的有,《汉语主题词表》、《化工汉语主题词表》、《机械工程主题词表》、《电子技术汉语主题词表》、《国防科学技术叙词表》等。常见的国外叙词表有,《INSPEC叙词表》、《工程索引叙词表》、《工程与科学叙词表》等。下面以《汉语主题词表》为例,说明其词表结构和功能。《汉语主题词表》1975年,中国情报所、北京图书馆、国防科工委情报所、电子科技情报所、六二八所、机械科技情报所等单位组建全国1048个单位、7519人参加的《汉语主题词表》研究编辑工作,是全国汉学信息处理系统工程(简称748工程)的组成部分,目的是建立全国统一的联机情报检索网络。该主题词表是中国第一部大型综合性检索工具书,全书包括主表、附表、词族索引、范畴表、英汉对照索引等、共分3卷10个分册。其收词范围之广、编辑技术之先进、结构体系之严谨,当时是国内外一流的。该成果获1985年国家科技进步二等奖。主题法的历史可以追溯到我国古代“用韵以统字,用字以系事”的类书。但目前大多数被承认的主题法的早期典型是1876年科特创制的标题法,此后,美国于1909年至1914年出版的《国会图书馆标题表》,使得标题语言在国际上有了较大的发展。进入20世纪60年代,为了适应计算机处理信息的需要,大量的叙词表问世。现在全世界有各种叙词表千余种,较著名的有《美国国会航空航天局叙词表》、《分面叙词表》、《医学主题词表(MeSH)》等。在我国,20世纪三、四十年代,已有少数主题词表问世,但都没有得到实际的应用。主题法在我国大规模的编制和应用始于20世纪70年代。1971年《航空科技资料主题词表》第二版被改造成为我国的第一部叙词表。此后,其它一些主题词表陆续出版。尤其是1979年出版的《汉语主题词表》,不仅成为世界上最大规模的叙词表,而且为后来我国叙词语言的发展做了人才和理论准备。目前已编制和正在编制的专业主题词表已达七、八十部之多。他们是时代的产物,反映了信息高层次整合和检索的需求,是主题检索发展的客观规律的具体体现。主题检索弥补分类检索的不足,在我国信息检索中初露端倪。到了21世纪,为了适应计算机组织和检索文献信息的需要,主题法已向自然语言标引和检索以及分类主题一体化方向发展。主题法在网络信息组织中的运用主题组织采用概念组配的方式,以最能反映学科领域的核心词汇为基础,揭示与标引信息记录,使不同主题需要的用户能够找到所需信息。此外,由于主题标识大多是学科核心词汇,便于检全关于某一事物各个方面的信息,如查找某一细小专深的主题、交叉学科的复杂主题或新主题等,便于进行计算机网络化检索,实现资源共享。再加上主题组织的直接性,其语词标识基本上是独立完整的事物概念,可以满足特性检索的要求;因此,主题标引技术广泛应用于各类存取系统,尤其是期刊与计算机存取系统。目前世界上几乎所有的计算机信息存取系统都采用了主题词作为检索标识,特别是当前主题组织越来越多地应用于网络信息存取,尤其是关键词法存取越来越受到人们的青睐。主题法在网络信息组织中的运用主题法在网络信息组织中的应用现状主题法在网络信息组织中的使用主要表现为两种方式,一是使用现有词表(叙词表、标题表)组织网络信息。目前,使用现有词表组织网络信息的还不多,主要是美国《国会图书馆标题法》(LCSH)和《医学标题表》(MeSH)被一些网络信息检索系统采用。采用LCSH的系统有:CyberHoundExpertSearch,ElectronicJournalSubjectIndex等。采用MeSH的系统有:CliniWebBrowse,AlphabeticalListofNLMSections等。主题法在网络信息组织中的运用二是广泛采用关键词法。关键词法是将信息原来所用的能描述其主题概念的关键词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法。由于关键词法具有种种优点,关键词的抽取可以完全自动化,因此关键词检索在网络中的应用相当广泛。目前,大部分搜索引擎的索引数据库几乎都采用关键词法进行信息组织。关键词法作为信息组织的标识,在标引时不必查表、选词,标引速度快、成本低,特别适合网络信息的特点。网络信息最主要的特点就是数量庞杂而且增长迅速。使用关键词法可以降低信息标引的成本,提高标引工作的效率。关键词法不依赖专职标引人员,可由作者或机器自动标引。现在搜索引擎一般用“蜘蛛”去完成标引工作,就是利用了关键词法的这一优点,不存在人为性和滞后性。采用关键词法,能够及时地应用最新的提法以及最新的词汇,不会像其它情报检索语言那样要依靠词表来对语词选择和规范,而词表的制定和修改是需要一个过程的,这样就不可避免的带来滞后性。同时关键词法可以采用自动标引的方式,不会产生人工标引那种“仁者见仁,智者见智”的局面。这也就是关键词法在网络信息组织中得到广泛应用的主要原因。主题法在网络信息组织中的运用3.3.1网络索引机器人(1)网络索引机器人定义:(2)网络索引机器人工作原理3.3.2网络搜索引擎(1)网络搜索引擎定义:(2)建立搜索引擎的关键技术搜索引擎搜索引擎起源于1990年加拿大麦吉尔大学(UniversityofMcGill)计算机学院的师生开发出的Archie。当时,万维网(WorldWideWeb)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分布在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。它虽然和现代的搜索引擎不同,但原理是相同的,所以Archie是搜索引擎的鼻祖。搜索引擎实际是一个根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。1995年,一种新的搜索引擎形式出现了———元搜索引擎(MetaSearchEngine)。与传统搜索引擎的不同之处在于,它是通过一个操作平台,聚集并调用一批独立搜索引擎同时进行搜索的检索工具。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。应该说元搜索引擎是个非常好的概念,但搜索效果还不理想,所以没有哪个元搜索引擎有过强势地位,普及程度不理想。GOOGEL简介Google()是一个搜索引擎,由两个斯坦福大学博士生LarryPage与SergeyBrin于1998年9月发明,GoogleInc.于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,Google已经获得30多项业界大奖。GOOGLE的成功得益于其
本文标题:信息组织第4章主题法
链接地址:https://www.777doc.com/doc-7230112 .html