您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > wordsmith-中文-说明
I.WordSmithTools简介:WordSmithTools是一个在Window下运行的用来观测文字在文本中的表现的功能强大的综合软件包。它共包含Concord(语境共现检索工具)、WordList(词频列表检索工具)、KeyWords(关键词检索工具)、Splitter(文本分割工具)、TextConverter(文本替换工具)、Viewer(文本浏览工具)等六个程序,其中前面三个程序是主要的文本检索工具,后面三个程序属于辅助性工具。这六个程序的各项设置由一个叫WordSmithToolsController(文字匠工具控制器)的程序来控制。II.各个工具的操作和主要功能介绍:1.Concord1)基本操作过程:在WordSmithToolsController窗口中选择Tools选项。当该选项打开,你就会看到Concord。单击它,Concord的窗口将打开。按下按钮,将出现一个对话框,选择将进行语境共现检索的文本文件。确定一个检索词或短语。如果要改变设置,按Horizonsetc按钮,对缺省的设置值进行修改。按StartConcordance按钮,检索开始。窗口上出现检索进行的状态条。检索结束,结果显示在Concord的窗口。如果要保留语境共现检索的结果,按按钮存盘。2)主要的功能:语境共现(Concordance):语境共现(Concordance)的窗口显示:语境共现(Concordance)的窗口包括六个纵列,例如:A.N列:显示检索项的数目。B.Concordance列:显示语境共现检索的结果。C.Set列:在这一列,用户可以使用任何字母对条目进行分类。例如,如果你想对检索词的动词和名词用法进行归类,你可以键入字母V或N。要清除键入的字母,按0(零)。D.Tag列:显示最接近的标记符号。E.WordNo.列:显示检索词在文本中的位置。例如,上面例子中条目1的检索词good是文本的2,265个单词。F.File列:显示源文本的文件名。G.%列:以百分比的形式显示检索词在文本中的位置。要想得到有关语境共现检索的结果的更多的信息,按下面的按钮:按按钮,可增加语境共现检索的结果每行的显示量,按按钮,可减少语境共现检索的结果每行的显示量。按()按钮,可启动文本浏览工具(Viewer),对源文本进行查看。按按钮,可查看检索词在规定的语境范围内的搭配词的情况。例如,下图是在上例中检索词good在左右各五个词的语境范围内的搭配词的情况。从图中可以知道,搭配词very共出现29次,其中在good的左边26次,右边3次,而在左边的26次中有23次是作为左边的第一个单词出现。按()按钮,可打开检索词分布图窗口。检索词分布图窗口显示的内容如下:File源文本文件名Words源文本文件中单词的数目Hits找到的检索词的数目per1,000每千字检索词的数目Plot检索词分布图显示检索词在文本中出现的位置按按钮,Concord将检索语境共现检索的结果中的句子,找出重复出现的字串(wordclusters)。字串的大小的推荐值一般为2—4个字,最低出现率为3个。例如:按()按钮,打开用词类型(Patterns)窗口,显示临近检索词的单词的统计资料。这些单词按出现频率的高低从高到低排列。例如:取消检索词按空格键或选择窗口View选项中的Blankedout,语境共现检索的结果中的检索词将被一行星号代替。要恢复检索词,重复一次前面的操作。对语境共现检索的结果重新排序语境共现检索进行时,检索的结果是以语境在文本中的出现顺序排列的。当语境共现检索一完成,它就会以当时的缺省设置进行重新排序。如果不想重新排序,将缺省值设定在File,File位置。语境共现检索的结果重新排序有以下几种方式:A.根据检索词的左或右的某个位置的单词进行排序。B.根据检索词本身进行排序。C.如果有语境词,可根据语境词进行排序。D.根据最近的标码符号进行排序。E.根据与最近的标码符号的距离进行排序。F.根据用户自己的分类进行排序。G.根据在文本中的出现顺序排序。语境共现检索结果的重新排序,可以根据三重标准同时进行。这三重标准分别在MainSort,thenby,finallyby三个对话框中设定。另外,重新排序时,可以设置区分或不区分大小写,按升序还是降序排列,既可以将所有的检索项重新排序,也可以设定将一定范围内的检索项重新排序。保存和打印语境共现检索结果可以将语境共现检索的结果保存为文本文件或是可以在Concord再打开的文件。按下F3或选择File的Print选项,将打印语境共现检索的结果。3)参数设置:检索词(searchword):A.检索词可以是一个单词,一个短语或是一个包含许多检索词的文本文件。B.按照缺省设置,Concord进行的是不区分大小写的整词检索。格式如下:检索词结果bookBookorbookorBoOkbookbook,books,booking,booked*booktextbook(butnottextbooks)bo*inbookin,booksin,bookingin(butnotbookinto)book*hotelbookahotel,bookthehotel,bookmyhotelbo*in*bookin,booksin,bookingin,bookintobook?book,books,book;book.book^book,booksb^^kbook,back,bank,etc.==book==book(butnotBOOKorBook)book/paperbackbookorpaperback符号意义例子*代表多个任意字符book*?代表单个任意字符(包括标点符号)Engl???^代表单个任意字母Fr^nc^==区分大小写==French====Fr*==:\表示一个可包含多达500个检索词的文本文件(参看帮助中的file-basedsearchwords)c:\text\frd.txt/分隔多个检索词。你可以选择多达15个检索词,但字符的总数不能超过80。may/can/will如果要使用*,?,==,^,:\or/作为检索词中的一个字符,要将这些符号放到双引号内,例如:*Why?and/or:\语境词(contextword):A.为了限制语境共现的检索,可以指定一个语境词在检索词的规定的语境范围内出现或不出现。B.语境词的输入格式与检索词的相同,只有一个不同的符号~。~表示该词在规定的语境范围内不出现。例如:当searchword是book而contextword是hotel*时,Concord将只会找到hotelorhotels出现在其语境范围内的book。当searchword是book而contextword是~paper*时,Concord将只会找到paperorpapers不出现在其语境范围内的book。语境范围(horizons):语境范围设置限定在语境共现中检索词的左右两边各可以出现多少个单词。最高值是左右两边各可出现25个单词。检索项的数目(entrieswanted):语境共现中检索项的数目的最大值可达16,368行。但用户可以在Controller的AdjustSettings|Concord选项中对检索项的数目自行定义,还可以设定Concord对检索项进行随机抽取。搭配词(collocate):搭配词的最短长度为一个字母,最低出现频率为一次。但是在语境共现中出现一两次的搭配词是不能说明什么问题的。用户可以在Controller的AdjustSettings|Concord选项中对搭配词的最短长度和最低出现频率自行定义。2.Wordlist1)基本操作过程:在WordSmithToolsController窗口中选择Tools选项。当该选项打开,你就会看到WordList。单击它,WordList的窗口将打开。按下按钮,将出现一个对话框,选择一个或多个文本文件。按Makeawordlistnow按钮,检索开始。窗口上出现检索进行的状态条。检索结束,WordList出现三个窗口显示检索结果。这三个窗口分别显示以字母为序的词频列表,以频率为序的词频列表以及综合统计数据。如果要保留词频列表的结果,按按钮存盘。2)主要的功能:创建词频列表(wordlists):词频列表(wordlists)的窗口显示:以字母为序的词频列表的窗口(部分)显示如下:以频率为序的词频列表的窗口(部分)显示如下:综合统计数据的窗口(部分)显示如下:创建单词索引列表(indexlists):单词索引列表的作用是记录所有单词在文本中的位置,以便了解每个词在文本的那一部分出现。另一作用是加快对列表中单词的检索处理,例如,如果选择列表中一个或多个单词,按下按钮,就会得到快速的语境共现检索的结果。另外,在单词索引列表中,还可以计算单词与那些词搭配以及与搭配词的相关值(“MutualInformation”scores)建立单词索引列表打开Controller,选择AdjustSettings|Indexing选项,进行以下的设置:A.确定单词索引列表的路径和文件名。B.激活Actitated对话框。C.激活Fileordertoo对话框(非必选)。D.选择出现多少次的高频词要被删除。E.按OK按钮。打开WordList,选择菜单Index的NewIndex选项,指定要进行操作的文本文件,再选择Index的NewIndex选项。检索结束,将在指定的路径生成三个扩展名分别是*.wdx,*.xfo,和*.xal的文件。浏览建立的单词索引列表:打开WordList,选择菜单Index的AlphabeticalList选项或FileOrderList选项。选定要打开的单词索引列表文件,就可以浏览建立的单词索引列表。例如:计算相关值(mutualinformation):A.要计算相关值,单词索引列表必须是在激活了“FileOrdertoo”复选框的情况下建立的。B.选择菜单Index的AlphabeticalList选项,打开建立的单词索引列表。C.按按钮,选择要计算相关值的词条,然后按按钮。如果没有选择任何词条,按按钮将计算单词索引列表的所有词条的相关值。例如,在上图中,词条answer在文本的最常见的搭词是know,它们的相关值4.48。词频列表的批处理用户可以一次选择多个文本进行词频列表的创建。例如,选择10个文本同时进行词频列表,既可以得出一个基于10个文本的大的词频列表,也可以得出十个分别基于10个文本的的词频列表。字串的词频列表:词频列表不必一定以单词为单位,也可以以2-8个单词的字串为单位创建词频列表。选择WordList主菜单的Settings|Min.&Max.Frequencies选项,激活复选框,选择字串的大小,就可以进行字串的词频列表。对词频列表的编辑:合并词条到同一词类(Lemmatisation):例如,你可以将属于不同类型(type)的词条want;wants;wanting;wanted合并到同一词类(lemma)want中。手动合并:A.使用F5选定要合并的词条,第一个被选定的词条将成为词类(lemma)的名称(head)。B.使用F4可将所有选定的词条合并。基于文件的合并:建立一个将属于同一词类的不同类型(type)的词分组归类的文本文件(例如,be-was,is,were,am,arego-goes,going,went,gone)。按按钮,WordList将根据文本文件的分类为标准对当前词频列表的所有词条进行词类(lemma)合并。词类(lemma)合并结束后,按按钮,将显示重新计算的综合数据。词频列表的排序:按按纽或F6,可对词频列表重新排序。选择正确的语言:许多语言有自己特殊的字母排列顺序,所以在排序或重新排序之前,应检查是否在语言选项选择了正确的语言。另外,在缺省值中,某些语言中的带重读符
本文标题:wordsmith-中文-说明
链接地址:https://www.777doc.com/doc-6287678 .html