您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 咨询培训 > UAMCorpusToolManual-20-Chinese
汉译:刘晓晗LiuXiaohan1UAMCorpusTool版本2.0用户手册(2008年9月)MickO’Donnellmichael.odonnell@uam.es(TranslatedbyLiuXiaohan)汉译:刘晓晗LiuXiaohan2目录第一节:关于UAMCorpusTool第二节:项目的创建1创建一个新的项目2添加层系(layer)3添加文件以供分析4加入文件的操作4.1改变文件元数据4.2浏览文件的常规统计信息4.3从语料库中撤出文件4.4打开标注窗口5退出CorpusTool6继续已有项目第三节:制定标注体系1打开体系编辑器2编辑体系3添加“注释”到特征4选项菜单5生成图像到文件或网页第四节:文件标注1标注类型2标注整体文档文件3标注分节文件3.1生成、移动并选定节(切分段)3.2忽略节4标注图像文件5“其它按钮”菜单第五节:语料库查询1简介2指定查询式3检索式搜索4启动查询式5修改查询式6搜索结果界面第六节:自动标注1简介第七节:语料库统计1简介2对比特征研究3研究操作4解释结果:特征研究5展示结果为网络式6保存统计数据第八节:文本样式器汉译:刘晓晗LiuXiaohan31文本的样式2打开文本样式器3文本样式化4样式文本的保存附录一:导入SystemicCoder研究结果附录二:查询式搜索中的词汇特征汉译:刘晓晗LiuXiaohan4第一节:关于第一节:关于第一节:关于第一节:关于UAMCorpusTool1简介UAMCorpusTool是文本和图像语言标注的工具集,其核心内容包括:用户制定一个“项目”,即一组文档,和应用于每一文档的分析规则。每一类“分析规则”可视为标注的“层系”。CorpusTool现在有两种类型的标注。1.整体文档标注整体文档标注整体文档标注整体文档标注:文档(文本或图像)的整体特征标注。例如,这些特征可以表明该文档的语域(语场、语旨、语式)或文本类型。2.切分段标注切分段标注切分段标注切分段标注:用户选择文件中的节,并分别赋予特征。节可通过鼠标在文本/图像中拖动指定,同时提示用户指定该节的特征值。后续版本将添加其他标注类型,可以是修辞结构理论(RST),体裁结构(GSP),参与者链条(participantchaining),句子结构(比如主语、谓语、情态、附加语adjunct等),口语数据标注等等。UAMCorpusTool取代作者之前的SystemicCoder软件仅能在单一层系上对单个文档标注。UAMCorpusTool是为了克服Coder用户诸多限制的一个尝试。我希望感谢广大Coder用户近年来作出的评论和本新软件的评论。参见附录一讲SystemicCoder研究结果导入CorpusTool。CorpusTool相关在:访问该网站以指导CorpusTool在电脑中的安装。汉译:刘晓晗LiuXiaohan5第二节:项目的创建第二节:项目的创建第二节:项目的创建第二节:项目的创建1创建一个新的项目1.1打开CorpusToolUAMCorpusTool在电脑中安装后即可工作。首先要创建一个新的“项目”:Windows:安装CorpusTool时可选择放置图标到桌面。点击此图标启动CorpusTool。另外,在开始菜单中的程序菜单含有UAMCorpusTool图标。选择以启动CorpusTool。Macintosh:CorpusTool安装在应用文件夹中,双击以启动CorpusTool。也将该应用程序置于Dock方便使用。(在已创建项目后,可双击项目文件夹中的.cptr文件打开。该文件图标如下:MacOSX:Windows:启动窗口窗口应如图2.1所示。所使用软件版本号在窗口中显示(在交流缺陷时有用)。窗口提供的选项有“创建新项目”或“打开项目”继续已创建的项目。如果电脑之前打开过某一项目,此项目也会出现在按钮上。图2.1启动窗口汉译:刘晓晗LiuXiaohan61.2点击“创建新项目”按钮点击此按钮后,用户被询问标注“文本”还是“图像”。CorpusTool可标注纯文本和图像(但不能在同一项目中同时标注两者)。选择其中之一后,会出现一个“创建项目向导”,做必要的步骤引导。1.为新项目提供名称2.指定新项目存储的文件夹。比如电脑的桌面文件夹3.文本文件:用户将被问及是否向项目添加文本文件夹。文件夹中应是纯文本文件,扩展名都是.txt。此文件夹将被复制于项目文件夹中的语料库文件夹中。也可跳过此步以后添加。点击“完成”按钮后CorpusTool就创建了项目,该文件夹中含有与项目相关的所有细节,包括语料库、标注文件和一个直接启动该项目的图标(.cptr文件)。一旦完成“创建项目向导”,CorpusTool主窗口就会打开,出现“项目管理面板”。参见图2.2。利用此面板可控制项目的细节,比如增添文件和分析类型。图2.2项目管理面板面板上部的按钮可在CorpusTool不同面板间切换:搜索(第五节)、自动标注(第六节,只针对文本标注)、统计(第七节)和帮助。现在我们选中的是项目面板。顶部的大字显示的是项目名称。下面显示何种分析(层系)使用于项目。最初为空。“层系”往下的区域显示项目中的所有文件(最初为空),每一文件旁都有可能用到的分析按钮。我们首先来给项目添加一个层系。2添加层系(layer)汉译:刘晓晗LiuXiaohan7建立新项目后首先要确定所需何种分析。我们来开始添加一个层系。1.点击“添加层系”按钮“层系”是对文本文件的一种分析类型。添加的层系可以标注小句、集合、整个文本的语域、评价系统分析等。点击“添加层系”按钮后即有窗口弹出,询问几个问题,用“下一步”按钮在问题间切换:层系名称:层系的名称。输入“语域”。标注对象:在这里指定是将文本作为整体赋值(如语域、文本类型)(文档标注),还是文本中的切分段赋值(如小句)。这里我们假定对前者感兴趣,选择“文档标注”。标注体系:标注体系是对文本标注的特征描述。有如下两个选择:i.创建新体系:用户多数情况下关注于制定自己标注体系,展示所感兴趣的特征,并进行组织。CorpusTool提供简便界面来创建和修改这些体系(参见第三节)。ii.复制已有体系:有时用户可以再次使用自己或别人以前开发的体系。CorpusTool预装了几套体系供使用,其中有PeterWhite的评价网络和基于Granger的错误标注体系。作为帮助文件,我们这里选择“创建新体系”。再点击“完成”按钮,新的层级即可添加到项目窗口。图2.3展示添加一个层级后的项目窗口。层级区域提供层级的信息:名称(语域)、类型(文档标注)和与层级相关的体系名(语域.xml)。层级控制面板上有两个按钮:删除:删除层级和该层级在文本中的所有分析。一般在层级标注之前使用该按钮,否则将真正删除次层级。编辑:点击打开窗口以编辑标注体系。下节中会详述。汉译:刘晓晗LiuXiaohan8图2.3已添加层级的项目窗口选择“导入层级”用以添加SystemicCoder中的层级(.cd3文件)。详述于附录一。3添加文件以供分析下一步是向项目中添加文件。如果在项目创建时已经指定文本文件到项目中,在项目窗口的文件面板中就能显示出来。现在假定此项工作尚未进行,这样文件面板如图2.3所示为空。3.1扩充语料库添加文件到语料库:1.点击“扩充语料库”按钮:“向导”会一路引领添加文件。添加文件可以是单独文件,也可是一个文本文件夹。2.若选择添加单个文件,既可以将其添至已有的子语料库(项目语料库文件夹中一个文件夹),也可以添至新的子语料库(此时需提供新文件夹名称)。若选择添加文件夹,待磁盘特定文件夹指定后,被复制至项目下的语料库文件夹。3.文件或文件夹指定后点击下一步和完成按钮。文件将显示于文件面板中(见图2.4)。新加文件有标示“文件在语料库中但未加入项目”。CorpusTool区分“已加入已加入已加入已加入”文件,即带有所有可标注按钮,和“未加未加未加未加入入入入”文件,即存于语料库但尚未供标注使用。这种区分可以容易地跟踪已开始编辑的文件,和那些将来再编辑的文件区别开来。假如语料库中有100个文件,但只标注了5个,这5个标注的文件能清晰显示。语料库逐步扩充虽然需要较长时间,但结果在每一阶段都能获得。汉译:刘晓晗LiuXiaohan9图2.4扩展语料后的项目窗口3.2加入文件加入文件到项目中,使其能够标注,则点击文件旁边的“加入加入加入加入”按钮。确定语言、编码和显示字体语言、编码和显示字体语言、编码和显示字体语言、编码和显示字体:在加入文件时窗口中会询问关于文件的某些元数据(参见图2.5)。包括:语言语言语言语言:文本的书写语言是什么?本项可确定文档的语言资源,包括词汇(供检索查询、词汇密度计算)、分析器(供自动切分)和赋码。英语是现在唯一支持的语言,其他语言的词汇资源将后续提供。编码编码编码编码:文本文件由特定文本编码所储存。选择此项告知CorpusTool文件所用编码。CorpusTool提供的缺省选项仅为猜测,若文本不能正确显示应当修改。为获得文档编码,可尝试右击文件,选择“打开方式”(或MacOSX相应选项),用MSWord打开,可帮助选择最佳编码。否则,在“打开方式”中选择Firefox,在“视图”子菜单下选则“字符编码”,看是采用的何种编码。显示字体显示字体显示字体显示字体:从此项选择字库和字号,将文本显示于标注窗口。有些字体最好由非西方书写体系处理,如一些字体是为显示中文而设等。但许多现代字体应能显示任何的书写体系。汉译:刘晓晗LiuXiaohan10图2.5文件元信息窗口加入两个文件后,项目窗口如图2.6所示。注意这两个文件出现在顶部。图2.6加入文件后的项目窗口汉译:刘晓晗LiuXiaohan113.3“撤销文件”的其他选项“撤销文件”的其他选项有:信息信息信息信息:提供文本文件的一些统计信息,词数,句数,平均句长等。英文文件还有词汇密度测量,代词使用的一些描述(见下)。删除删除删除删除:从语料库中移去文件。同样从项目下的语料库文件夹中删除文件。文件名文件名文件名文件名:点击文件名显示整个文件。4“加入文件”按钮(操作)文件添加后,对每个层系都有相应按钮。在本样例项目中,我们现在为止只定义了“语域”,所以加入的文件只有一个按钮。随着其他层级添加,相应按钮也会出现。4.1更改文件元数据(仅针对文本标注)我们上面看到当“加入”文件时,需随即确定其语言、编码和显示字体。这些选项的更改可随时通过选择文件相关联的“按钮”菜单中的“更改文件元数据”来实现。4.2浏览文件一般统计信息(仅针对文本标注)每个文本文件的一般统计信息可通过选择每行按钮菜单下的“浏览基本文本统计”观看。所提供的基本文本信息不不不不依赖于文件的任何标注(参见图2.7),包括有:文本的词数平均词长文本句数(在欧洲语言下)平均句长的词数(同样在欧洲语言下)图2.7文件的信息窗口汉译:刘晓晗LiuXiaohan12对于英文英文英文英文文本,信息还有:词汇密度词汇密度词汇密度词汇密度:平均每句中的开放词类数,或整个文本的%开放词类项。代词指称密度代词指称密度代词指称密度代词指称密度:第一、二、三人称代词使用的详情,以整个文本为参照的百分比。注意:随着其他语言词汇的加入,其语言的相关统计也将会提供。4.3从语料库撤销文件“撤销”按钮将文件从研究中移除。警告:该文件以往的标注会被删除。文本文件会放入“未加入”列表,可以后再加入(但完全没有标注)。4.4打开标注窗口每行其他按钮各对应项目中一个标注层级。点击打开文本在此指定层级的标注窗口。按钮颜色:文档每层级的按钮有颜色标示,显示完成程度。白色:全部标注浅蓝:部分标注深蓝:较高程度标注注意这些颜色仅起提示作用。5退出CorpusTool注意所有项目改动都是自动保存的。如果退出项目管理窗口(点击右上角X),即可退出CorpusTool,改动全部保存。6继续某项目项目创建后,打开CorpusToo
本文标题:UAMCorpusToolManual-20-Chinese
链接地址:https://www.777doc.com/doc-5647510 .html