您好,欢迎访问三七文档
当前位置:首页 > 法律文献 > 理论/案例 > 语料检索的速成教程:AntConc生鲜入门
《语料检索的速成教程:AntConc生鲜入门》作者:李亮(广东外语外贸大学词典学中心)2012年8月27日Email:492130980@qq.com【步骤1】AntConc这款免费软件,诞生于2002年4月16日(当时是1.0版),到2012年8月就刚好10年4个月了,适合处理不超过200MB的英语语料,因为当你处理200MB的txt文件的时候,要占用1GB的物理内存呢,而100万英语单词的“中国英语学习者语料库”(CLEC库)才6.6MB,足够处理30个“CLEC库”了,也就是3千万单词的英语语料库;作者是长年居住在日本早稻田大学的英国俊男(1970年出生),本科是物理专业,硕博士阶段就转向语言学了,读博期间开发了针对博士论文的AntConc;【步骤2】AntConc有七大功能,你一看(下面截图的7个菜单项目)就眩晕的话,不妨听我打一些比方;整体上说,一个所谓的语料库检索软件,就是来计算“3大关系”:(1)一大堆的文章到底有多少单词?(2)这些单词的两侧经常有哪些单词?(3)同一个词在这一大堆文章中的出现频率,是否跟在另一大堆文章中的出现频率有显著差异?【步骤3】无论你是学英语或是教英语的人士,你都是一个社会普通成员,必然有自己的人际交往圈子,也必然有擦肩而过的身边人,擦肩而过的人也许跟你认识就打个招呼,也许跟你不认识,所以就算你打招呼,对方也只能难堪地笑笑或盯着你;一个人,其实跟书本上的单词,跟生活中的单词挺相似的境遇,都是接触面挺宽,亲密人并不多;【步骤4】AntConc就像一个私家侦探,你随时可以抓来一大堆英语文章,把这些文章中的熟悉单词和陌生单词都做个“清单”和“谱系图”和“交际分析”;【步骤5】AntConc的7大菜单,其实相当于在回答这7大问题:擦肩而过的身边人有哪些?(Concordance)左右两侧距人群边缘多远?(ConcordancePlot)百米以内的身边人有哪些?(FileView)经常擦肩的身边人有哪些?(Clusters)固定交往的身边人有哪些?(Collocates)生活独立的成年人有多少?(WordList)多处兼职的身边人有哪些?(KeywordList)【步骤6】诚然,打比方只是一种“切入”,到底有多么确切,也见仁见智;下图是在阿富汗与巴基斯坦边境地区被小培养为恐怖分子的三个小男孩,他们怀抱的是“AK47”(诞生于1947年,是苏联人研制的稳定耐用的优秀的自动步枪);而“AK47”在整体上虽然你应该把它看作一个单词,但是,AntConc的默认状态却是只认“AK”呢!【步骤7】我们当前所处的时代是“2010s”,根据维基百科,它意味着2010年1月1日到2019年12月31日之间的整整10年,我是“70后(70s)”,你也是“70s”或者“60s”或“80s”啦,“Weare70s”这三个词,AntConc会告诉你“它”只看到“Weares”这三个词,它这么抬高“s”这个后缀字母的地位,你也许极为不赞成,但这就是AntConc的默认状态!【步骤8】2012是一部关于全球毁灭的灾难电影,讲述在2012年世界末日到来时,主人公以及世界各国人民挣扎求生的经历,当你用AntConc来计算“2012isagoodfilm”这个句子有多少个单词,AntConc会告诉你“只有4个单词”,因为它在默认状态下会对“独立连续的数字串或依附于其他英语字母的连续数字串”视而不见!这也就解释了上面的“AK”与“47”发生脱离的问题;【步骤9】英语中有挺多的系动词或助动词或情态动词所构成的否定表达的缩略形式,例如isnot变成了isn't呀,arenot变成了aren't呀,wasnot变wasn't呀,hasnot变hasn't呀,willnot变won't呀,wouldnot变wouldn't呀,shallnot变shan't呀,donot变don't呀,didnot变didn't呀,oughtnot变oughtn't呀;反正,单引号都代表着“被省略的字母o”;这些“中间有单引号兼省略号的否定合成词”你让AntConc来计算“单词个数”,它会默认把它们进行“强拆”,把“单引号”当作空格呢,所以“didn't”就变成了“didn”和“t”,而“isn't”变成了“isn”和“t”,而“don't”变成了“don”和“t”,天啦,“don”可也是一个独立的单词呢,意思是“校长”或“黑帮老大”!【步骤10】英语中也有“Ph.d.”或“a.m.”或“o'clock”或“etc.”这类单词,其他中间或单词尾部带“省略符号”的词也频频露面;AntConc也都把“省略符号”当作“词与词的国境线”而把它们强拆开;【步骤11】上面这些“AntConc的默认状态的异常现象”的根源,并非AntConc的“缺陷”,而是英语实在是太复杂了,“一条规则”总是夹杂着“多条意外规则”,到底是“漏过居多”抑或是“误抓居多”也跟个人的具体需求有很大关系,你瞧AntConc的默认的对单词的识别规则是“纯粹字母的连续体”呢!……一旦遇到一个并非字母的符号就被当作“前一个单词与后一个单词的分界线”了【步骤12】上面都是在回答“生活独立的成年人有多少?”,这是“单词”与“成年人”之间的比喻;这个问题影响深远,你在使用不同的语料检索软件的时候,它们的单词计算结果不一致,搭配词计数不一致,统计检验值不一致,语块生成列表不一致,应该就是从“什么是独立且完整的单词”而缘起的!【步骤13】像你我这样的普通成年人,每天在生活中遇到的人分为3大类:视而不见类,点头之交类,促膝谈心类。视而不见类,是陌生人,他们的生活跟你的生活只是擦肩而过,或恰好乘坐同一辆公交车去另一个地方;点头之交类,是“形式上的熟人”,礼尚往来仅限于“点头”;促膝谈心类,可以上门求教或送礼或拉家常;英语中的单词与其他单词之间也恰好是这三类关系呢!一个单词总是有很多的单词相伴左右,都是偶然的,纯属“路过”;一个单词也总是有不太多的单词是它的“点头之交”,也许哪天真的变成“促膝之交”了呢;一个单词到底有多少的促膝之交,跟这个单词本身的是否经常“出门”有重大关系,也跟这个单词的“先天素质”有重大关系;【步骤14】AntConc这个软件的巨大优势在于,它能高速地在“单词的海洋”或“人潮汹涌”中找到你的“百米以内者、擦肩而过者、经常擦肩者、固定交往者”,这四类从左到右是“从疏远到亲密”呀!英语中的“百米以内者”是“上下文语境中的更多单词”,“擦肩而过者”是“偶然在一起的若干单词”,而“经常擦肩者”是“习惯表达”或“固定短语”,而“固定交往者”就是“搭配”或“习语”啦!【步骤15】从“语言学是一门先进的科学”的角度来说,“语料库”就像一个“试管”或“森林公园”或“饲养场”,把大量的野生动物汇集到了一起,你可以随时观察,它们也不会溜掉或逃逸,你可以测量它们的各种特征,也可以把它们三五成群地组成一个新的观察视角,甚至可以在它们身上安装监控跟踪器,哪怕漆黑的夜里你也知道它身处何处!所以,在一个“库”或“栅栏内”的语料们,总是有“围墙”的,某个单词距离围墙有多远,这就是AntConc试图回答的“左右两侧距人群边缘有多远?”,这就是把整个语料文件当作一个饲养场,每个单词都相当于在一个有一定长度的直线上的某个位置!(语料软件把一个语料文件进行扫描,总是从第一个词到最后一个词,总共100个词的话,你是第50个词,就正好在一个直线的正中央呢。【步骤16】有了“库”,就像有了一个微型的虚拟城市;每个词,都有了多个活动空间或活动场所或多重身份;你会看到一个人在家是丈夫,在医院是病人,在商店是顾客,在学校是学生,在公司是领导,但是,哪种身份才是“更本质”呢?回答这个问题,一则要看你是怎么定义“本质”的,二则要看你期望得到什么样的答案,三则要看你用什么手段或工具来衡量,四则要看你是否给不同的测量以不同的权重(重视程度);回到英语单词,你会发现日常词汇往往也能出现在专业领域,浅显单词也能出现在深奥文章,童年言辞也容易变为成人用语;进一步回到语料库语言学来说,这叫做“词汇在不同语料库之间的对比及其显著性”;这样的对比能发现某个单词在客场作战的时候是否真的是客场的“重要人物”!【步骤17】很多人一拿到AntConc就急于看结果,其实AntConc跟大部分软件一样,要从菜单“文件”的“打开”一个文件而开始的;否则,一个软件怎么知道你要处理“谁”或“哪个文件”呢,它自动推测的话,岂不乱了套!【步骤18】选了一个文件,它就躺在“语料文件列表(CorpusFiles)”了;你可以一次选择多个文件到这个列表(如下图),也可以多次选取来不断添加到这个列表;【步骤19】上面两个图的右侧的图片的“9.txt”是用鼠标点了一下,就变成了天蓝色的“选中状态”,你就可以把它从列表中“踢掉”了,同样是点“File”菜单……【步骤20】上面的第1个图的“CloseFile”就是踢掉当前选中的某个文件,第2个图的“CloseAllFiles”就是踢掉当前列表的所有文件,而“OpenDir”就是把一个文件夹的所有txt文件都自动添加到当前的文件列表中,而不用你逐个选择,Dir是Directory是“目录”是“文件夹”的意思;【步骤21】一旦选择好了一个或多个你准备进行分析的文件,输入一个词(组),就可以点“Start”这个按钮来进行“Concordance”了!【步骤22】Concordance就是找“某个词(组)”的“擦肩而过的身边人有哪些?”说白了,就是看“左右两侧的10个词左右的范围的语境”,中央是天蓝色或其他的耀眼颜色凸现的“搜索词(组)”,“hit(命中)”就是“找到了一个”,而“KWIC”是KeyWordInContext的缩写,就是方便你集中地观察每个含有“搜索目标”的“局部文本”;【步骤23】你现在知道了“点一个按钮,就能找到很多实例”了,下一步就往往是肉眼观察,但是,你看到的结果只是按照在原文中出现的先后顺序而呈现,所以不利于你观察左右两侧的相同搭配词的相互对比,例如:【步骤24】所以,你需要点一下“排序”按钮;但是,排序总要有“标准”呀,而AntConc的默认标准是“右侧第一个词最优先,其次是右侧第二个词,再次是右侧第三个词”【步骤25】AntConc的默认状态是“通吃大小写”,无论你输入“a”或“A”,它就找来所有的“a”和“A”,这叫做“大小写不敏感”;你瞧“AIDS”和“aids”就很不一样嘛;China和china是只有一个字母的大小写差别却是“专用名词与普通名词的差异性”;【步骤26】在“搜索输入框”的右侧,还有一个“Advanced”按钮,当你需要对多个词进行先后检索却不希望多次输入而希望一次输入就看到多次检索的结果的话,你就点它;这“高级”按钮就两个功能,另一个功能是“准ConcGram”,就是一个句子或段落同时含有多个“搜索词”但不要求这些搜索词的先后出现顺序;上面两个截图的上半部就是“多次同时做”,下半部就是“多词同时有”,哈哈,我这么概括,太生动了!要特别注意的是,你输完单词,一定要勾上上面右侧截图中的一个或两个箭头所指向的小勾勾哟,否则“设置等于无效,是不执行”的!同时,你做ConcGram的时候,一定要设置一个“左右范围”如下图(6L就是左侧6个词,6R就是右侧6个词),下面的第2个图是“准ConcGram”在AntConc中必须设置的某个“中心词”【步骤27】点了“Apply”而让设置确认之后,回到主界面,点“Start”按钮,稍等,就会看到……上面就是以“is”为中心为蓝色凸显,而同时在左右两侧6个词范围内,必须同时有the和to这两个词的检索效果!而“标准的ConcGram检索”可以限定在一定的单词连续出现的范围有若干个搜索词,最后把这些搜索词都染成不同颜色而凸显!ConcGram是个有点复杂的概念,看看下面的标准的ConcGram吧……上图,是“what”和“call”这两个词的ConcGram;下图,是“we”和“facing”和“challenges”这三个词的ConcGram;可见,
本文标题:语料检索的速成教程:AntConc生鲜入门
链接地址:https://www.777doc.com/doc-4429965 .html