您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > Chinese Word Sketch Engine操作手册
ChineseWordSketchEngine操作手冊1.網址登入13.檢索首頁檢索關鍵詞或詞組的語料對語料庫的進階處理檢索詞彙的進階相關訊息其他相關訊息與使用說明24.檢索關鍵詞或詞組(Concordance)的語料點選NewQuery後進入以下頁面:4.1上方選項點選上方Home、Concordance、WordSketch、Thesaurus、Sketch-Diff等五選項,可連結至主頁(Home)與其他檢索功能頁面。4.2語料庫(Corpus)選單此下拉選單提供繁體字版與簡體字版語料,以及次語料庫檢索設定選項:(1)設定gigaword2_cna,可查詢繁體字版的CNA中央通訊社語料。(2)設定gigaword2_xin,可查詢繁體字版的XIN新華社語料。(3)設定gigaword2_zbn,可查詢繁體字版的ZBN新加坡聯合早報語料。(4)設定sinica,可查詢繁體字版的中央研究院平衡語料庫5.0版語料。如果已經建有其他次級語料庫,次語料庫的名稱亦會出現在下拉選單中。4.3關鍵詞(Keyword(s))設定可輸入單一詞彙(word),含二個或二個緊鄰詞彙的詞組(phrase),或者以語料庫檢索語言(CorpusQueryLanguage(CQL))來設定檢索的關鍵項目。(1)詞組(Phrase)設定每個詞彙之間應空一個半形空白間隔,例如:「覺得說」、「我想你」、「一般認為,這是」等等。(2)詞彙(word)可輸入所要查詢的關鍵詞彙。例如:「覺得」、「想」、「認為」。(3)語料庫檢索語言(CorpusQueryLanguage(CQL))3設定細則請參看語料庫檢索語言說明:語境(Context)設定本項目提供使用者進一步設定關鍵詞前後搭配的詞語環境。使用者可以檢索到非緊鄰的詞彙搭配語料。4.4.1檢索類型(QueryType)下拉選單中提供三種進階設定方式:(1)All(oftheseitems):擷取同時包含以下欄位中關鍵詞左、右二詞彙的語料。(2)Any(oftheseitems):擷取含以下欄位中關鍵詞左側或右詞彙之一的語料。(3)None(oftheseitems):過濾掉同時含以下欄位中關鍵詞左、右二詞彙的語料。4.4.2設定與關鍵詞的距離(WindowSize)下拉選單中提供1到10個詞(token)的設定方式。預設值為5,表示在和關鍵詞距離5個詞彙之內的範圍。範例一:欲檢索含「逮捕」的語料。可如下設定:範例二:欲檢索含「連…都」的語料。若如下設定:4在關鍵詞(keyword(s))的wordform中輸入「連」,在語境(Context)的QueryType中設定All,在右側語境(Rightcontext)中輸入「都」,在右側語境,距離範圍(WindowSize)中設定5個詞長。則表示:「擷取關鍵詞「連」右側五個詞的範圍內,出現「都」的語料。」5範例三:檢索「以」,且欲過濾掉「不…以…為」的語料,若如下設定:在關鍵詞(keyword(s))的wordform輸入「以」在QueryType中設定None,在語境(Context)的左側語境(Leftcontext)中輸入「不」,在右側語境(Rightcontext)中輸入「為」,在左側語境,距離範圍(WindowSize)中設定3個詞長,在右側語境,距離範圍(WindowSize)中設定10個詞長。則表示:「擷取「以」的語料,但刪除關鍵詞「以」左側三個詞的範圍內,出現「不」,或右側十個詞的範圍內,出現「為」的語料。」65關鍵詞(組)(Concordance)語料檢索結果頁面操作以檢索「逮捕」為例,關鍵詞或詞組(Concordance)語料檢索結果頁面可能如下:5.1左上方第一排五選項點選上方Home、Concordance、WordSketch、Thesaurus、Sketch-Diff等五選項,可連結至主頁(Home)與其他檢索功能頁面。5.2右上方訊息右上方藍色方框內,顯示檢索的語料庫(例如,為chinese_giga_trad),以及檢索所得關鍵詞(組)的總筆數,(如,共有73213筆「逮捕」語料)。5.3左上方第二排選項:KWIC/sentence提供檢索結果顯示的不同選擇,預設值為「以關鍵詞為中心」(keywordincontext(kwic))的排列方式,呈現檢索結果。如上5中之圖所示。點選「KWIC/sentence」,可切換至以整句的方式呈現檢索結果。5.4左上方第二排選項:顯示選項(ViewOptions)提供其他檢索結果顯示的選擇。點選此項,將會出現另一頁面,提供使用者更改結果顯示的設定,包括:75.4.1標記(Attributes)提供「詞」(word)與「標記」(tag)二種可複選的顯示選項。在此二選項下可進一步設定所有詞彙(Foreachtoken)或者只有關鍵詞(KWICtokensonly)才顯示前述選項。預設值未點選「標記」(tag),則語料呈現時不顯示詞類標記。例如:今天下午被高雄市警察局三民分局逮捕,晚間移送法辦。可更改設定選項,如:(1)若點選「詞」(word)、「標記」(tag),以及「只顯示關鍵詞標記」(KWICtokensonly),則會顯示關鍵詞的詞類標記。例如:今天下午被高雄市警察局三民分局逮捕/VC31,晚間移送法辦。(2)若點選「詞」(word)、「標記」(tag),以及「顯示每個詞的標記」(Foreachtoken),則會顯示句中所有詞彙的詞類標記。例如:高雄市/Nca警察局/Ncb三民/Nc分局/Ncb逮捕/VC31,/COMMACATEGORY晚間/Ndc移送法辦/VB125.4.2結構(Structures)結構(Structures)欄提供標記開頭()與結尾(/)的結構顯示,如:(1)標題(headline),例如:headline大陸主要城市天氣預報/headline8(2)時間(dateline),例如:dateline(中央社紐約二日專電)/dateline(3)文本(text),例如:text針對中共政權迫害知識份子與逮捕劉曉波,翁山蘇姬目前已被緬甸軍事執政當局逮捕。/text(4)段落(paragraph),例如:p警方表示,逮捕過程中並未如外傳發生槍戰事件。,今天下午被高雄市警察局三民分局逮捕,晚間移送法辦。/p(5)檔案(doc)例如:,並報以熱烈掌聲。/docdoc美警方逮捕十三名涉及綁架大陸人民(中央社紐約5.4.3參考資料(References)參考資料(References)顯示在結果頁面的左方,以藍色字體呈現,預設值為該語料出現的檔案代號(doc.id),如CNA19910102.0196。除檔案代號(doc.id)外,參考資料(References)欄提供語料來源的相關訊息顯示設定,如檔案類型(doc.type),以及檔案來源(doc.src)等等。5.4.4頁面長度(PageSize)頁面長度(Pagesize)欄位,提供自由的(行數numberoflines)設定,預設值為每頁顯示二十行,但亦可設定成每頁顯示十行或者五百行。(每頁顯示行數越多,檢索速度可能越慢。)5.5左上方第二排選項:樣本(Sample)樣本(Sample)功能,提供從多量結果語料中,隨機擷取少量語料的功能。例如,「逮捕」共有73213筆,可點選樣本(Sample)鍵,在「樣本行數」(Numberoflinesinthesample)中設定250或者500等,隨機抽取250筆或500筆語料,進行觀察與分析。5.6左上方第二排選項:過濾(Filter)過濾(Filter)提供多重過濾功能。可設定「擷取」(positive)或者「過濾」(negative),搭配詞語(Selectedtoken)出現在關鍵詞之前(first)或之後(last)。搜尋範距(SearchSpan)亦可自由設定。可輸入與關鍵詞搭配的詞組(phrase)或者詞(word)等目標檢索項目。亦可以語料庫檢索語言(CorpusQueryLanguage(CQL))檢索。例如,若如下設定:9則表示從「逮捕」73213筆中抽取在關鍵詞「逮捕」左側5個詞的範圍內,出現「警方」的語料。則會出現含「警方…..逮捕」的語料2595筆。若再如下設定:10則表示從含「警方…..逮捕」的語料2595筆中,再抽取在關鍵詞「逮捕」右側5個詞的範圍內,出現「嫌犯」的語料。點選「FilterConcordance」後則會出現含「警方…..逮捕….嫌犯」的資料245筆。115.7左上方第二排選項:排序(Sort)可利用排序(Sort)左方三鍵,,簡便設定「依關鍵詞左邊」、「依關鍵詞」、「依關鍵詞右邊」的詞首排序。亦可點選排序(Sort)鍵進階設定排序條件。可依照詞類排序,可設定排序詞數,並可做多重排序選項的設定。5.8頻率(Frequency)提供二種相關頻率訊息的設定:(1)多層頻率分佈(Multilevelfrequencydistribution)設定提供關鍵詞在語料庫中的詞類分佈,與前後詞語搭配的頻率等。例如檢索關鍵詞「花」,進入「頻率」(Frequency)設定頁面,點選「關鍵詞詞類」(Nodetags)鍵,或者在「多層頻率分佈」(Multilevelfrequencydistribution)第一層,屬性(Attribute)下拉選單中選「詞類」(tag),位置(Position)關鍵節點(node),設定如下:即可得到「花」以下的詞類分佈訊息:12(2)文類頻率分佈(TextTypefrequencydistribution)設定提供檢索的關鍵詞(組)在文本檔案中分佈的頻率訊息,例如檢索關鍵詞「花」,點選「檔案類型」(doc.type),則可得出如下「花」在不同文類中出現的分佈訊息:135.9共現訊息(Collocation)提供與關鍵詞(組)所搭配詞彙的相關共現訊息,包含T-score、MI、MI3、loglikelihood、min.sensitivity,以及sailence等值的設定。5.10關鍵詞(組)(Concordance)結果頁面的設定欲檢視其他關鍵詞(組)(Concordance)結果頁面,可在「頁數」(page)欄位中指定欲檢視的頁數,按「前往」(go)鍵,或者點選「下一頁」(next)、「最後一頁」(last)、「第一頁」(first),以及「前一頁」(previous)等鍵移動頁面。5.11察看某行關鍵詞(組)(Concordance)結果點選結果頁面中紅色關鍵詞(組),例如點選第一行「逮捕」,會在頁面下方顯示更多的語境,如下:14並且點選「擴展左側」(expandleft)鍵,或「擴展右側」(expandleft)鍵,可以繼續擴展左側或右側語境。欲知某一筆語料的文本來源訊息,可點選結果頁面左側藍色字體有關文件檔案訊息的部分,例如在以上檢索「逮捕」的頁面中,點選第一行語料左側的CNA19910101.0146,則會在頁面下方,顯示檔案代號(doc.id)、檔案類型(doc.type),以及檔案來源(doc.src)等訊息如下:156建立次級語料庫(Creatingasubcorpus)如果您想檢索某個語料庫的一部份,(例如繁體字版的gigaword2,只想檢索story類型的文本),可在檢索主網頁中,(或者點選「首頁」(Home)鍵,回到主頁面),再點選「建立次級語料庫」(Createsubcorpus),在以下視窗中點選,並輸入該次級語料庫的名稱即可。16如欲檢索該次級語料庫,可在檢索頁面的「語料庫」(Corpus)下拉選單中,選取該語料庫,進行檢索。如欲刪除該次級語料庫,可在檢索首頁中(點選「首頁」(Home)鍵,回到主頁面),點選「刪除
本文标题:Chinese Word Sketch Engine操作手册
链接地址:https://www.777doc.com/doc-4504585 .html