您好,欢迎访问三七文档
当前位置:首页 > 办公文档 > 会议纪要 > 电脑辅助推荐学术会议论文评审委员之初探
電腦輔助推薦學術會議論文評審委員之初探陳禹勳劉昭麟國立政治大學資訊科學系{g9418,chaolin}@cs.nccu.edu.tw摘要會議論文評審委員由會議議程主席指派,目的在分配適當且數量平均的論文給評審委員,以求審核論文的公正性與正確性。本研究以系統化的方法讓機器輔助人工,達到避免個人的主觀因素及節省人力的目標,並利用文件分類技術以及Google學術搜尋提供的資訊,建構協助議程主席指派論文的環境。我們依照一般學術會議論文的小節結構,將論文切成數個區段,藉由整合論文不同區段的特性,期望得到一個較佳的指派結果。關鍵詞:文件分類、向量空間模型,社群網路1.緒論投稿學術研討會的論文審核時程,以國內會議人工智慧與應用研討會[1](TaiwanAssociationforArtificialIntelligence)為例,由2004、2006及2007這三年的研討會網頁得知,從截稿日期至通知接受日期,大約需要一個月以上的時間。主要考量在於議程主席指派待審論文給評審委員,以及評審委員研讀待審論文所花的時間。指派論文給評審委員,需要知道評審委員的研究領域與待審論文的研究領域是否相近。由於論文評審委員的領域有所不同,甚至有跨領域的研究,因此待審論文對評審委員的分配不容易決定。通常議程主席對於各教授的領域只有大略的了解,指派評審是從該教授的著作來決定,因此在面對不熟領域的教授著作時,常需要花費大量的時間與精力。加上各領域教授人數眾多,在眾多的議程委員中選取論文評審委員變得窒礙難行。Peterson[15]的研究指出,由於閱讀論文相當費時,因此研究生及學者閱讀論文時通常不是看全篇論文,而是挑出摘要、簡介、結論及參考文獻區段來看。摘要區段透露比較多論文主題及應用技術的訊息;簡介區段則是大致說明此論文的研究動機、研究背景以及架構流程;結論區段敘述此研究的研究成果,由實驗結果印證研究方法並提出相關研究方向;參考文獻區段提供一個相關領域的查詢。因此本研究認為對論文的指派,可以細分成各區段的相似度比對,再將其結果整合,使得建議評審委員的正確性較高。引用共同的參考文獻強烈暗示著領域相近。各種不同領域的論文,不容易引用到同一篇論文。參考文獻區段的相似度比對上,我們採取參考文獻標題以及參考文獻作者比對作為相似度的考量。參考文獻的部分含有許多的資訊,包含作者、論文名稱、出處及年份。我們應用Google學術搜尋及正規表示式取出參考文獻的標題以及作者,藉由找出待審論文及各評審委員著作的共同引用參考文獻數或作者數,作為參考文獻區段建議評審委員的根據。對於摘要、簡介及結論區段,本研究採用向量空間模型來做相似度比對。向量空間模型[17](VectorSpaceModel)是文件分類的重要技術,我們希望應用文件分類的技術,來輔助議程主席指派論文。文件分類是根據文件內容或主題給定類別的工作,以往文件分類的研究,都是對整篇文件去取出特徵,接著藉由某些分類方法去作分類。文件分類的特徵大多是找出關鍵詞,也就是這篇文章中具有鑒別度的詞。顧皓光等[8]在1997年提出網路文件自動分類的方法,採用向量空間模型去對Yahoo內部資料庫的網頁進行分類。由於網路文件資料量相當的大,在大量資料的情形下,向量空間模型可以分出相當不錯的結果。然而在資訊不夠充足的情形下,向量空間模型分類的效果會變的非常的差,錢炳全等[7]在2002年提出中文試題自動分類方法,試圖對簡短的試題作分類。在系統自動學習試題的情形下,資訊量越來越多,而分類效果也隨之改善。駱思安等[6]則是在2006年提出一個以機率為主的中文網站分類系統,此系統可自動學習詞彙來改善分類效果。Dow等[10]在2007年利用DSpace[11]建立了一個論文的查詢網站,不但可從查詢的關鍵詞推薦相關的論文,並提供與查詢的關鍵詞相關的關鍵詞、領域及相關的教授,同時也提供各教授論文領域的分布,使用者可以更容易找出要查詢的資料。專利文件的自動分類是向量空間模型在文件分類上的另一種應用。為了避免侵犯智慧財產權,專利文件寫法上較為格式化且嚴謹,也因此專利文件的篇幅通常相當巨大。專利文件通常分成數個段落,分別是標題、摘要、專利權利範圍、專利技術描述以及總結。Larkey等[18]建立一個專利文獻的查詢與分類系統,藉由抽取出不同段落及計算詞彙的重要性來分類專利文件。李駿翔等[4]則是嘗試著將標題跟不同段落的分類結果整合,發現標題結合總結與標題結合專利技術描述的分類效果最好。林蘭綺等[5]則是應用標題加上總結段落部分,利用詞彙的不同權重來提高分類效果。本研究介紹順序如下:第二節描述系統架構、第三節說明研究方法、第四節為實驗結果以及第五節為結論。2.系統架構此節介紹本研究的整體流程以及所需要的資料及來源出處。待審論文摘要簡介結論參考文獻文件段落切割利用字典檔轉換成向量參考文獻標題及作者簡介向量結論向量摘要向量各段落處理利用正規表示式跟Google學術搜尋資料庫論文集文件相似度比對建議評審摘要建議評審簡介建議評審結論建議評審參考文獻建議評審建議評審合併圖1、系統架構流程圖2.1系統流程本研究推薦中文論文評審委員,研究流程如圖1所示。將待審論文切成各個文件區段,使用向量空間模型等方法,進行待審論文各區段與資料庫論文集各區段的相似度比對。再藉由最相似論文來找出該區段的評審委員,最後整合各區段建議評審委員結果,得出待審論文的建議論文評審委員。2.2資料來源本研究為了處理的方便,論文一律從PDF檔轉為文字檔,檔案轉換工具是使用AcrobatProfessional版裡的批次處理功能來進行轉換,從PDF檔轉為文字檔的成功率約略為74.85%。這些論文的資料來源,除了從網路上下載,還有選自於人工智慧與應用研討會2002年、2003年、2004年及2005年論文集的論文以及全國計算機會議(NationalComputerSymposium)2001年、2003年及2005年論文集論文共1089篇。測試資料則是選自2007年的人工智慧與應用研討會論文集,共71篇論文。中文文件分詞的部分,本研究採取使用字典檔分詞的作法,以HowNet[13]辭典作為基礎來處理中文分詞。由於HowNet辭典是收納一般生活常用的中文詞彙,未必能對論文作精確的分詞,因此我們從九二八電腦股份有限公司[2]的網站,收集了兩岸三地較常見的電腦詞彙字庫,刪除重複詞,分別加入到現有詞庫中。詞庫共有總數量五萬一千多個詞,我們發現五萬一千多個詞中,只有八千多個詞彙出現在訓練資料論文過。因此,我們將沒出現過的四萬多個詞彙刪除,對剩下這八千多個詞彙依照詞的長度作分類,分成二字詞、三字詞與四字詞等,建立出一個較精簡的字典檔作為中文分詞的依據。3.研究方法本節描述處理論文區段的方法及流程。一般來說論文可分成數個區段,分別是摘要、簡介、研究方法、實驗結果及結論等等。研究方法與實驗結果區段描述研究過程,用詞以解釋清楚為目的,站在文件分類關鍵詞為特徵的角度來看,文件關鍵詞應具有代表性而非只是詞頻高,而這兩個區段的詞彙多為描述研究過程,作為關鍵詞較為不適當。摘要、簡介及結論等區段常精簡的描述研究,很有機會出現重要的關鍵字。因此不同於一般文件分類研究以一篇文章作為分類的基本單位,本研究把論文的各個區段切出,分別是摘要、簡介、結論和參考文獻區段,藉由整合各區段的相似度比對結果來改善分類效果。3.1取出論文區段的方法一篇論文的各個區段往往都有特別的詞作為開頭,因此本研究利用每段區段的開頭詞來做分區段的依據。我們採取一列列讀取每篇論文文件的做法,以便找出各區段的開頭詞。由於從PDF檔轉為文字檔的成功率約略為七成多,轉檔時可能會有文字的錯誤,因此會有區段取出不完整的情形。不同的論文會有不同的區段開頭詞敘述法,因此我們建立一個區段開頭詞的相關用語表,如表1所示。摘要區段通常位於文章前段,以「摘要相關用語」為摘要區段的開頭詞,而摘要區段後面通常是接關鍵字段落,因此取「關鍵字相關用語」為摘要區段結尾。本研究取以「摘要相關用語」作為開頭的一行到以「關鍵字相關用語」作為開頭的一行之間這段文字作為摘要區段。表1、各區段開頭詞相關用語表摘要摘要關鍵字關鍵字、關鍵詞簡介緒論、概論、簡介與相關研究、前言及研究背景、前言、背景動機、序論、簡介、研究背景與動機、研究動機與目的、研究動機、引言、背景與理論基礎、研究背景、介紹、導論、背景、緒言、緣由與目的結論結論、結語、討論、啟示、建議、未來發展方向、未來發展、未來研究方向、未來研究、未來工作、未來展望、未來後續工作、後續研究建議、後續研究、研究成果參考文獻參考文獻、參考資料系統架構系統架構、系統運作流程、設計架構、系統架構與方法、系統架構與規劃相關研究相關研究、相關文獻、文獻探討、理論背景與文獻探討、研究目的、背景與相關研究、相關文獻探討、背景知識與相關研究、相關研究背景說明、相關工作、相關文獻研究研究方法研究方法簡介區段多位於摘要和關鍵字區段後面,簡介區段便以「簡介相關用語」作為開頭,簡介的結尾卻是難以認定,我們觀察數篇論文的簡介開頭詞,發現一般論文中簡介開頭詞的寫作方式可大致分為兩類:用數字、英文字或羅馬符號對開頭詞標號無任何標號對於有標號的簡介開頭詞,我們建立一個對應表去對應標號跟數字間的關係,如此可得知簡介區段是標號在第幾段落,再推出簡介區段的下一區段是標號在第幾段落,便可找到簡介區段的結尾詞,進而切出簡介區段。表2是標號跟數字的對應表。表2、標號數字對應表阿拉伯數字標號123456789中文數字標號一二三四五六七八九中文國字大寫標號壹貳叁肆伍陸柒捌玖羅馬標號ⅠⅡⅢⅣⅤⅥⅦⅧⅨ若今天簡介開頭詞標號是Ⅰ,那麼下一段落的開頭詞標號就會是Ⅱ,可由此開頭詞標號切出簡介段落。其他開頭詞標號作法亦同。若簡介開頭詞無標號,本研究觀察簡介區段的下一區段通常是系統架構、相關研究或研究方法區段,因此藉由這三個區段的開頭相關用語來找出簡介區段的結尾,進而取出簡介區段。結論區段多位於論文的後段,後面通常是接參考文獻區段,因此取以「結論相關用語」為開頭詞的一行到以「參考文獻相關用語」為開頭詞的一行之間的段落作為結論區段。參考文獻區段則是取以「參考文獻相關用語」為開頭詞的一行到文章結尾的段落。3.2摘要、簡介及結論區段處理在論文切出的區段之中,由於參考文獻區段可細分出參考文獻作者及參考文獻標題,因此參考文獻區段我們額外處理,其他區段則一致使用向量空間模型做相似度比對。要將文章轉成向量,首先要將所有的文章去做分詞的動作,我們便可以得知各個詞彙在每篇文章中出現的次數,再利用資料檢索的tf-idf(termfrequency-inverteddocumentfrequency)[16]技術,計算出每個詞彙的tf-idf值。tf-idf的計算法是資訊檢索以及文件探勘等相關領域中相當重要的公式,是由每個詞彙的tf值(termfrequency)和idf值(inversedocumentfrequency)所相乘所得出的一個常數。其中tf為詞彙在單一文件中的出現頻率,可視為在該文件內部的分布特性;idf則是用來量測詞彙在所有文件中的重要程度,可視為全域資料的分布特性。)/log(iinNidf(1)其中N為論文訓練資料的總篇數,i代表詞彙,ni則是包含詞彙i的論文總數,由公式(1)得知當一個詞彙idf值越小時,表示該詞彙在絕大部分的文件都有出現,因此鑑別度就會很低。一個詞彙i的tf-idf算法如公式(2)所示。iiiidftftfidf(2)我們將每篇文章分詞之後的詞彙分別去做各自的tf-idf,將詞彙當作向量的一個屬性,tf-idf的值則作為屬性裡面的值,文件就可以向量的方式去表示。3.3參考文獻區段處理本研究特別針對人工智慧與應用研討會,及全國計算機會議的論文集來處理參考文獻區段。發現這些論文的參考文獻格式,大多是用數字條列式標示各筆參考文獻,因此可以將參考文獻區段細分成一筆筆的參考文獻。一筆參考文獻,我們取出它的作者及論文標題。至於論文出處,由於期刊及會議數量眾多且規模大小不一;出版年份無法直接反映論文的領域,兩
本文标题:电脑辅助推荐学术会议论文评审委员之初探
链接地址:https://www.777doc.com/doc-913040 .html