您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 歧义切分与专有名词概要
歧義切分與專有名詞自動識別技術D95922033蘇建豪2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan2概要•前言•歧義字段自動切分技術•中文姓名自動識別技術•中國地名自動識別技術2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan3前言•中文信息處理的很多項目中都涉及切詞的問題•漢外機器翻譯、中文文獻自動索引、自動分類、中文文獻庫全文索引等•1995年和1998年中文文本切詞評測結果•準確率和召回率都很低•透過語料庫方法和人工智能之後•準確率和召回率都提高不少2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan41995/19982001交集型歧義字段切分正確率78%95%多義型歧義字段切分正確率59%中國人名識別正確率91%87.31%中國人名識別召回率68%95.23%中國地名識別正確率69%86.7%中國地名識別召回率60%93.8%2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan5歧義字段自動切分技術•歧義字段的定義和採集方法•交集型歧義字段自動切分技術•多義型歧義字段自動切分技術2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan6歧義字段的定義和採集方法•交集型歧義字段•在AJB中,AJW,JBW•“部分居民生活水平”•多義型歧義字段•在AB中,ABW,AW,BW•“一家人世世代代沒有人身自由”•“家”、“人”、“家人”、“人世”、“世”、“世世代代”、“代”•採集方法•從大規模中文語料中查找歧義字段•熟語料、生語料2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan7交集型歧義字段自動切分技術•交集型歧義字段的採集•雙向掃描法、逐詞掃描法•交集型歧義字段統計分析鏈長12345678總計歧義字段次數4740228790121760829192178248比例(%)60.5837.021.560.780.040.020.000.00100•交集型歧義字段切分策略之一:統計方法•字段中各種切分情況在實際生活中的使用頻率2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan8多義型歧義字段自動切分技術•多義型歧義字段的識別方法•全匹配法、雙向掃描法、窮舉法•多義型歧義字段統計分析•山西大學的分詞詞庫共有詞條77856個,其中多字詞69619個,單字詞7415個,語素822個。若考慮由單字詞所引起的多義型歧義現象,共有多義型詞條68448個,佔全部多字詞的98.3%。•多義型歧義字段切分策略•基於窮舉法的切分、基於統計訊息的切分、基於詞形/詞性規則的切分2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan9中文姓名自動識別技術•引言•中文姓名識別數據資源•中文姓名識別規則庫•中文姓名識別方法和步驟•試驗結果2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan10引言•中文姓名識別的難點•姓名隨著時間的改變不斷增加•中文姓名沒有像西方語言中的型態特徵•避免重名,代之而來的大量異體字、生僻字、自造字•真實語料中姓名結構複雜,如姓名成詞、姓與名首字成詞、名字自身成詞•目前存在問題•對姓名成詞和姓氏成詞的情況識別效果不好2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan11中文姓名識別數據資源•中文姓名識別數據資源•姓氏用字和名字用字•姓氏雖多,使用集中在少數大姓上:王、陳、李、趙、劉•人名用字雖多,但也相對集中•中文姓名統計分析姓名庫統計結果真實語料統計結果姓名庫統計結果真實語料統計結果頻度序列累計頻率頻度序列累計頻率前15個高頻姓氏50.8%全部包括前71個名字用字50.17%全部包括前65個高頻姓氏80.4%全部包括前410個名字用字90.0%包括408個前114個高頻姓氏90.0%全部包括前1141個名字用字99.0%共計1411個2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan12中文姓名識別規則庫•規則類型•姓名用字規則•稱謂擴展規則•姓名邊界確定規則•衝突發現規則•衝突處理規則•實例規則2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan13中文姓名識別方法和步驟•在姓名識別統計表的基礎上確定了性名識別閥值,提出了姓名識別評價函數•姓氏使用度不同的漢字採用不同的姓名閥值•姓氏使用度大的漢字召回率較高•姓氏使用度小的漢字準確率較高•尋找潛在姓名、生成簡稱潛在姓名、對潛在姓名進行初篩選、計算概略估值,對潛在姓名再篩選、確定姓名邊界、尋找衝突,否定潛在姓名、計算可信度值、擴展某些單名、應用實例庫規則,再確定潛在姓名、輸出結果2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan14試驗結果•有丁玲的女兒蔣祖慧和武兆寧等人有丁玲的女兒蔣姓首尾00.49500.2630.27600000.77祖慧和武兆寧等人0.0020.0590.01100.2150.2430.00010.0010.0360.16900.0060.020.0080.610.0702007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan15試驗結果•從《人民日報》中抽取了72621個漢字的新聞語料,其中包括419個中文姓名,對系統進行了開放測試。系統辨識出“中文姓名”457個,其中正確399個。中文姓名識別的召回率:95.23%;準確率:87.31%。2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan16中國地名自動識別技術•引言•中國地名資源知識庫•中國地名自動識別統計模型•中國地名識別規則集•中國地名自動識別系統2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan17引言•中文地名自動識別的難點•缺少明確、規範的地名定義•真實語料中地名情況複雜•地名的內部構成情況複雜•地名的命名比較複雜•目前存在問題•只有一篇文獻,召回率87.62%,準確率74.8%•收錄地名的數量、範圍和權威性都不夠;用字在真實文本中構成地名的能力,沒有進行明確的計算和量化;沒有充分利用上下文2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan18中國地名資源知識庫•中國地名庫•中國地名庫的建立•中國地名用字的統計訊息•中國地名用詞的統計訊息•地名用字在真實文本中的覆蓋情況類型個數百分比部分示例首中尾字均被覆蓋51395%鳳嶼島、鄭底村尾字未被覆蓋152.8%北四環、宣武中間字未被覆蓋40.7%青雲譜鄉、瀘閔路首字未被覆蓋71.8%廊坊市、掖縣首字中間字未被覆蓋10.2%旮旯村2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan19中國地名自動識別統計模型•地名用字的使用度•為了反應一個字在真實文本中構成地名的可能性•概率估值公式•閥值的選取•可以覆蓋CPB中99%的地名•利用概率估值公式進行地名初識別)()()()(21)(cNcNcNcNcptcpppsNps(c):c在CPB中作地名的總次數Np(c):c在CPB中出現的總次數Ncp(c):c在真實文本中作地名用字的總次數Nt(c):c在真實文本中出現的總次數2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan20中國地名識別規則集•規則的獲取•人工歸納規則•初篩選類型選擇規則•確定規則•否定規則•邊界修正規則•利用變換的方法獲取規則•規則集的管理•規則可信度閥值的設定•規則間約束關係的檢查•規則的排序及優先權管理2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan21中國地名自動識別系統•系統設計思想•常見的地名匹配•地名初識別•上下文信息的收集•利用規則進一步確定地名•實驗結果與分析•採用五萬漢字的《人民日報》語料,地名有514個,系統準確率為90.92%,召回率91%2007/05/10DepartmentofComputerScienceandInformationEngineering,NationalTaiwanUniversity,Taipei,10617Taiwan22報告完畢,謝謝
本文标题:歧义切分与专有名词概要
链接地址:https://www.777doc.com/doc-3591351 .html