您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 畜牧/养殖 > 纯英文式台文对语音处理及教材编辑的影响
ZngfSH,SuunEngbuunSegDaibuun…-1-純英文式台文對語音處理及教材編輯的影響莊勝雄中興大學機械系摘要用26個羅馬字母所建構的純英文式台文,普實台文(PSDB),可以精密的表達台語的音,調和語意。經過八年來的發展和教學,發現它有人性化,國際化和資訊化的優點。對台灣的教育,文化和資訊科技等各方面的發展都可以促成革命性的進步。在語音處理方面,可以直接做為合成的輸入資料的表示法,人可以直接輸入。也可以做為辨識結果的表示法,人可以直接讀,不用像中文需要有音標和漢字之間的轉換過程。英語英文的語音處理方法和軟體可以不用改變,或是極少的改變就可以用在台語台文的處理。在教育製作方面,英語英文的工具軟體和方法也是可以直接拿來使用。教材編製的品質和效率可以大大提高。1.介紹目前有很多台語文字化的方案,但是大部分都欠缺系統化,資訊化的長期研究和精緻考慮[Zngf97c,NggSP98a,NggSK98]。致使台語的分析和發展受到嚴重的限制。因為語言是透過聲音的表現來傳達資訊,文字是用來表示語言意思的書面記載,因此拼音字是最有效率和精密的語文形式。根據台語的特性和現代化資訊環境的考慮,台文需要符合以下的要求:1.使用拼音字,而且在音節之內要表現出母音,子音和聲調的訊息;2.要用多音節語詞做書寫的最小單位;3.文字符號要是剛好完整的羅馬字母集合,就是純英文式的文字形式[Zngf95,Zngf&Ngg97,Zngf00]。1.1.音節的結構和數目西方很早以前就可以對他們的發聲做很精確的語章結構分析[Fromkin93,Miller96]。我們可以用同樣的方法來分析台語的音節。台語的一個音節是由聲母和韻母所組成。看圖1a,聲母有含鼻音的前子音和不含鼻音的前子音。韻母的部分可分割成母音、聲調及後音。後音是促音或是後鼻音。一個音節除了一定有母音之外,其它的部分都可以沒有。看圖1b,gveq(夾)是子音g,鼻音v,母音e和後音q所組成。看圖1c,pafn(班)是由子音p,母音a,聲調f和後音n,所組成。莊勝雄,2001,4月,純英文式台文對語音處理及教材編輯的影響,2001語音訊號處理研討會論文集,pp.77-100.ZngfSH,SuunEngbuunSegDaibuun…-2-imzadsviabuouxnbuozwymphvixymbwymsviadiauauxymgveqgveqgveqpafnpafnpafn(a)音節的階層結構(b)gveq的階層結構(c)pafn的階層結構圖1.音節的組成台語的一個音節是聲母加韻母(基調)加聲調所組成,理論上可區別音節種類總數的計算是用28個聲母,33個韻母和7個聲調三個數目相乘的結果,就是28×33×7=6468。聲母本用普實台文表示法來區別有32個,因為(c,ch,cv,chv)和(z,zh,zv,zhv)去和韻母匹配時分別互相形成互補關係,所以這8個只能算4個而已。因此在算聲母總數時,是用28個來算的。但是6468種的音節和實際上的數目是有誤差的。主要是促音雖然有2種聲調,但是它們各有4種的發音方式,因此促音的總數會去少算到。有後鼻音的韻母就沒有再有促音的。而且某些調的韻母不會用到。所以實際上去計算有在使用的韻母數目是198個,就是母音結合聲調和後音的實際總數(參考附錄A)。聲母的數目28個乘上韻母的數目成為28×198=5544,是台語可以發聲區別的音節數目。只是聲母28個並不是每個都和每個韻母配對的。所以最精密的台語音節總數應該是從辭典的資料庫來統計。要用辭典而不是字典是因為台語有轉調的特性。根據佘等人的統計,2557是一個相當接近真實數目的數字,是5544可發聲區別音節數的子集合[Siaa1999b]。1.2.台文純英文化的理由台文純英文化是說台文在形式上和英文一樣用26個羅馬字母來連接組成,沒有其他一般英文單字所沒有使用的符號,如聲調符號及數字等。漢語長期受漢字圖示表示方式的影響,字的結構停留在圖示音節符號的層次,沒辦法對語音做深一層的研究和利用。新造字和對語音的分析遭受到嚴重的限制[Zngf97,NggSP98a]。台文形式上純英文化即可以解決這個問題。講話的語詞和書寫的字詞沒有做直接的關連是漢字表示法的致命傷。當拼音字系統在講Word(字詞)的時候,是在講那個語詞,書面表示只是在反應那個語音的意思。漢字的字和語詞就有不一樣的函意。希臘在2800年前就完成拼音字書寫方式的建立。羅馬人再將之修訂成拉丁字,很快就傳播到整個西方世界[Miller96],現在連越南、馬來西亞、印尼也是用羅馬字來表示他們的語言。很自然的現象,人一開始想要記載語言的時候是用語詞為單位的圖示[Miller96]。慢慢的從圖示-音節發展成音節的書寫。音節的書寫最後才被拼音字所取代。ZngfSH,SuunEngbuunSegDaibuun…-3-用圖示來記載語言的探試被證明是沒有效率的方式,在很多地方最後都採用代表聲音的方法來取代。歷史上拼音字的進展是愈來愈接近表示語言的聲音。每一次的進步顯示著語言分析的改進。這可以說是指數原則的勝利。為了要有足夠的字型,書寫者和講話者在產生語詞一樣,用連接組合的方法來表現文字。在現在電腦與網際網路都是英文環境的情形下,和英文系統100%相容的文字,在本身的發展和國際化方面都有很大的便利。文字的形式影響語文的應用和文化的發展。不要說台文是才剛要發展,應該思考一個能夠在現代社會有效率的運作的方案。連德文,本來是強勢的語文,在英文資訊環境的強大壓力之下,也提出一個可以100%和英文相容的方案。把他們本來不單純羅馬字母改成單純的羅馬字母:例如,ss,ooe,aae,等。台文那有需要為了傳統表示符號的堅持來喪失未來發展的機會?在佘等人的兩篇研究論文中[Siaa99a,Siaa99b],現代文書法的(oi“帽”之母音)就有三種不一樣的寫法:O,0,O,都不是本來規定的。可見一個不是和英文字母一樣的符號所引起的不一致性是非常大的。‘Witten曾做過一個研究:從音標做講話的自動合成。裡面所指的音標就是IPA音標(國際音標)。因為國際音標裡面有很多一般鍵盤上所沒有的符號,所以他把每一個符號轉換成一個或是二個鍵盤上所有的符號,讓研究可以順利進行。參考’Owens著的書第106頁[Owens93]。以上的例只是冰山的一角,羅馬字化,而且是形式純英文化,可以讓文字處理的工作在現代的資訊環境中節省大量的資源,增加無窮的效率。2.普實台文簡介2.1.普實台文的來源在1832年,英國牧師W.H.Medhurst首先用羅馬字母和一些聲調記號來做褔建話的拼音記載,這是拼音台文發展的開始。後來一直在教會內部發展及使用。這就是通稱的教會羅馬字,簡稱教羅。目前台灣大部分人所提出的拼音系統也是用教羅做藍本。這也是目前最流行的拼音式台文。其實應該還未到台文的層次,只是音標而已,因為有用聲調記號,單音節式,也沒有強調文字的標準化[Zngf&Ngg97,Ngg98]。周辨明等人,在1920年,於廈門,曾經把聲調字母化來做推廣,但是,並沒發揮作用[Qor90]。到了1943年,台南林繼雄等將音標式的教會羅馬字做了一個很大的修正,拿掉音標記號,直接變化母音字母,採用多音節,讓台語有了正式的拼音文字。這是歷史性的大改革,也是讓台文的發展有了一個具體的成果[Liim88,Dioi89,Liim90a,Liim90b,Liim90c,Liim92]。林繼雄教授將這種文字稱為台語現代文。林氏的台語現代文有一個北歐,一個希臘字母,又有一個自創的,電腦鍵盤上所沒有的符號。這在資訊時代的運用極為不利。因此有幾個熱愛台語文的人士做了一些修改,讓它在電腦上的使用更為方便[Zngf95,Ngg98]。這就是純英文ZngfSH,SuunEngbuunSegDaibuun…-4-式的普實台文。2.2普實台文的建構普實台文的表示符號包括:26個英文字母表示台語所有具語意區別的音和調[Zngf95,Zngf&Ngg97]。另外是音節分號:(')和輕聲記號:(~)。這兩個符號雖然不是羅馬字母,但是也是ASCII字碼7bits內的基本碼,也沒有在做語意的區別。台語音和調的變化有32個子音(其中有13個鼻音是用一個符號接在子音後面所形成)和198個含調韻母(參考附錄A)。韻母是8個單母音,複母音,7個聲調,3個後鼻音和四對的促音所組成。另外,還有迴升音和輕聲變化。把台語所有的基本要素包括音調都用英文字母表示,轉調放進去語詞的文字單位中。這樣就可以用來拼出完整又可自由在電腦網路中通行的資訊化台文。下面是用純英文式普實台文所寫的台灣話諺語。Aixsuiemkviaflaauphvixzuie.愛美不怕流鼻水。Siikauxsiidamdngf,booibiezuohanciitngf.時到時擔當,沒米煮蕃薯湯。Dngsvoafsaepaxngbelii.唐山屎放未離。Zoixkuefdoizherng,zoixlaangdoiperng.做雞就(慶),做人就(並)。PSDB聲調的表示並非一種聲調用單一的符號。像:基調變高調是a→af,但是i→y而非i→if。某一個聲調一律用某一個符號,用數字表示或是字母皆可,範例:a7→a1,i7→i1。做為語音處理的表示法來講,有一致簡單的方便。但是若要成為正式的台文,就要從辨識性和使用效率性做一個考慮和妥協[Zngf97a,NggSK98]。像字頭的字母分佈平均對於排序,找尋和人的辨識的反應速度就有很大的幫忙[NggSP98b]。在PSDB中,有一些情形拼字詞會變短。雖然PSDB拼音規則是完整一致的,但是聲調的處理有加一些變化。為了方便了解和學習,整理成一組對照表[Zngf00],請參考附錄A。表中又有對照的漢字,可以看出子音,母音,含調韻母的表示法。所有台語的音節都可以用聲母子音和韻母去組合出來。3.語音處理和文字形式普實台文形式直接有子音,母音與聲調的訊息在裏面。語音處理時很容易做分類;找尋的工作也很有效率;能夠讓語音合成與辨認的一些程序變得很方便。對於讀文的語音合成來講,可以把拼音詞讀進來,非單音節的詞先將音節ZngfSH,SuunEngbuunSegDaibuun…-5-分開,完成詞句內之轉調後,就可以將與每一個音節對應去聲音的資料庫[Siaa99a,99b]。這個對應是一對一的關係,非常便利。請看圖2,所顯示的是聲音合成,台文轉台語的流程圖。若是要讀漢字所寫的文章,每一個漢字和聲音在台語的對應是一對多的關係。不少的情況要要先去猜測文章中的意思,才能將漢字的對應聲音找出來。絪絏ゅだ瞒竊ゅ迭畐竊璶锣秸竊い迭锣秸砏玥锣秸竊羘块㎝で皌竊锣戈畐癹ど㎝淮羘祇羘竟ゅ侩醚圖2.聲音合成,台文轉台語流程圖若是讀紙上的台文,可以直接利用英文的影像處理軟體將字碼序列建立起來。在字型的辨認方面,和英文完全一樣,因此沒有必要發展特別為台文設計的軟體。聲音合成若是要從中文漢字輸入就要增加一個中文轉台文翻譯器,請看圖3。中文斷詞詞的序列台華詞典匹配台文圖3.中文轉台文翻譯器.對於講話語音轉成書面文字資料的語音辨識來講,若可以把發聲的每一音節分離獨立出來,就可以用單音節聲音模式去匹配。再經過多音節詞庫及反句中ZngfSH,SuunEngbuunSegDaibuun…-6-詞轉調規則的匹配,就可以把文句完整的表示出來。請參考流程圖4。若是聲音要轉成漢字文章,困難點是:一個音節的聲音和漢字的對應是一對多的關係。所以從聲音到漢字的選擇,通常也是需要經過轉拼音表示的階段。漢字的正確選擇需要有語法和語意的考慮才能夠完成。圖4是台語講話辨識的流程圖,其中若是台語講話台文輸出,就沒有需要台文轉中文的翻譯器。台語講話音節分離音節序列匹配音轉字音節模樣音節字序列匹配詞庫反句中詞轉調規則台文匹配華文台華詞典台文輸入中文輸出台語輸入台文輸出圖4.台語講話辨識的流程圖.以台語的特性來講,語音和表示法最有效率的做法是:語音合成和辨識用含聲調的音節聲音做最小的單位,約有2557個[Siaa99b];書面表示則是用基本音素做最小的單位,也就是拼音字
本文标题:纯英文式台文对语音处理及教材编辑的影响
链接地址:https://www.777doc.com/doc-2133490 .html