前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算語言學視野下翻譯平臺的建設范文,希望能給你帶來靈感和參考,敬請閱讀。
以往研究多為討論計算語言學對語言學的影響,馮志偉(1992)用人類對自然語言符號認識水平的新理論,探討計算語言學對傳統(tǒng)語言學的挑戰(zhàn)。[2]布買熱木•阿布拉(2004)認為計算語言學對語言學分支帶來了不同的沖擊和挑戰(zhàn)的同時又推進了語言學的發(fā)展。[3]計算語言學對傳統(tǒng)的句法學、形態(tài)學、語義學、邏輯語法、詞匯學等方面有著重要的影響作用。同時計算統(tǒng)計學的發(fā)展也給語言學帶來新的視角,例如,冀鐵亮等(2007)將語言學與統(tǒng)計方法結(jié)合建立漢語動詞子類框架類型集。[4]姚敏鋒(2010)描述了一種基于短語譯文組合的漢英機器翻譯系統(tǒng),對構(gòu)建一個漢英機器翻譯平臺有積極影響。[5]計算語言學與語言學之間的影響作用應該是相互的。這些研究中側(cè)重討論了計算語言學對語言學的影響,接下來筆者將重點探討語言學對計算語言學的影響,以及計算語言學在翻譯方面的應用。
計算語言學與語言學
隨著計算語言學在語言處理的理論與應用方面研究不斷演化發(fā)展,語言學與計算語言學之間模糊的多面性關系逐漸形成。語言學在計算語言學的發(fā)展過程中,發(fā)揮著重要作用。計算語言學將計算科學與語言學結(jié)合并形成了對兩者分工明確的混合系統(tǒng),這個混合系統(tǒng)對翻譯平臺的建設具有很強的實踐指導作用。
(一)語言學對計算語言學的影響作用
計算語言學并非探討計算機語言的學科,[6]不是分解出來的關于數(shù)學語言學或者應用語言學新的語言學分支,其研究對象既不是二進制的機器語言,也不是編寫計算機程序所用的程序設計語言,而是在人類認識世界和創(chuàng)造文明的過程中形成的自然語言。上世紀80年代,Lauri Kart-tunen發(fā)現(xiàn)應用計算語言學與理論計算語言學共存且相互促進,同時理論計算語言學的分支也為理解人類語言結(jié)構(gòu)和使用發(fā)揮了重要作用。然而語言學和計算語言學之間關系隨著時間發(fā)生了很多變化。這些變化通過計算語言學的五個范式體現(xiàn)出來,在每一個范式中,語言學理論都發(fā)揮一定的作用,都對計算語言學研究產(chǎn)生不同的影響。第一個范式是直接啟用程序處理語言。操作者接受了相關的語言學理論教育,直接啟用如FORTRAN,COBOL等計算機程序或者匯編程序等進行語言處理。這個階段對語言學知識和處理方法之間沒有系統(tǒng)性分別。第二個范式是語言處理專業(yè)算法與方法的發(fā)展,如解析算法,限定性分析以及擴大的短語結(jié)構(gòu)語法。這種范式下發(fā)現(xiàn)了語言學知識和處理程序之間的分別,但研究方法的改進離不開語言學理論的指導,需要一定程度地運用語言學理論知識。第三個范式是語言學形式體系的出現(xiàn)。
20世紀80年代出現(xiàn)了一系列新的語法形式體系,如HPSG(Head-DrivenPhrase Structure Grammar,中心語驅(qū)動短語結(jié)構(gòu)語法,吳云芳,2003),[7]LFG(Lexical-Functional Grammar,詞匯功能語法)等理論體系對計算語言學產(chǎn)生了影響,出現(xiàn)了形式與語義系統(tǒng)集合的語法模式體系,其形式模型與語言學理論緊密相連,因此許多模型體系被安排在語言學課程里教授探討。當這些語言學的形式主義模型不能滿足實際應用時,第四種范式很快運用于自然語言處理當中并成為主導方法,即自然語言處理的專業(yè)方法。這樣研究者們將注意力集中于處理技術(shù)的提高,對語言及語言學的重視程度降低。第五種范式的出現(xiàn)是在計算語言學中的統(tǒng)計學方法在一些應用領域難以進行時,自然語言處理開始重新考慮語言學的方法和知識源泉。自然語言處理中的統(tǒng)計學方法專家試著回歸語言學中的詞匯學或是試著建立基于短語結(jié)構(gòu)的統(tǒng)計模式。統(tǒng)計學和語言學方法模式的結(jié)合促成了計算語言學第五種范式的生成,即統(tǒng)計的和非統(tǒng)計的機器學習方法與語言學方法的創(chuàng)新性結(jié)合。隨著計算機技術(shù)的發(fā)展與語言理論的深入研究,前三種范式漸漸退出研究的中心地位,后兩種范式將計算語言學的重要方法統(tǒng)計學與語言學結(jié)合起來,成為自然語言處理的一個新的進步范式。語言學與計算語言學中的統(tǒng)計學方法的合理應用才能促進語言研究的深入開展。因此,對二者的分工與結(jié)合形成的混合系統(tǒng)進行探討就顯得格外重要。
(二)計算語言學和語言學的分工與結(jié)合———混合系統(tǒng)研究
統(tǒng)計學的發(fā)展不斷改變著計算語言學與語言學之間的關系。統(tǒng)計學運用于計算語言學方面,與語言學理論相結(jié)合,其促進作用體現(xiàn)在混合系統(tǒng)研究中。在語言處理的一些領域中,設計混合系統(tǒng)的方法已經(jīng)顯示出了前景性的成果。第一個設計混合系統(tǒng)既包含語言學也包括計算機技術(shù)成分,使這兩種語言分析方法共同完成對詞匯短語句子等的處理任務。在混和機器翻譯研究中,混合系統(tǒng)的任務就是系統(tǒng)地為輸入的語言探索統(tǒng)計學與語言規(guī)則最理想的結(jié)合結(jié)果。由經(jīng)驗豐富的語言學家對輸入的語言進行一個詳細的語義分析,由最好的統(tǒng)計系統(tǒng)發(fā)現(xiàn)相對應的輸出語言的詞匯短語或者句子鏈,并決定哪一類的輸出結(jié)果是最恰當?shù)姆g。系統(tǒng)利用事先給定的語言學語法轉(zhuǎn)換規(guī)則對這些詞匯短語句子鏈集合進行譯文選擇組合,從而得到對應的輸出語言語句。這種利用計算語言學技術(shù)與語言規(guī)則結(jié)合系統(tǒng)對詞匯短語句子進行翻譯探索的方法只是對混合處理系統(tǒng)的嘗試。另一個混合系統(tǒng)的設計方法就是基于對于整個語篇的研究理論。這種語篇混合系統(tǒng)是對第一個混合系統(tǒng)的補充,它不僅研究短語結(jié)構(gòu),更將短語結(jié)構(gòu)的匹配上升到了語篇的高度,是一個更高層次的探索。這樣,計算語言學與語言學的發(fā)展對于混合系統(tǒng)研究、混合機器翻譯與翻譯平臺的建設發(fā)揮著重要的作用。
計算語言學視角下的翻譯平臺建設
在中國對外貿(mào)易、文化以及科技交流的蓬勃發(fā)展對翻譯行業(yè)需求高漲的背景下,語言信息處理技術(shù)的進步給翻譯事業(yè)帶來的巨大變革和沖擊。環(huán)境的變化要求語言服務企業(yè)發(fā)現(xiàn)新的商業(yè)模式、采用新的戰(zhàn)略和新的管理模式,提高生產(chǎn)效率[8](俞敬松,2010)。很多語言服務企業(yè)每月百萬字級別的翻譯項目已經(jīng)屢見不鮮,要求在很短的時間按照預定的質(zhì)量標準完成大量的翻譯。對語言服務工作者提出全新的要求。然而傳統(tǒng)小作坊模式的“譯、審、校”手工翻譯流程顯然已經(jīng)不再適應當今大批量的、團隊協(xié)作的翻譯業(yè)務流程?,F(xiàn)代語言信息處理等行業(yè)需要精通機器輔助翻譯的原理和應用技術(shù)的人才及相關的自然語言處理技術(shù)的發(fā)展提高,因此探討在計算語言學視角下的翻譯平臺建設顯得格外重要,尤其是混合系統(tǒng)研究下的混合機器翻譯系統(tǒng)。
(一)語言規(guī)則是翻譯平臺建設中混合系統(tǒng)研究的前提條件
機器翻譯是當前計算語言學研究的熱點和難點。要提高機譯的質(zhì)量,首先要解決的是語言本身問題而非程序設計問題;單靠程序來做機譯系統(tǒng),無法提高機譯質(zhì)量。目前的機器學習方法就是從相似的文本中獲得統(tǒng)計翻譯模型,但是對很多句法現(xiàn)象卻難以像傳統(tǒng)的語言學語法一樣正確地分析。如果語言學家們已經(jīng)理解并形成了對語言文本特殊情況的潛在分析,那么從句法和語義注解語篇學習中總結(jié)復雜規(guī)則是可能的。每種人類語言的語法都包括一小部分高度復雜的規(guī)則和一大部分相對簡單的現(xiàn)象。這一小部分高度復雜的現(xiàn)象要比那部分相對簡單的現(xiàn)象出現(xiàn)的多。這種傾斜的分布體現(xiàn)了的學習語言規(guī)則的價值和重要性。至今為止,我們還沒有自動的機器學習方法,正確的產(chǎn)出復雜的語言現(xiàn)象。這樣就提出疑問,如果沒有人類語言學習者開發(fā)的句法———語義正確方法的指導,這些機器學習規(guī)則是否能夠被運用?另一方面,詞典和簡單篩選匹配的限定能夠容易地理解,很大程度上是因為其復雜性在于詞匯本身類別的結(jié)構(gòu),而不是詞語類別之間的簡單劃分。理解語言規(guī)則,設計這種混合機器翻譯系統(tǒng)的平臺顯得尤為重要。
(二)語料庫資源建設與語言信息處理技術(shù)
的提高為翻譯平臺建設中混合系統(tǒng)研究提供了資源與技術(shù)保證語言信息處理技術(shù)是新一代知識工程處理的核心支撐技術(shù),[9]更是機器翻譯中重要的技術(shù)保證。近年來,在自然語言處理技術(shù)等方面的研究中,語料庫資源的巨大價值已經(jīng)受到越來越多學者的關注和認可,特別是包含兩種語言互譯文本的語料庫,如雙語語料庫已經(jīng)成為機器翻譯、翻譯知識獲取、數(shù)據(jù)挖掘以及雙語詞典編纂研究不可或缺的重要資源。關于國內(nèi)漢外雙語語料庫的建設以及對齊加工和標注多級自動對齊技術(shù)以及雙語平行語料庫在機器翻譯和翻譯知識獲取等方面的應用技術(shù)目前已經(jīng)取得了很大進展。機器翻譯新技術(shù)的發(fā)展得益于雙語語料庫的出現(xiàn),有效改善了翻譯質(zhì)量。同時,雙語語料庫又是汲取翻譯知識的重要源泉,如翻譯詞典和翻譯模板等,從而進一步改進傳統(tǒng)的機器翻譯技術(shù)。
(三)混合機器翻譯系統(tǒng)是翻譯平臺建設的核心動力
目前翻譯平臺有很多,如網(wǎng)絡翻譯譯言網(wǎng)、谷歌翻譯等。但是翻譯平臺建設的核心動力在于機器翻譯系統(tǒng)。機譯系統(tǒng)可劃分為基于規(guī)則(Rule-Based)和基于語料庫(Corpus-Based)兩大類。前者由詞典和規(guī)則庫構(gòu)成知識源;后者由經(jīng)過劃分并具有標注的語料庫構(gòu)成知識源,既不需要詞典也不需要規(guī)則,以統(tǒng)計規(guī)律為主。機器翻譯的研究是建立在語言學、數(shù)學和計算機科學這三門學科的基礎之上的。語言學家提供適合于計算機進行加工的詞典和語法規(guī)則,數(shù)學家把語言學家提供的材料形式化和代碼化,計算機科學家給機器翻譯提供軟件手段和硬件設備,并進行程序設計。缺少上述任何一方面,機器翻譯就不能實現(xiàn),機器翻譯效果的好壞,也取決于這三個方面,而且直接關系到翻譯平臺的建設。計算語言學提供了一個新的視角,研究將計算語言學技術(shù)、語言學規(guī)則與大型語料庫有效結(jié)合,構(gòu)成一個語言處理的混合系統(tǒng)。利用計算機技術(shù)實現(xiàn)雙語對齊,結(jié)合語言學規(guī)則及專業(yè)術(shù)語語料庫,將計算機技術(shù)、語言規(guī)則與語料庫結(jié)合構(gòu)成全新的語言翻譯的標準庫,形成相對完善的語言資源庫,進一步促進翻譯平臺的建設和完備。計算語言學視角下的翻譯平臺建設可以應用于語言服務產(chǎn)業(yè),不僅能夠快速有效地提高翻譯的效率及準確率,而且有利于綜合性語資源庫的建設,如大型語料庫建設等,以適應國際間多層次全方位的交流及信息化時代語言服務的要求。
結(jié)語
計算語言學與語言學的發(fā)展及其相關理論研究為翻譯平臺建設提供了技術(shù)支持與理論保障。翻譯平臺建設的核心動力是混合機器翻譯系統(tǒng)的設計。語言規(guī)則為翻譯平臺建設中的混合系統(tǒng)設計提供了前提條件。語料庫資源建設與語言信息處理技術(shù)的提高是混合系統(tǒng)研究的重要資源與技術(shù)保證。計算語言學與語言學之間的相互促進對翻譯平臺的建設發(fā)揮著重要作用。目前雖然計算語言學在一些語言學研究領域取得了不錯的進展,但隨著互聯(lián)網(wǎng)的廣泛普及,語言信息處理需求越來越大,人們迫切需要用自動化的手段處理語言信息,仍需要語言工作者的深入研究。因此,未來的研究中應重視理論語言學與計算語言學的影響作用,進一步探索計算語言學在語言研究、語言信息處理等領域的重要應用。(本文作者:張曉艷、宋鐵花 單位:太原理工大學外國語學院、山西農(nóng)業(yè)大學文理學院)