前言:想要寫出一篇引人入勝的文章?我們特意為您整理了石油專業多語種翻譯知識庫研發范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:近年來,新疆油田公司對外交流和國際合作越發頻繁,對外合作項目也日益增多,隨之而來的外文翻譯工作呈明顯上升趨勢。由于翻譯周期短,翻譯任務多,許多材料都交給翻譯公司承擔。但是這些資料的專業性極強,有的翻譯公司譯文不夠專業,質量無法保障,且翻譯費用較高,這給對外合作項目帶來不便。同時,石油科研技術人員也迫切希望有一個自己的翻譯知識庫平臺,以便輔助閱讀相關外文資料,提升技術攻關效率。通過實際需求調研并結合自身的科研實力,新疆油田公司勘探開發研究院決定研發一套屬于自己的輔助翻譯知識庫平臺。以此來協助海外項目研究,提升專業人員工作效率、節約開支、鍛煉隊伍、培養語言人才。
關鍵詞:信息系統應用;翻譯平臺;輔助翻譯
一、前言
目前,市面上石油領域的專業翻譯軟件較少,俄語翻譯軟件更是如此,這給專業人員帶來了不便。在實際工作中,專業技術人員多使用各自不同的翻譯軟件,相同的術語往往會有不同的翻譯結果,這導致譯文專業性不強。一些專業技術人員經過一段時間的積累,收集整理出成百甚至上千條專業詞匯,但沒有一個好的途徑共享給大家進行學習。此外,多年的海外工作過程中,勘探開發研究院積累了許多專業性極強的雙語報告,這些資料對年輕翻譯人員來說非常難得且極具參考價值,但是由于保密工作需要無法進行大面積傳閱,造成了資源浪費。通過調查發現,中石油內部沒有統一的石油專業術語庫,要解決上述專業資料翻譯過程中遇到的問題,就必須建立一套屬于自己的術語庫和石油專業多語種資料翻譯知識平臺,以此提高外語翻譯的質量。
二、平臺設計
(一)總體框架設計
本平臺框架由三個應用層組成,最下面是數據層,中間是數據管理層,最上面是用戶使用的應用層(圖1)。最底層的數據層保存著平臺所有英、俄、漢術語、句子和雙語報告數據。數據管理層主要負責從底層數據層數據進行相應邏輯處理,然后給上面應用層提供數據和各種數據接口服務。應用層的職責是調用數據層的接口,讀取數據并展示給用戶。
(二)平臺功能建設
近年來,越來越多的ASP. NET開發人員開始接觸MVC 架,開始大都認為MVC與ASP. NET完全沒有關系,是一個全新 的Web開發,而亊實上MVC是一種更高級架構體系,原來的的ASP. NET稱為ASP. NET WebForms,新的MVC稱為ASP. NET MVC[1],項目組利用微軟的ASP.Net MVC框架作為開發框架、SQL Server和SQLite作為底層數據庫、前段UI大量使用BootStrap和各種JS框架來實現快速開發,制定了詳細的平臺建設及實施方案,經過一年多時間的研發完成了C/S和B/S版本,并在實際應用不斷完善,主要功能包括以下5個方面。
1.權限管理模塊功能
平臺B/S版本的權限模塊是基于角色訪問控制,只有內部用戶才能使用B/S版本,利用這種方式保證了平臺數據安全。具體技術上使用了ASP.NET Identity來實現用戶登錄和權限模塊,它為平臺提供了一系列接口來管理和維護用戶和角色。ASP.NET Identity將用戶所有的數據存儲在數據庫中。ASP.NET Identity使用Entity Framework實現其所有的檢索和持久化機制。ASP.NET Identity支持基于聲明的身份驗證,它使用一組“聲明”來表示用戶的身份標識,相對于“角色”,“聲明”能使開發人員能夠更好地描述用戶的身份標識。
2.術語、句子查詢功能
在平臺的術語查詢界面上,用戶輸入關鍵字后,平臺會自動判斷用戶輸入的關鍵字語種并將相關搜索結果顯示在下面的展示欄目,同時進行相應的模糊查詢并找出詞組展示在詞組框里。
3.平臺內部分享功能
翻譯人員在翻譯工作中發現一些術語的新譯法時,可以通過平臺中“我的詞匯”功能來實現平臺的內部共享。其他人在查詢該術語時可以查看他人分享的內容。
4.多個網絡詞典統一展示功能
用戶在查詢某個句子或單詞的翻譯時,系統首先在本地庫里搜索翻譯結果,同時也在其它幾個網絡詞典中搜索翻譯結果并把結果展示在搜索結果欄,供使用者參考。
5.知識庫功能
勘探開發研究院在多年的海外項目工作中產生了很多優秀的雙語科研報告。項目組將這些報告按照數據庫規則導入到數據庫中。用戶使用平臺進行查詢時,系統會根據用戶給的關鍵字從數據庫中搜出相應的段落進行展示。這些優秀的雙語科研報告對翻譯人員準確理解詞句提供了很大的幫助。
三、數據庫建設
作為一種數據驅動方法,當前的機器翻譯髙度依賴平行語料庫的規模、質量和領域廣度[2]。在數據庫建設過程中,為了保證數據質量,首先由項目組對石油專業英俄漢術語進行了收集、整理和分析,然后由石油專業翻譯專家結合自身經驗對各種紙質詞典、網絡術語、專業報告中的術語進行比對篩選,挑選出最精煉的術語。這些術語經過專家審核后,再利用編程算法進行了二次整理,確認無誤后,正式上傳到英俄漢術語庫中。為了簡化審核工作,項目組單獨開發了數據審核模塊對所有錄入的數據在線進行審核(圖2)。此外,在軟件研發的同時,團隊還建立了一套完整的數據審批流程。科研人員在翻譯過程中發現新的雙語詞語或句子時,可以自行添加到術語庫和句子庫。經過翻譯專家后臺審核通過后,該術語將自動加載到平臺術語庫中。這套流程將不斷擴充和豐富知識庫,保證知識庫數據的正常化。研發人員和石油專業用戶共同協作,根據工作要求不斷完善平臺功能,這也是與其他翻譯平臺的不同之處。平臺數據主要分為三類:術語、句子和雙語報告,術語庫為最基礎庫。截止到2021年底,數據庫已收錄英漢石油專業術語15萬余條、俄漢石油專業術語10萬余條以及俄漢石油專業句子6.4萬余條,俄漢雙語報告3.7萬余字。
四、平臺建設的關鍵技術
(一) PRR全文搜索技術(PRR:Petroleum Research Report)
在平臺建設中,項目組沒有使用通用的全文搜索源碼,而是通過自主編寫代碼實現了歷史報告的全文搜索功能。在此過程中,為了保證數據安全,將整篇雙語報告按段落拆分,并進行加密入庫,數據庫端使用SQlite保證了數據的查詢速度。SQLite數據庫是一個開源的嵌人式關系數據庫,它在2000年由D.Richard Hipp發布,作為嵌人式數據庫,SQlite數據庫可以很好地解決大型數據庫占用大量資源的問題,它可以有效減少應用程序管理數據的開銷,具有移植性好、容易使用、體積小、高效而且可靠等多方面的優點[3]。在進行涉密資料的安全處理時,首先把報告拆分,按段落進行錄入。這樣搜索關鍵字時只能拿到一段匹配到的記錄,而且也不知道報告的具體內容。由于報告里的數字涉密最多,這些具體數字會被自動替換。同時設置一些涉密關鍵字,進行自動過濾。最后錄入之前請相關人員進行審核,檢查是否有涉密的內容。通過這些方法最大程度地保證了數據的安全性。
(二)石油專業語義分析技術
在數據庫建設初期,數據庫收集了大量的英漢和俄漢術語,在翻譯平臺中用中文查詢外語時效果不太理想。為了解決這個問題,通過研發石油專業語義分析技術,把所有英漢和俄漢詞典中的術語進行了優化調整,創建了漢英和漢俄數據庫,實現了中文外文的雙向查詢,提高了漢俄、漢英查詢時搜索結果的準確性(圖3)。
(三)網絡爬蟲技術
網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人)是一種按照一定的規則,自動抓取網頁信息的程序或腳本。通過研究網路爬蟲技術,項目組掌握了HtmlAgilityPack和xpath解析html文檔技術,編寫了雙語句子爬蟲算法,利用算法進行爬蟲抓取數據,從網絡上成功獲取6萬多條雙語句子。這個技術還可以在后期數據庫的術語審核和校對中發揮更好的作用。
(四)在線翻譯系統的接口集成技術
在研究海外項目組工作人員的翻譯習慣時發現他們中很多人習慣使用一些在線詞典。大家常用的在線詞典包括有道、yandex、Google、Bing、百度等。通過研究WebService技術,實現了三個常用在線詞典的接口集成。用戶在知識庫里檢索文字時,平臺首先在知識庫里搜索關鍵字并進行展示,同時把三個在線詞典的檢索結果展示在同一頁面。
五、平臺建設成果及先進性對比
(一)平臺建設取得的成果
通過一年多時間的開發,平臺建設取得了3項主要成果:第一,建立了一套擁有獨立知識產權的石油專業翻譯服務平臺,實現了英、俄、漢專業詞匯的在線互查,申報軟件著作權2項:《石油專業多語種翻譯知識庫查詢系統》《漢、英、俄石油專業術語詞典系統》。第二,建立了中石油首個石油專業領域的英、俄、漢術語庫。第三,首次實現石油行業內高質量雙語專業科研報告全文搜索服務。翻譯人員在工作中發現一些術語的新譯法時,可以在平臺內部進行收錄,實現平臺的內部共享。這樣用戶在翻譯相同的術語時,能夠查看別人共享的內容,節約翻譯時間。經過所有用戶長時間的分享積累,術語庫將得到不斷的擴充。
(二)成果先進性對比
在對外交流的過程中,中石油旗下的很多部門都對翻譯工具進行過研究。1995年新疆石油管理局召集相關領域專家和翻譯小組出版了漢、英、俄、維石油技術詞典,這本詞典的參考價值很高,至今仍是俄語翻譯人員的主要參考工具。2016年石油出版社也根據自己的需求推出了石油知識翻譯的網頁版本,提供在線術語翻譯。這些翻譯工具功能都相對單一,項目組研發的石油專業多語種翻譯知識庫平臺PC版本則是一個功能比較完善、可擴展性較強的應用平臺。主要表現在以下3個方面。
1.首個石油專業領域知識庫平臺
目前在常見的翻譯軟件中(見表1),石油專業領域知識庫較少。我們將翻譯知識庫平臺的術語庫功能與國內一個常用的線上詞典進行對比。用該詞典查詢石油專業術語時,一般只能得到通用的釋義,無法得到符合科研人員要求的專業釋義(圖4)。
2.數據庫有良好的可擴展性
只有不斷改進完善的平臺才是好平臺。用戶需求隨著實際工作要求不斷變化,石油專業多語種翻譯知識庫的很多靈活功能都是投入測試以后使用者提出來的,研發人員和石油專業用戶共同協作,根據工作要求不斷完善平臺功能,這也是此平臺與其他翻譯平臺的不同之處。今后,平臺會根據石油專業用戶的需求推出更多個性化的功能,并進行長期的維護和升級。
3.最大限度地利用了新疆油田獨一無二的歷史雙語報告資源
新疆油田公司勘探開發研究院有許多多年從事石油專業翻譯的專家,因此產生了許多寶貴的雙語科研報告。該平臺的最大亮點還包括科研報告的再利用。因為科研報告的翻譯和常規報告有很大不同,所以根據新疆油田公司海外技術服務習慣翻譯的內容可以給使用者提供最正確最直接的答案,這也是該平臺獨一無二的功能(圖5)。
六、推廣應用
平臺開發完成后,桌面版本已經交由新疆油田公司勘探開發研究院中亞研究所和中國石油大學(北京)克拉瑪依校區試用。經過近一年的推廣實踐,翻譯平臺對相關人員的工作有起到了很大幫助,提高了研究人員對外文資料的理解速度和質量,同時對外文翻譯人員提高翻譯準確率和效率起到了較大輔助作用。中亞研究所和中國石油大學(北京)克拉瑪依校區提供了專門的應用評估反饋。目前市面上的翻譯軟件基本都是通用的翻譯軟件,石油行業的專業性不夠。勘探開發研究院研發的多語種資料翻譯知識庫有非常好的俄漢、英漢基礎術語庫和句子庫。行業內專業技術人員會在實際工作中不斷使用該平臺,平臺的專業維護團隊也將根據用戶需求不斷地對數據庫進行維護和補充,這樣將大幅度提高軟件的穩定性和用戶粘度。這就是一個商業軟件必須具備的條件。圖5知識庫翻譯結果展示圖而且,平臺的基礎框架是自主研發,底層部分的自主研發具有非常好的可移植性,平臺的技術條件可以很好地適應安卓和蘋果版本,并發布到各手機應用商城,所以完全可以像商業化軟件一樣移植到安卓和蘋果移動手機上,具有一定的商業化價值和市場潛力。
七、結語
通過整合現有的外語翻譯人員及科研力量,新疆油田公司勘探開發研究院建立了石油專業多語種資料翻譯知識庫,提高了外語翻譯的質量和時效性,對新疆油田的對外合作事業具有重大的現實意義。該平臺對海外工作人員來說是一個全新的應用平臺,它區別于通用的翻譯詞典或軟件,既能滿足專業研究人員的需要,又能提高專業翻譯的速度和效率。在鍛煉隊伍、培養語言人才和輸送人才上起到積極的作用,同時對新疆油田的對外合作事業的發展具有重大的現實意義。
參考文獻
[1]黃玉春.MVC框架在ASP.NET中的應用研究與實踐[J].商丘師范學院學報,2021(3):15-17.
[2]宋仕振.試論機器翻譯與人工翻譯的未來關系[J].未來與發展,2019(2):25-30.
[3]張小鳳.基于Python的SQLite數據庫存儲裝備維修技術,2020(5):16-17.
作者:曹藝鐘 熊維莉 曹菁 庫爾班江·托乎提 單位:新疆油田公司勘探開發研究院