特级做A爰片毛片免费69,永久免费AV无码不卡在线观看,国产精品无码av地址一,久久无码色综合中文字幕

基于web的大規(guī)模雙語平行語料庫自動獲取技術(shù)研究與系統(tǒng)實現(xiàn).doc

約60頁DOC格式手機打開展開

基于web的大規(guī)模雙語平行語料庫自動獲取技術(shù)研究與系統(tǒng)實現(xiàn),60頁共計31159字摘 要大規(guī)模雙語語料庫的建設(shè)與獲取存在著很大的困難,雖然各國都投入了大量的人力、物力和財力來加強雙語語料庫的建設(shè),但現(xiàn)有雙語語料庫在規(guī)模、時效性和領(lǐng)域平衡性等方面還不能滿足處理真實文本的需要。這也間接導致了目前的統(tǒng)計機器翻譯系統(tǒng)仍然主要處于實驗室開發(fā)研究階段,離實際的應(yīng)用還有一定的距離。本文致力于...
編號:45-37691大小:1.44M
分類: 論文>計算機論文

內(nèi)容介紹

此文檔由會員 bfxqt 發(fā)布

60頁共計31159字
摘 要
大規(guī)模雙語語料庫的建設(shè)與獲取存在著很大的困難,雖然各國都投入了大量的人力、物力和財力來加強雙語語料庫的建設(shè),但現(xiàn)有雙語語料庫在規(guī)模、時效性和領(lǐng)域平衡性等方面還不能滿足處理真實文本的需要。這也間接導致了目前的統(tǒng)計機器翻譯系統(tǒng)仍然主要處于實驗室開發(fā)研究階段,離實際的應(yīng)用還有一定的距離。本文致力于構(gòu)建一個基于Web的大規(guī)模雙語平行語料庫自動獲取平臺。取得主要成果有以下幾方面:
1. 研究了雙語平行資源在互聯(lián)網(wǎng)上的存在形式并探索了相應(yīng)的獲取方法
互聯(lián)網(wǎng)上雖然存在著海量的多語言文本資源,但任何系統(tǒng)都無法將所有的互聯(lián)網(wǎng)文本進行處理,從而獲取所需的特定雙語平行的語料庫。因此需要定義一種啟發(fā)式信息來概括這類多語種平行文本存在的共同特征,以此作為一個有效的入口,來獲取我們關(guān)心的Web資源。以往的系統(tǒng)都致力從一些雙語網(wǎng)站中獲取互為翻譯的雙語網(wǎng)頁對。但是通過觀察,我們發(fā)現(xiàn)在Web上雙語平行資源不僅存在于兩個平行的單語網(wǎng)頁中,還存在于雙語對照的同一網(wǎng)頁中。本文對這兩種資源都定義了有效的啟發(fā)式信息,從而很好地解決了大規(guī)模數(shù)據(jù)的來源問題。
2. 提出了基于URL命名相似性的雙語候選網(wǎng)頁獲取算法
網(wǎng)絡(luò)作者在進行雙語平行網(wǎng)頁URL命名時往往具有一定的規(guī)律性,兩個URL之間一般只有與語種相關(guān)的部分字符串不相同。以往的系統(tǒng)在這個環(huán)節(jié)需要預先定義在URL命名中常見的與特定語種相關(guān)的前后綴表。本文提出了一種可以自動發(fā)現(xiàn)一個具有命名規(guī)律性的雙語網(wǎng)站中雙語平行網(wǎng)頁之間命名規(guī)律的方法,不再依賴預定義。實驗表明,本文的方法不僅可以發(fā)現(xiàn)所有常見的URL命名規(guī)律,而且還可以找出不同的網(wǎng)頁編輯者帶個人特色的URL命名規(guī)律,從而可以找出盡可能多的可信的中英候選網(wǎng)頁對。綜合各方面的評估與評價,該方法可以充分挖掘出具有命名相似性的雙語網(wǎng)站中存在的雙語平行網(wǎng)頁,初步解決了雙語語料庫的獲取難題,達到了本文預期的目的。
3. 改進了雙語平行句對抽取技術(shù)
雙語平行的網(wǎng)頁文本不同于一般的雙語對照文本,其中不僅存在有用的雙語對照信息,還存在一定的無關(guān)信息;此外,網(wǎng)頁文本中的詞匯量也大大超出任何一本雙語詞典的范圍。這些都造成了對雙語平行網(wǎng)頁進行句子對齊的難度。以往的系統(tǒng)在這方面研究都是利用雙語平行網(wǎng)頁在其HTML結(jié)構(gòu)上的相似性,但是很少雙語平行網(wǎng)頁在HTML結(jié)構(gòu)上是完全一致的,其中的噪聲很大。因此,得到的雙語平行句對的質(zhì)量也不盡理想。本文提出了一種雙語平行句對的抽取技術(shù),不僅可以利用雙語平行網(wǎng)頁HTML結(jié)構(gòu)相似性這一優(yōu)點,而且可以牢牢把握住雙語平行句對互為翻譯這一本質(zhì)特征,從而取得到了很好的效果。
最后,我們實現(xiàn)了上述三個方面的技術(shù),搭建了一個可以持續(xù)獲取大規(guī)模的雙語平行語料庫的平臺。
目錄
摘 要 I
目錄 V
圖目錄 IX
表目錄 X
第一章 引 言 11
1.1概述 11
1.1.1研究背景 11
1.1.2國內(nèi)外研究現(xiàn)狀分析 12
1.1.3現(xiàn)有系統(tǒng)介紹與比較 14
1.2主要研究目標和內(nèi)容 16
1.2.1 研究目標 16
1.2.2 研究內(nèi)容 17
1.3論文組織結(jié)構(gòu) 17
第二章 基于WEB的雙語平行語料庫獲取的總體架構(gòu) 18
2.1 基本流程 18
2.2 任務(wù)分析與界定 19
2.2.1雙語候選資源獲取與預處理 19
2.2.2雙語候選網(wǎng)頁獲取 20
2.2.3雙語平行網(wǎng)頁獲取 20
2.2.4雙語平行句對抽取 20
2.3 本章小結(jié) 21
第三章 雙語候選資源獲取與預處理 22
3.1研究現(xiàn)狀 22
3.2網(wǎng)頁間平行語料獲取途徑 22
3.3網(wǎng)頁內(nèi)部平行語料獲取途徑 23
3.3.1基本思想 23
3.3.2可行性評估實驗 23
3.4 網(wǎng)頁解析與去噪聲 24
3.4.1網(wǎng)頁內(nèi)容解析 24
3.4.2去噪聲處理 24
3.4.2網(wǎng)頁語種識別與編碼轉(zhuǎn)換 25
3.5本章小結(jié) 25
第四章 雙語網(wǎng)頁URL命名模板的自動發(fā)現(xiàn) 26
4.1相關(guān)研究 26
4.2雙語平行網(wǎng)頁URL命名模板的抽象與定義方法 27
4.2雙語平行網(wǎng)頁URL命名模板的自動發(fā)現(xiàn)算法 29
4.3 獲取具有 URL 命名相似性的雙語候選網(wǎng)頁算法 31
4.4實驗與分析 32
4.4.1數(shù)據(jù)描述與實驗設(shè)置 32
4.4.2實驗結(jié)果 32
4.5本章小結(jié) 33
第五章 雙語平行網(wǎng)頁獲取 34
5.1相關(guān)研究 34
5.2基于最大熵分類器的雙語平行網(wǎng)頁獲取 35
5.2.1最大熵分類器 35
5.2.2特征抽取 36
5.2.3模型訓練 38
5.3實驗與分析 39
5.3.1數(shù)據(jù)描述與實驗設(shè)置 39
5.3.2實驗結(jié)果 39
5.4本章小結(jié) 39
第六章 雙語平行句對抽取 40
6.1相關(guān)研究 40
6.2雙語平行句對抽取模型 41
6.2.1模型基本思想 41
6.2.2生成雙語候選句對集合 41
6.2.3特征抽取 42
6.2.4分類與后處理過程 44
6.3 實驗與分析 44
6.3.1數(shù)據(jù)描述與實驗設(shè)置 44
6.3.2實驗結(jié)果 44
6.4本章小結(jié) 45
第七章 雙語平行語料庫自動獲取平臺(PPSM)系統(tǒng)實現(xiàn) 46
7.1 主要進程介紹 46
7.2 進程間的數(shù)據(jù)傳遞 47
7.3 系統(tǒng)性能介紹 47
7.4 系統(tǒng)成果 48
7.5 本章小結(jié) 48
第八章 總結(jié) 49
8.1總結(jié) 49
8.2下一步工作 50
附錄一 網(wǎng)頁間平行資源-錨文本列表 52
附錄二 網(wǎng)頁內(nèi)部平行資源-錨文本列表 53
附錄二 HTML特殊字符轉(zhuǎn)換表 54
附錄三 可處理的網(wǎng)頁文件類型 55
參考文獻 56
致 謝 59

關(guān)鍵詞: 雙語平行語料庫,網(wǎng)頁挖掘,雙語平行句對,統(tǒng)計機器翻譯
參考文獻
[1] Philip Resnik. Parallel strands: a preliminary investigation into mining the web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-2, 1998.
[2] Church, K. and Mercer, R., “Introduction to the Special Issue on Computational Linguistics Using Large Corpora,” CL 19:1, pp. 1-24, 1993.
[3] Jiang Chen and Jian-Yun Nie. Automatic construction of parallel english-chinese corpus for cross-language information retrieval. In: Proceedings of the International Conference on Chinese Language Computing. San Francisco, pages 21-28, 2000.
[4] Philip Resnik. Parallel strands: a preliminary investigation into mining the Web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-82, 1998.
[5] Philip Resnik and Noah A. Smith. The Web as a parallel corpus. Computational Linguistics, volume 29, pages 349-380.
[6] Xiaoyi Ma and Mark Y. Liberman. Bits: A method for bilingual text search over the Web. In: Proceedings of the Machine Translation Summit VII, 1999.
[7] Jisong Chen, Rowena Chau, and Chung-Hsing Yeh. Discovering parallel text from the World Wide WEB . In CRPIT’32: Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Internationalization. Australia, pages 157-61, 2004.
[8] Ying Zhang, Ke. Wu, Jianfeng Gao, and P. Vines. Automatic acquisition of chinese-english parallel corpus from the web. In: Proceedings of ECIR-06, 28th European Conference on Information Retrieval. ACL, 2006.
[9] Cavnar, W. B. and J. M. Trenkle, ``N-Gram-Based Text Categorization'' In Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, UNLV Publications/Reprographics, pp. 161-175, 11-13 April 1994
[10] E. T. Jaynes, “Information Theory and Statistical Mechanics. II,” Physical Review, vol. 108, no. 2, pp. 171-190; October 15, 1957.
[11] Brown, P. F., J. C. Lai and R. L. Mercer. 1991. Aligning Sentences in arallel Corpora. In Proceedings of 29th Annual Meeting of the Association for omputational Linguistics.
[12] Chen, S. 1993. Aligning Sentences in Bilingual Corpora Using Lexical Information. In Proceedings of 31st Annual Meeting of the Association for Computational Linguistics.
[13] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[14] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[15] Zhao B. and S. Vogel. 2002. Adaptive Parallel Sentences Mining From Web Bilingual News Collection. In 2002 IEEE International Conference on Data Mining. page: 745.
[16] Lei Shi, Cheng Niu, Ming Zhou, and Jianfeng Gao. A dom tree alignment model for mining parallel data from the web. In: Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL. Sydney, pages 489-496, 2006.
[17] Dragos Stefan Munteanu and Daniel Marcu. Improving machine translation performance by exploiting non-parallel corpora. Computational Linguistics, volume 31, pages 477-504.
[18] Fei Huang, Ying Zhang and Stephan Vogel. Mingning Key Phrase Translations from Web Corpora, in the Proceedings of the LT-EMNLP-2005:483-490
[19] Dekai WU and Pascale FUNG Inversion Transduction Grammar Constraints for Mining Parallel Sentences from Quasi-Comparable Corpora”. Second International Jint Conference on Natural Language Processing(IJCNLP-2005): 257-268
[20] Gaolin, Hao Yu, Fumihito Nishino. Web-Based Terminology Translation Mining Second International Joint Conference on Natural Language Processing(IJCNLP-2005):1004-1016
[21] Zhang Y. and Vines, Using the Web for Automated Translation Extraction in Cross-Language Information Retrieval In Proceedings of SIGIR-2004:162-169
[22] C.C.Yang and K. W. Li Ming English/Chinese Parallel Documents from the World Wide WEB. Proceedings of the International World Wide WEB Conference, Honolulu, Hawaii, 2002.
[23] Yunbo Cao, Huang Li: Base Boun Phrase Translation Using Web Data and the EM Algorithm Proceedings of the 20th International Conference on Computational Linguistic(COLONG 2002):127-133
[24] 劉非凡,趙軍,徐波。大規(guī)模非限定領(lǐng)域漢英雙語語料庫建設(shè)及句子對齊研究。全國第7屆計算語言聯(lián)合學術(shù)會議,20003:339-345
[25] 常寶寶,詹衛(wèi)東,張化瑞。面向漢英機器翻譯的雙語語料庫的建設(shè)及其管理,《術(shù)語標準化與信息技術(shù)》,2003(1):28-31
[26] 常寶寶、柏曉靜。北京大學漢英雙語平行語料庫標記規(guī)范,《漢語語言于計算學報》,2003.13(2):195-214
[27] 揭春雨,劉曉月,冼景炬,衛(wèi)真道. 從網(wǎng)絡(luò)獲取香港法律雙語語料庫. 全國第八屆計算語言學聯(lián)合學術(shù)會議(JSCL-2005):193-199
[28] Pu-Jen Cheng, Wen-Hsiang Lu, Jer-Wen Teng, Lee-Feng Chien. Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora. Annual Meeting of the Association for Computational Linguistics (ACL-2004).
[29] Fei Huang, Ying Zhang and Stephan Vogel. Mining Key Phrase Translations from Web Corpora, in the Proceedings of the HLT-EMNLP-2005:483-490
[30] Tao Tao, ChengXiang Zhai , Mining Comparable Bilingual Text Corpora for Cross-Language Information Integration
[31] Ying Zhang, Fei Huang, Stephan Vogel, Mining Translations of OOV Terms from the Web through Crosslingual Query Expansion
[32] 原雙慶,李芳,盛煥燁. 多語種翻譯詞匯的在線自動抽取. 計算機研究與發(fā)展, 2004.5:843-847