基于web的大規(guī)模雙語(yǔ)平行語(yǔ)料庫(kù)自動(dòng)獲取技術(shù)研究與系統(tǒng)實(shí)現(xiàn).doc
約60頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)
基于web的大規(guī)模雙語(yǔ)平行語(yǔ)料庫(kù)自動(dòng)獲取技術(shù)研究與系統(tǒng)實(shí)現(xiàn),60頁(yè)共計(jì)31159字摘 要大規(guī)模雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)與獲取存在著很大的困難,雖然各國(guó)都投入了大量的人力、物力和財(cái)力來(lái)加強(qiáng)雙語(yǔ)語(yǔ)料庫(kù)的建設(shè),但現(xiàn)有雙語(yǔ)語(yǔ)料庫(kù)在規(guī)模、時(shí)效性和領(lǐng)域平衡性等方面還不能滿(mǎn)足處理真實(shí)文本的需要。這也間接導(dǎo)致了目前的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)仍然主要處于實(shí)驗(yàn)室開(kāi)發(fā)研究階段,離實(shí)際的應(yīng)用還有一定的距離。本文致力于...


內(nèi)容介紹
此文檔由會(huì)員 bfxqt 發(fā)布
60頁(yè)共計(jì)31159字
摘 要
大規(guī)模雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)與獲取存在著很大的困難,雖然各國(guó)都投入了大量的人力、物力和財(cái)力來(lái)加強(qiáng)雙語(yǔ)語(yǔ)料庫(kù)的建設(shè),但現(xiàn)有雙語(yǔ)語(yǔ)料庫(kù)在規(guī)模、時(shí)效性和領(lǐng)域平衡性等方面還不能滿(mǎn)足處理真實(shí)文本的需要。這也間接導(dǎo)致了目前的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)仍然主要處于實(shí)驗(yàn)室開(kāi)發(fā)研究階段,離實(shí)際的應(yīng)用還有一定的距離。本文致力于構(gòu)建一個(gè)基于Web的大規(guī)模雙語(yǔ)平行語(yǔ)料庫(kù)自動(dòng)獲取平臺(tái)。取得主要成果有以下幾方面:
1. 研究了雙語(yǔ)平行資源在互聯(lián)網(wǎng)上的存在形式并探索了相應(yīng)的獲取方法
互聯(lián)網(wǎng)上雖然存在著海量的多語(yǔ)言文本資源,但任何系統(tǒng)都無(wú)法將所有的互聯(lián)網(wǎng)文本進(jìn)行處理,從而獲取所需的特定雙語(yǔ)平行的語(yǔ)料庫(kù)。因此需要定義一種啟發(fā)式信息來(lái)概括這類(lèi)多語(yǔ)種平行文本存在的共同特征,以此作為一個(gè)有效的入口,來(lái)獲取我們關(guān)心的Web資源。以往的系統(tǒng)都致力從一些雙語(yǔ)網(wǎng)站中獲取互為翻譯的雙語(yǔ)網(wǎng)頁(yè)對(duì)。但是通過(guò)觀察,我們發(fā)現(xiàn)在Web上雙語(yǔ)平行資源不僅存在于兩個(gè)平行的單語(yǔ)網(wǎng)頁(yè)中,還存在于雙語(yǔ)對(duì)照的同一網(wǎng)頁(yè)中。本文對(duì)這兩種資源都定義了有效的啟發(fā)式信息,從而很好地解決了大規(guī)模數(shù)據(jù)的來(lái)源問(wèn)題。
2. 提出了基于URL命名相似性的雙語(yǔ)候選網(wǎng)頁(yè)獲取算法
網(wǎng)絡(luò)作者在進(jìn)行雙語(yǔ)平行網(wǎng)頁(yè)URL命名時(shí)往往具有一定的規(guī)律性,兩個(gè)URL之間一般只有與語(yǔ)種相關(guān)的部分字符串不相同。以往的系統(tǒng)在這個(gè)環(huán)節(jié)需要預(yù)先定義在URL命名中常見(jiàn)的與特定語(yǔ)種相關(guān)的前后綴表。本文提出了一種可以自動(dòng)發(fā)現(xiàn)一個(gè)具有命名規(guī)律性的雙語(yǔ)網(wǎng)站中雙語(yǔ)平行網(wǎng)頁(yè)之間命名規(guī)律的方法,不再依賴(lài)預(yù)定義。實(shí)驗(yàn)表明,本文的方法不僅可以發(fā)現(xiàn)所有常見(jiàn)的URL命名規(guī)律,而且還可以找出不同的網(wǎng)頁(yè)編輯者帶個(gè)人特色的URL命名規(guī)律,從而可以找出盡可能多的可信的中英候選網(wǎng)頁(yè)對(duì)。綜合各方面的評(píng)估與評(píng)價(jià),該方法可以充分挖掘出具有命名相似性的雙語(yǔ)網(wǎng)站中存在的雙語(yǔ)平行網(wǎng)頁(yè),初步解決了雙語(yǔ)語(yǔ)料庫(kù)的獲取難題,達(dá)到了本文預(yù)期的目的。
3. 改進(jìn)了雙語(yǔ)平行句對(duì)抽取技術(shù)
雙語(yǔ)平行的網(wǎng)頁(yè)文本不同于一般的雙語(yǔ)對(duì)照文本,其中不僅存在有用的雙語(yǔ)對(duì)照信息,還存在一定的無(wú)關(guān)信息;此外,網(wǎng)頁(yè)文本中的詞匯量也大大超出任何一本雙語(yǔ)詞典的范圍。這些都造成了對(duì)雙語(yǔ)平行網(wǎng)頁(yè)進(jìn)行句子對(duì)齊的難度。以往的系統(tǒng)在這方面研究都是利用雙語(yǔ)平行網(wǎng)頁(yè)在其HTML結(jié)構(gòu)上的相似性,但是很少雙語(yǔ)平行網(wǎng)頁(yè)在HTML結(jié)構(gòu)上是完全一致的,其中的噪聲很大。因此,得到的雙語(yǔ)平行句對(duì)的質(zhì)量也不盡理想。本文提出了一種雙語(yǔ)平行句對(duì)的抽取技術(shù),不僅可以利用雙語(yǔ)平行網(wǎng)頁(yè)HTML結(jié)構(gòu)相似性這一優(yōu)點(diǎn),而且可以牢牢把握住雙語(yǔ)平行句對(duì)互為翻譯這一本質(zhì)特征,從而取得到了很好的效果。
最后,我們實(shí)現(xiàn)了上述三個(gè)方面的技術(shù),搭建了一個(gè)可以持續(xù)獲取大規(guī)模的雙語(yǔ)平行語(yǔ)料庫(kù)的平臺(tái)。
目錄
摘 要 I
目錄 V
圖目錄 IX
表目錄 X
第一章 引 言 11
1.1概述 11
1.1.1研究背景 11
1.1.2國(guó)內(nèi)外研究現(xiàn)狀分析 12
1.1.3現(xiàn)有系統(tǒng)介紹與比較 14
1.2主要研究目標(biāo)和內(nèi)容 16
1.2.1 研究目標(biāo) 16
1.2.2 研究?jī)?nèi)容 17
1.3論文組織結(jié)構(gòu) 17
第二章 基于WEB的雙語(yǔ)平行語(yǔ)料庫(kù)獲取的總體架構(gòu) 18
2.1 基本流程 18
2.2 任務(wù)分析與界定 19
2.2.1雙語(yǔ)候選資源獲取與預(yù)處理 19
2.2.2雙語(yǔ)候選網(wǎng)頁(yè)獲取 20
2.2.3雙語(yǔ)平行網(wǎng)頁(yè)獲取 20
2.2.4雙語(yǔ)平行句對(duì)抽取 20
2.3 本章小結(jié) 21
第三章 雙語(yǔ)候選資源獲取與預(yù)處理 22
3.1研究現(xiàn)狀 22
3.2網(wǎng)頁(yè)間平行語(yǔ)料獲取途徑 22
3.3網(wǎng)頁(yè)內(nèi)部平行語(yǔ)料獲取途徑 23
3.3.1基本思想 23
3.3.2可行性評(píng)估實(shí)驗(yàn) 23
3.4 網(wǎng)頁(yè)解析與去噪聲 24
3.4.1網(wǎng)頁(yè)內(nèi)容解析 24
3.4.2去噪聲處理 24
3.4.2網(wǎng)頁(yè)語(yǔ)種識(shí)別與編碼轉(zhuǎn)換 25
3.5本章小結(jié) 25
第四章 雙語(yǔ)網(wǎng)頁(yè)URL命名模板的自動(dòng)發(fā)現(xiàn) 26
4.1相關(guān)研究 26
4.2雙語(yǔ)平行網(wǎng)頁(yè)URL命名模板的抽象與定義方法 27
4.2雙語(yǔ)平行網(wǎng)頁(yè)URL命名模板的自動(dòng)發(fā)現(xiàn)算法 29
4.3 獲取具有 URL 命名相似性的雙語(yǔ)候選網(wǎng)頁(yè)算法 31
4.4實(shí)驗(yàn)與分析 32
4.4.1數(shù)據(jù)描述與實(shí)驗(yàn)設(shè)置 32
4.4.2實(shí)驗(yàn)結(jié)果 32
4.5本章小結(jié) 33
第五章 雙語(yǔ)平行網(wǎng)頁(yè)獲取 34
5.1相關(guān)研究 34
5.2基于最大熵分類(lèi)器的雙語(yǔ)平行網(wǎng)頁(yè)獲取 35
5.2.1最大熵分類(lèi)器 35
5.2.2特征抽取 36
5.2.3模型訓(xùn)練 38
5.3實(shí)驗(yàn)與分析 39
5.3.1數(shù)據(jù)描述與實(shí)驗(yàn)設(shè)置 39
5.3.2實(shí)驗(yàn)結(jié)果 39
5.4本章小結(jié) 39
第六章 雙語(yǔ)平行句對(duì)抽取 40
6.1相關(guān)研究 40
6.2雙語(yǔ)平行句對(duì)抽取模型 41
6.2.1模型基本思想 41
6.2.2生成雙語(yǔ)候選句對(duì)集合 41
6.2.3特征抽取 42
6.2.4分類(lèi)與后處理過(guò)程 44
6.3 實(shí)驗(yàn)與分析 44
6.3.1數(shù)據(jù)描述與實(shí)驗(yàn)設(shè)置 44
6.3.2實(shí)驗(yàn)結(jié)果 44
6.4本章小結(jié) 45
第七章 雙語(yǔ)平行語(yǔ)料庫(kù)自動(dòng)獲取平臺(tái)(PPSM)系統(tǒng)實(shí)現(xiàn) 46
7.1 主要進(jìn)程介紹 46
7.2 進(jìn)程間的數(shù)據(jù)傳遞 47
7.3 系統(tǒng)性能介紹 47
7.4 系統(tǒng)成果 48
7.5 本章小結(jié) 48
第八章 總結(jié) 49
8.1總結(jié) 49
8.2下一步工作 50
附錄一 網(wǎng)頁(yè)間平行資源-錨文本列表 52
附錄二 網(wǎng)頁(yè)內(nèi)部平行資源-錨文本列表 53
附錄二 HTML特殊字符轉(zhuǎn)換表 54
附錄三 可處理的網(wǎng)頁(yè)文件類(lèi)型 55
參考文獻(xiàn) 56
致 謝 59
關(guān)鍵詞: 雙語(yǔ)平行語(yǔ)料庫(kù),網(wǎng)頁(yè)挖掘,雙語(yǔ)平行句對(duì),統(tǒng)計(jì)機(jī)器翻譯
參考文獻(xiàn)
[1] Philip Resnik. Parallel strands: a preliminary investigation into mining the web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-2, 1998.
[2] Church, K. and Mercer, R., “Introduction to the Special Issue on Computational Linguistics Using Large Corpora,” CL 19:1, pp. 1-24, 1993.
[3] Jiang Chen and Jian-Yun Nie. Automatic construction of parallel english-chinese corpus for cross-language information retrieval. In: Proceedings of the International Conference on Chinese Language Computing. San Francisco, pages 21-28, 2000.
[4] Philip Resnik. Parallel strands: a preliminary investigation into mining the Web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-82, 1998.
[5] Philip Resnik and Noah A. Smith. The Web as a parallel corpus. Computational Linguistics, volume 29, pages 349-380.
[6] Xiaoyi Ma and Mark Y. Liberman. Bits: A method for bilingual text search over the Web. In: Proceedings of the Machine Translation Summit VII, 1999.
[7] Jisong Chen, Rowena Chau, and Chung-Hsing Yeh. Discovering parallel text from the World Wide WEB . In CRPIT’32: Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Internationalization. Australia, pages 157-61, 2004.
[8] Ying Zhang, Ke. Wu, Jianfeng Gao, and P. Vines. Automatic acquisition of chinese-english parallel corpus from the web. In: Proceedings of ECIR-06, 28th European Conference on Information Retrieval. ACL, 2006.
[9] Cavnar, W. B. and J. M. Trenkle, ``N-Gram-Based Text Categorization'' In Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, UNLV Publications/Reprographics, pp. 161-175, 11-13 April 1994
[10] E. T. Jaynes, “Information Theory and Statistical Mechanics. II,” Physical Review, vol. 108, no. 2, pp. 171-190; October 15, 1957.
[11] Brown, P. F., J. C. Lai and R. L. Mercer. 1991. Aligning Sentences in arallel Corpora. In Proceedings of 29th Annual Meeting of the Association for omputational Linguistics.
[12] Chen, S. 1993. Aligning Sentences in Bilingual Corpora Using Lexical Information. In Proceedings of 31st Annual Meeting of the Association for Computational Linguistics.
[13] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[14] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[15] Zhao B. and S. Vogel. 2002. Adaptive Parallel Sentences Mining From Web Bilingual News Collection. In 2002 IEEE International Conference on Data Mining. page: 745.
[16] Lei Shi, Cheng Niu, Ming Zhou, and Jianfeng Gao. A dom tree alignment model for mining parallel data from the web. In: Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL. Sydney, pages 489-496, 2006.
[17] Dragos Stefan Munteanu and Daniel Marcu. Improving machine translation performance by exploiting non-parallel corpora. Computational Linguistics, volume 31, pages 477-504.
[18] Fei Huang, Ying Zhang and Stephan Vogel. Mingning Key Phrase Translations from Web Corpora, in the Proceedings of the LT-EMNLP-2005:483-490
[19] Dekai WU and Pascale FUNG Inversion Transduction Grammar Constraints for Mining Parallel Sentences from Quasi-Comparable Corpora”. Second International Jint Conference on Natural Language Processing(IJCNLP-2005): 257-268
[20] Gaolin, Hao Yu, Fumihito Nishino. Web-Based Terminology Translation Mining Second International Joint Conference on Natural Language Processing(IJCNLP-2005):1004-1016
[21] Zhang Y. and Vines, Using the Web for Automated Translation Extraction in Cross-Language Information Retrieval In Proceedings of SIGIR-2004:162-169
[22] C.C.Yang and K. W. Li Ming English/Chinese Parallel Documents from the World Wide WEB. Proceedings of the International World Wide WEB Conference, Honolulu, Hawaii, 2002.
[23] Yunbo Cao, Huang Li: Base Boun Phrase Translation Using Web Data and the EM Algorithm Proceedings of the 20th International Conference on Computational Linguistic(COLONG 2002):127-133
[24] 劉非凡,趙軍,徐波。大規(guī)模非限定領(lǐng)域漢英雙語(yǔ)語(yǔ)料庫(kù)建設(shè)及句子對(duì)齊研究。全國(guó)第7屆計(jì)算語(yǔ)言聯(lián)合學(xué)術(shù)會(huì)議,20003:339-345
[25] 常寶寶,詹衛(wèi)東,張化瑞。面向漢英機(jī)器翻譯的雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)及其管理,《術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù)》,2003(1):28-31
[26] 常寶寶、柏曉靜。北京大學(xué)漢英雙語(yǔ)平行語(yǔ)料庫(kù)標(biāo)記規(guī)范,《漢語(yǔ)語(yǔ)言于計(jì)算學(xué)報(bào)》,2003.13(2):195-214
[27] 揭春雨,劉曉月,冼景炬,衛(wèi)真道. 從網(wǎng)絡(luò)獲取香港法律雙語(yǔ)語(yǔ)料庫(kù). 全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005):193-199
[28] Pu-Jen Cheng, Wen-Hsiang Lu, Jer-Wen Teng, Lee-Feng Chien. Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora. Annual Meeting of the Association for Computational Linguistics (ACL-2004).
[29] Fei Huang, Ying Zhang and Stephan Vogel. Mining Key Phrase Translations from Web Corpora, in the Proceedings of the HLT-EMNLP-2005:483-490
[30] Tao Tao, ChengXiang Zhai , Mining Comparable Bilingual Text Corpora for Cross-Language Information Integration
[31] Ying Zhang, Fei Huang, Stephan Vogel, Mining Translations of OOV Terms from the Web through Crosslingual Query Expansion
[32] 原雙慶,李芳,盛煥燁. 多語(yǔ)種翻譯詞匯的在線(xiàn)自動(dòng)抽取. 計(jì)算機(jī)研究與發(fā)展, 2004.5:843-847
摘 要
大規(guī)模雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)與獲取存在著很大的困難,雖然各國(guó)都投入了大量的人力、物力和財(cái)力來(lái)加強(qiáng)雙語(yǔ)語(yǔ)料庫(kù)的建設(shè),但現(xiàn)有雙語(yǔ)語(yǔ)料庫(kù)在規(guī)模、時(shí)效性和領(lǐng)域平衡性等方面還不能滿(mǎn)足處理真實(shí)文本的需要。這也間接導(dǎo)致了目前的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)仍然主要處于實(shí)驗(yàn)室開(kāi)發(fā)研究階段,離實(shí)際的應(yīng)用還有一定的距離。本文致力于構(gòu)建一個(gè)基于Web的大規(guī)模雙語(yǔ)平行語(yǔ)料庫(kù)自動(dòng)獲取平臺(tái)。取得主要成果有以下幾方面:
1. 研究了雙語(yǔ)平行資源在互聯(lián)網(wǎng)上的存在形式并探索了相應(yīng)的獲取方法
互聯(lián)網(wǎng)上雖然存在著海量的多語(yǔ)言文本資源,但任何系統(tǒng)都無(wú)法將所有的互聯(lián)網(wǎng)文本進(jìn)行處理,從而獲取所需的特定雙語(yǔ)平行的語(yǔ)料庫(kù)。因此需要定義一種啟發(fā)式信息來(lái)概括這類(lèi)多語(yǔ)種平行文本存在的共同特征,以此作為一個(gè)有效的入口,來(lái)獲取我們關(guān)心的Web資源。以往的系統(tǒng)都致力從一些雙語(yǔ)網(wǎng)站中獲取互為翻譯的雙語(yǔ)網(wǎng)頁(yè)對(duì)。但是通過(guò)觀察,我們發(fā)現(xiàn)在Web上雙語(yǔ)平行資源不僅存在于兩個(gè)平行的單語(yǔ)網(wǎng)頁(yè)中,還存在于雙語(yǔ)對(duì)照的同一網(wǎng)頁(yè)中。本文對(duì)這兩種資源都定義了有效的啟發(fā)式信息,從而很好地解決了大規(guī)模數(shù)據(jù)的來(lái)源問(wèn)題。
2. 提出了基于URL命名相似性的雙語(yǔ)候選網(wǎng)頁(yè)獲取算法
網(wǎng)絡(luò)作者在進(jìn)行雙語(yǔ)平行網(wǎng)頁(yè)URL命名時(shí)往往具有一定的規(guī)律性,兩個(gè)URL之間一般只有與語(yǔ)種相關(guān)的部分字符串不相同。以往的系統(tǒng)在這個(gè)環(huán)節(jié)需要預(yù)先定義在URL命名中常見(jiàn)的與特定語(yǔ)種相關(guān)的前后綴表。本文提出了一種可以自動(dòng)發(fā)現(xiàn)一個(gè)具有命名規(guī)律性的雙語(yǔ)網(wǎng)站中雙語(yǔ)平行網(wǎng)頁(yè)之間命名規(guī)律的方法,不再依賴(lài)預(yù)定義。實(shí)驗(yàn)表明,本文的方法不僅可以發(fā)現(xiàn)所有常見(jiàn)的URL命名規(guī)律,而且還可以找出不同的網(wǎng)頁(yè)編輯者帶個(gè)人特色的URL命名規(guī)律,從而可以找出盡可能多的可信的中英候選網(wǎng)頁(yè)對(duì)。綜合各方面的評(píng)估與評(píng)價(jià),該方法可以充分挖掘出具有命名相似性的雙語(yǔ)網(wǎng)站中存在的雙語(yǔ)平行網(wǎng)頁(yè),初步解決了雙語(yǔ)語(yǔ)料庫(kù)的獲取難題,達(dá)到了本文預(yù)期的目的。
3. 改進(jìn)了雙語(yǔ)平行句對(duì)抽取技術(shù)
雙語(yǔ)平行的網(wǎng)頁(yè)文本不同于一般的雙語(yǔ)對(duì)照文本,其中不僅存在有用的雙語(yǔ)對(duì)照信息,還存在一定的無(wú)關(guān)信息;此外,網(wǎng)頁(yè)文本中的詞匯量也大大超出任何一本雙語(yǔ)詞典的范圍。這些都造成了對(duì)雙語(yǔ)平行網(wǎng)頁(yè)進(jìn)行句子對(duì)齊的難度。以往的系統(tǒng)在這方面研究都是利用雙語(yǔ)平行網(wǎng)頁(yè)在其HTML結(jié)構(gòu)上的相似性,但是很少雙語(yǔ)平行網(wǎng)頁(yè)在HTML結(jié)構(gòu)上是完全一致的,其中的噪聲很大。因此,得到的雙語(yǔ)平行句對(duì)的質(zhì)量也不盡理想。本文提出了一種雙語(yǔ)平行句對(duì)的抽取技術(shù),不僅可以利用雙語(yǔ)平行網(wǎng)頁(yè)HTML結(jié)構(gòu)相似性這一優(yōu)點(diǎn),而且可以牢牢把握住雙語(yǔ)平行句對(duì)互為翻譯這一本質(zhì)特征,從而取得到了很好的效果。
最后,我們實(shí)現(xiàn)了上述三個(gè)方面的技術(shù),搭建了一個(gè)可以持續(xù)獲取大規(guī)模的雙語(yǔ)平行語(yǔ)料庫(kù)的平臺(tái)。
目錄
摘 要 I
目錄 V
圖目錄 IX
表目錄 X
第一章 引 言 11
1.1概述 11
1.1.1研究背景 11
1.1.2國(guó)內(nèi)外研究現(xiàn)狀分析 12
1.1.3現(xiàn)有系統(tǒng)介紹與比較 14
1.2主要研究目標(biāo)和內(nèi)容 16
1.2.1 研究目標(biāo) 16
1.2.2 研究?jī)?nèi)容 17
1.3論文組織結(jié)構(gòu) 17
第二章 基于WEB的雙語(yǔ)平行語(yǔ)料庫(kù)獲取的總體架構(gòu) 18
2.1 基本流程 18
2.2 任務(wù)分析與界定 19
2.2.1雙語(yǔ)候選資源獲取與預(yù)處理 19
2.2.2雙語(yǔ)候選網(wǎng)頁(yè)獲取 20
2.2.3雙語(yǔ)平行網(wǎng)頁(yè)獲取 20
2.2.4雙語(yǔ)平行句對(duì)抽取 20
2.3 本章小結(jié) 21
第三章 雙語(yǔ)候選資源獲取與預(yù)處理 22
3.1研究現(xiàn)狀 22
3.2網(wǎng)頁(yè)間平行語(yǔ)料獲取途徑 22
3.3網(wǎng)頁(yè)內(nèi)部平行語(yǔ)料獲取途徑 23
3.3.1基本思想 23
3.3.2可行性評(píng)估實(shí)驗(yàn) 23
3.4 網(wǎng)頁(yè)解析與去噪聲 24
3.4.1網(wǎng)頁(yè)內(nèi)容解析 24
3.4.2去噪聲處理 24
3.4.2網(wǎng)頁(yè)語(yǔ)種識(shí)別與編碼轉(zhuǎn)換 25
3.5本章小結(jié) 25
第四章 雙語(yǔ)網(wǎng)頁(yè)URL命名模板的自動(dòng)發(fā)現(xiàn) 26
4.1相關(guān)研究 26
4.2雙語(yǔ)平行網(wǎng)頁(yè)URL命名模板的抽象與定義方法 27
4.2雙語(yǔ)平行網(wǎng)頁(yè)URL命名模板的自動(dòng)發(fā)現(xiàn)算法 29
4.3 獲取具有 URL 命名相似性的雙語(yǔ)候選網(wǎng)頁(yè)算法 31
4.4實(shí)驗(yàn)與分析 32
4.4.1數(shù)據(jù)描述與實(shí)驗(yàn)設(shè)置 32
4.4.2實(shí)驗(yàn)結(jié)果 32
4.5本章小結(jié) 33
第五章 雙語(yǔ)平行網(wǎng)頁(yè)獲取 34
5.1相關(guān)研究 34
5.2基于最大熵分類(lèi)器的雙語(yǔ)平行網(wǎng)頁(yè)獲取 35
5.2.1最大熵分類(lèi)器 35
5.2.2特征抽取 36
5.2.3模型訓(xùn)練 38
5.3實(shí)驗(yàn)與分析 39
5.3.1數(shù)據(jù)描述與實(shí)驗(yàn)設(shè)置 39
5.3.2實(shí)驗(yàn)結(jié)果 39
5.4本章小結(jié) 39
第六章 雙語(yǔ)平行句對(duì)抽取 40
6.1相關(guān)研究 40
6.2雙語(yǔ)平行句對(duì)抽取模型 41
6.2.1模型基本思想 41
6.2.2生成雙語(yǔ)候選句對(duì)集合 41
6.2.3特征抽取 42
6.2.4分類(lèi)與后處理過(guò)程 44
6.3 實(shí)驗(yàn)與分析 44
6.3.1數(shù)據(jù)描述與實(shí)驗(yàn)設(shè)置 44
6.3.2實(shí)驗(yàn)結(jié)果 44
6.4本章小結(jié) 45
第七章 雙語(yǔ)平行語(yǔ)料庫(kù)自動(dòng)獲取平臺(tái)(PPSM)系統(tǒng)實(shí)現(xiàn) 46
7.1 主要進(jìn)程介紹 46
7.2 進(jìn)程間的數(shù)據(jù)傳遞 47
7.3 系統(tǒng)性能介紹 47
7.4 系統(tǒng)成果 48
7.5 本章小結(jié) 48
第八章 總結(jié) 49
8.1總結(jié) 49
8.2下一步工作 50
附錄一 網(wǎng)頁(yè)間平行資源-錨文本列表 52
附錄二 網(wǎng)頁(yè)內(nèi)部平行資源-錨文本列表 53
附錄二 HTML特殊字符轉(zhuǎn)換表 54
附錄三 可處理的網(wǎng)頁(yè)文件類(lèi)型 55
參考文獻(xiàn) 56
致 謝 59
關(guān)鍵詞: 雙語(yǔ)平行語(yǔ)料庫(kù),網(wǎng)頁(yè)挖掘,雙語(yǔ)平行句對(duì),統(tǒng)計(jì)機(jī)器翻譯
參考文獻(xiàn)
[1] Philip Resnik. Parallel strands: a preliminary investigation into mining the web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-2, 1998.
[2] Church, K. and Mercer, R., “Introduction to the Special Issue on Computational Linguistics Using Large Corpora,” CL 19:1, pp. 1-24, 1993.
[3] Jiang Chen and Jian-Yun Nie. Automatic construction of parallel english-chinese corpus for cross-language information retrieval. In: Proceedings of the International Conference on Chinese Language Computing. San Francisco, pages 21-28, 2000.
[4] Philip Resnik. Parallel strands: a preliminary investigation into mining the Web for bilingual text. In: Proceeding of the Third Conference of the Association for Machine Translation. America, pages 72-82, 1998.
[5] Philip Resnik and Noah A. Smith. The Web as a parallel corpus. Computational Linguistics, volume 29, pages 349-380.
[6] Xiaoyi Ma and Mark Y. Liberman. Bits: A method for bilingual text search over the Web. In: Proceedings of the Machine Translation Summit VII, 1999.
[7] Jisong Chen, Rowena Chau, and Chung-Hsing Yeh. Discovering parallel text from the World Wide WEB . In CRPIT’32: Proceedings of the second workshop on Australasian information security, Data Mining and Web Intelligence, and Software Internationalization. Australia, pages 157-61, 2004.
[8] Ying Zhang, Ke. Wu, Jianfeng Gao, and P. Vines. Automatic acquisition of chinese-english parallel corpus from the web. In: Proceedings of ECIR-06, 28th European Conference on Information Retrieval. ACL, 2006.
[9] Cavnar, W. B. and J. M. Trenkle, ``N-Gram-Based Text Categorization'' In Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, UNLV Publications/Reprographics, pp. 161-175, 11-13 April 1994
[10] E. T. Jaynes, “Information Theory and Statistical Mechanics. II,” Physical Review, vol. 108, no. 2, pp. 171-190; October 15, 1957.
[11] Brown, P. F., J. C. Lai and R. L. Mercer. 1991. Aligning Sentences in arallel Corpora. In Proceedings of 29th Annual Meeting of the Association for omputational Linguistics.
[12] Chen, S. 1993. Aligning Sentences in Bilingual Corpora Using Lexical Information. In Proceedings of 31st Annual Meeting of the Association for Computational Linguistics.
[13] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[14] Gale W. A. and K. Church. 1991. A Program for Aligning Sentences in Parallel Corpora. In Proceedings of 29th Annual Meeting of the Association for Computational Linguistics.
[15] Zhao B. and S. Vogel. 2002. Adaptive Parallel Sentences Mining From Web Bilingual News Collection. In 2002 IEEE International Conference on Data Mining. page: 745.
[16] Lei Shi, Cheng Niu, Ming Zhou, and Jianfeng Gao. A dom tree alignment model for mining parallel data from the web. In: Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL. Sydney, pages 489-496, 2006.
[17] Dragos Stefan Munteanu and Daniel Marcu. Improving machine translation performance by exploiting non-parallel corpora. Computational Linguistics, volume 31, pages 477-504.
[18] Fei Huang, Ying Zhang and Stephan Vogel. Mingning Key Phrase Translations from Web Corpora, in the Proceedings of the LT-EMNLP-2005:483-490
[19] Dekai WU and Pascale FUNG Inversion Transduction Grammar Constraints for Mining Parallel Sentences from Quasi-Comparable Corpora”. Second International Jint Conference on Natural Language Processing(IJCNLP-2005): 257-268
[20] Gaolin, Hao Yu, Fumihito Nishino. Web-Based Terminology Translation Mining Second International Joint Conference on Natural Language Processing(IJCNLP-2005):1004-1016
[21] Zhang Y. and Vines, Using the Web for Automated Translation Extraction in Cross-Language Information Retrieval In Proceedings of SIGIR-2004:162-169
[22] C.C.Yang and K. W. Li Ming English/Chinese Parallel Documents from the World Wide WEB. Proceedings of the International World Wide WEB Conference, Honolulu, Hawaii, 2002.
[23] Yunbo Cao, Huang Li: Base Boun Phrase Translation Using Web Data and the EM Algorithm Proceedings of the 20th International Conference on Computational Linguistic(COLONG 2002):127-133
[24] 劉非凡,趙軍,徐波。大規(guī)模非限定領(lǐng)域漢英雙語(yǔ)語(yǔ)料庫(kù)建設(shè)及句子對(duì)齊研究。全國(guó)第7屆計(jì)算語(yǔ)言聯(lián)合學(xué)術(shù)會(huì)議,20003:339-345
[25] 常寶寶,詹衛(wèi)東,張化瑞。面向漢英機(jī)器翻譯的雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)及其管理,《術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù)》,2003(1):28-31
[26] 常寶寶、柏曉靜。北京大學(xué)漢英雙語(yǔ)平行語(yǔ)料庫(kù)標(biāo)記規(guī)范,《漢語(yǔ)語(yǔ)言于計(jì)算學(xué)報(bào)》,2003.13(2):195-214
[27] 揭春雨,劉曉月,冼景炬,衛(wèi)真道. 從網(wǎng)絡(luò)獲取香港法律雙語(yǔ)語(yǔ)料庫(kù). 全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005):193-199
[28] Pu-Jen Cheng, Wen-Hsiang Lu, Jer-Wen Teng, Lee-Feng Chien. Creating Multilingual Translation Lexicons with Regional Variations Using Web Corpora. Annual Meeting of the Association for Computational Linguistics (ACL-2004).
[29] Fei Huang, Ying Zhang and Stephan Vogel. Mining Key Phrase Translations from Web Corpora, in the Proceedings of the HLT-EMNLP-2005:483-490
[30] Tao Tao, ChengXiang Zhai , Mining Comparable Bilingual Text Corpora for Cross-Language Information Integration
[31] Ying Zhang, Fei Huang, Stephan Vogel, Mining Translations of OOV Terms from the Web through Crosslingual Query Expansion
[32] 原雙慶,李芳,盛煥燁. 多語(yǔ)種翻譯詞匯的在線(xiàn)自動(dòng)抽取. 計(jì)算機(jī)研究與發(fā)展, 2004.5:843-847
TA們正在看...
- 小學(xué)語(yǔ)文閱讀理解的考點(diǎn).doc
- 小學(xué)語(yǔ)文閱讀理解解題技巧+練習(xí).doc
- 小學(xué)語(yǔ)文閱讀理解解題技巧+練習(xí)19802.doc
- 小學(xué)語(yǔ)文閱讀理解解題技巧+練習(xí)20131.doc
- 小學(xué)語(yǔ)文閱讀理解題型及方法.doc
- 小學(xué)語(yǔ)文陳述句轉(zhuǎn)換為轉(zhuǎn)述句的方法和練習(xí).doc
- 小學(xué)語(yǔ)文需要掌握的語(yǔ)法.doc
- 小學(xué)語(yǔ)文高效課堂個(gè)人總結(jié).doc
- 小學(xué)語(yǔ)文高效課堂總結(jié).doc
- 小學(xué)語(yǔ)文:詞性”匯總知識(shí)點(diǎn)學(xué)習(xí).doc