中文文本語料庫研究.doc
約27頁DOC格式手機打開展開
中文文本語料庫研究,25頁 1.8萬字 論述詳盡,推薦下載參考。摘要語料庫語言學是當代計算機學語言學中經(jīng)驗主義論取得顯著成效從而在計算機語言學領域占有一定的優(yōu)勢地位的新學科方向。語料庫是自然語言處理領域的基礎性資源,因此語料庫建設和研究就成為計算機語言學的重要工作之一。本文是研究中文文本中語料庫的建立與設計。我們采用手工...
內(nèi)容介紹
此文檔由會員 Facebook 發(fā)布
中文文本語料庫研究
25頁 1.8萬字 論述詳盡,推薦下載參考。
摘要
語料庫語言學是當代計算機學語言學中經(jīng)驗主義論取得顯著成效從而在計算機語言學領域占有一定的優(yōu)勢地位的新學科方向。語料庫是自然語言處理領域的基礎性資源,因此語料庫建設和研究就成為計算機語言學的重要工作之一。本文是研究中文文本中語料庫的建立與設計。我們采用手工或軟件形式獲得語料庫,并用對語料庫進行加工整理。
關鍵詞:文本自動校對、語料庫、索引。
Abstract
Corpus Linguistic, a successful empirical methodology, now is a prevailed newtrend in Computational Linguistic field. Corpus is fundamental resource for Natural Language Processing. So some theory and method in different with rational methodology is required that means the construction and research on corpus issue is the basic of Computational Linguistic. This paper attempts to research into corpus for Chinese text. We adopt the handicraf....
Abstract 1
Keywords: Chinese Proofreading, corpus, index. 1
1.2 語料庫的發(fā)展歷史 2
1.2.1 早期的語料庫 2
1.2.2 喬姆斯基的轉換生成語法時期 2
1.2.4 現(xiàn)代語料庫與早期相比 2
1.3 語料庫的基本特征 4
1.4 語料庫的發(fā)展方向及前景 4
1.4.1 基礎語料庫的發(fā)展 4
1.4.2 語料標注的發(fā)展 4
1.5 計算機在語料庫中的作用 5
1.6 語料庫的研究內(nèi)容 5
1.6.1 語料庫的建設與編撰 5
1.6.2 語料庫的加工和管理計數(shù) 5
1.6.3 語言研究中的語料庫的使用 5
2.1 中文文本自動校對(The Chinese Proofreading) 6
2.2 語料庫在中文文本自動校對中的重要作用 7
2.2.1 為何需要語料庫? 7
2.2.2 基于語料庫和統(tǒng)計進行校對 7
3.1 按出錯來源分 8
3.1.2 識別錯誤 9
3.1.3 原稿錯誤 9
3.2 按預校對文本句子語法、語義來分 9
3.2.1 構詞錯誤 9
3.2.2 句法錯誤 9
(1) 詞性搭配錯誤: 9
(2) 關聯(lián)詞語搭配錯誤:如原稿出錯 9
3.2.3 語義錯誤 9
4.1.1 建立針對性、專用性的語料 10
4.1.3 典型性 10
4.1.4 規(guī)模 10
4.2 語料庫的設計 11
4.2.1 語料的來源 11
4.2.2 許可權 11
4.2.3 設計方案 12
4.2.4 維護 13
4.3 語料庫建立的措施 13
4.3.1 純文本原則 13
4.3.2 獲取方式 13
4.3.3 對非文本的轉換工作 14
4.4.1 合并后文本中存在的問題 15
4.4.2 編寫整理軟件 15
4.4.3 統(tǒng)計 18
5.1 文本索引 18
5.2 索引的意義 18
5.3.2 KWIC索引 20
5.3.4 詞語范型(pattern)統(tǒng)計 21
5.3.6 主題詞提?。╧ey word list)與詞圖(plot) 21
5.4 可用資源與索引軟件 21
第五章 畢業(yè)設計心得體會 23
部分參考文獻
[4] 翁富良等 “計算語言學導論” 中國社會科學了版社 1998年9月 第1版。
[5] John Sinclair “Corpus Concordance Collocation” 上海外語教育出版社 1999。
[6] 張仰森、丁冰青 “中文文本自動校對技術現(xiàn)狀及展望” 中文信息學報 1998第3期。
[7] 黃昌寧等 “語料庫語言學” 中國計算機用戶 1990.11。
[8] 張磊、周明、黃昌寧、潘海華 “中文文本自動校對” 語言文字應用 2001 第1期。
25頁 1.8萬字 論述詳盡,推薦下載參考。
摘要
語料庫語言學是當代計算機學語言學中經(jīng)驗主義論取得顯著成效從而在計算機語言學領域占有一定的優(yōu)勢地位的新學科方向。語料庫是自然語言處理領域的基礎性資源,因此語料庫建設和研究就成為計算機語言學的重要工作之一。本文是研究中文文本中語料庫的建立與設計。我們采用手工或軟件形式獲得語料庫,并用對語料庫進行加工整理。
關鍵詞:文本自動校對、語料庫、索引。
Abstract
Corpus Linguistic, a successful empirical methodology, now is a prevailed newtrend in Computational Linguistic field. Corpus is fundamental resource for Natural Language Processing. So some theory and method in different with rational methodology is required that means the construction and research on corpus issue is the basic of Computational Linguistic. This paper attempts to research into corpus for Chinese text. We adopt the handicraf....
Abstract 1
Keywords: Chinese Proofreading, corpus, index. 1
1.2 語料庫的發(fā)展歷史 2
1.2.1 早期的語料庫 2
1.2.2 喬姆斯基的轉換生成語法時期 2
1.2.4 現(xiàn)代語料庫與早期相比 2
1.3 語料庫的基本特征 4
1.4 語料庫的發(fā)展方向及前景 4
1.4.1 基礎語料庫的發(fā)展 4
1.4.2 語料標注的發(fā)展 4
1.5 計算機在語料庫中的作用 5
1.6 語料庫的研究內(nèi)容 5
1.6.1 語料庫的建設與編撰 5
1.6.2 語料庫的加工和管理計數(shù) 5
1.6.3 語言研究中的語料庫的使用 5
2.1 中文文本自動校對(The Chinese Proofreading) 6
2.2 語料庫在中文文本自動校對中的重要作用 7
2.2.1 為何需要語料庫? 7
2.2.2 基于語料庫和統(tǒng)計進行校對 7
3.1 按出錯來源分 8
3.1.2 識別錯誤 9
3.1.3 原稿錯誤 9
3.2 按預校對文本句子語法、語義來分 9
3.2.1 構詞錯誤 9
3.2.2 句法錯誤 9
(1) 詞性搭配錯誤: 9
(2) 關聯(lián)詞語搭配錯誤:如原稿出錯 9
3.2.3 語義錯誤 9
4.1.1 建立針對性、專用性的語料 10
4.1.3 典型性 10
4.1.4 規(guī)模 10
4.2 語料庫的設計 11
4.2.1 語料的來源 11
4.2.2 許可權 11
4.2.3 設計方案 12
4.2.4 維護 13
4.3 語料庫建立的措施 13
4.3.1 純文本原則 13
4.3.2 獲取方式 13
4.3.3 對非文本的轉換工作 14
4.4.1 合并后文本中存在的問題 15
4.4.2 編寫整理軟件 15
4.4.3 統(tǒng)計 18
5.1 文本索引 18
5.2 索引的意義 18
5.3.2 KWIC索引 20
5.3.4 詞語范型(pattern)統(tǒng)計 21
5.3.6 主題詞提?。╧ey word list)與詞圖(plot) 21
5.4 可用資源與索引軟件 21
第五章 畢業(yè)設計心得體會 23
部分參考文獻
[4] 翁富良等 “計算語言學導論” 中國社會科學了版社 1998年9月 第1版。
[5] John Sinclair “Corpus Concordance Collocation” 上海外語教育出版社 1999。
[6] 張仰森、丁冰青 “中文文本自動校對技術現(xiàn)狀及展望” 中文信息學報 1998第3期。
[7] 黃昌寧等 “語料庫語言學” 中國計算機用戶 1990.11。
[8] 張磊、周明、黃昌寧、潘海華 “中文文本自動校對” 語言文字應用 2001 第1期。