漢語分詞在中文信息處理軟件中應用.doc
約14頁DOC格式手機打開展開
漢語分詞在中文信息處理軟件中應用,1.1萬字 14頁摘要 漢語言詞語切分(以下簡稱分詞)是漢語信息處理系統(tǒng)中重要的一個環(huán)節(jié),它是將連續(xù)的缺乏詞的分隔標志的生語料,自動切分出以詞為單位的熟語料,也就是將字串分割成詞串。本文闡述了漢語言詞語分詞技術面臨的關鍵問題以及分詞常用的基本算法,通過對分詞技術在漢語信息處理軟件中的應用...
內容介紹
此文檔由會員 xiaowei 發(fā)布
漢語分詞在中文信息處理軟件中應用
1.1萬字 14頁
摘要
漢語言詞語切分(以下簡稱分詞)是漢語信息處理系統(tǒng)中重要的一個環(huán)節(jié),它是將連續(xù)的缺乏詞的分隔標志的生語料,自動切分出以詞為單位的熟語料,也就是將字串分割成詞串。本文闡述了漢語言詞語分詞技術面臨的關鍵問題以及分詞常用的基本算法,通過對分詞技術在漢語信息處理軟件中的應用舉例,說明中文處理功能都要建立在對漢語文本的分詞處理這一基本功能之上。因而,漢語分詞是中文信息處理的基礎,在中文信息處理系統(tǒng)中具有廣泛的應用前景。
關鍵詞 分詞、詞表
引言
中文信息處理是我國重要的計算機應用技術,在計算機產業(yè)中,是我國的專長。國務院制定的國家中長期科技發(fā)展綱領中明確提出“中文信息處理技術是高新技術發(fā)展的重點”。據統(tǒng)計,在信息領域中80%以上的信息是以語言文字為載體的。這些語言信息的自動輸入和輸出,文本的??昂头诸悾畔⒌奶崛『蜋z索以及語言翻譯等語言工程,都是國民經濟和國防信息化建設的重要基礎。中文信息涵蓋了字、詞、短語、句子、篇章等多層面的信息加工處理任務。由于詞是最小能獨立運用的語言單位1,因此,當前漢語信息處理以由“字處理”轉移到“詞處理”由于中文文本是按句子連寫的,詞間無間隙,因而在中文文本處理中首先遇到的是詞的切分問題。按句連寫轉換為按詞連寫,詞的正確切分是進行中文文本信息處理的必要條件。正如陳力為院士所說:“漢語書面語的分詞技術已經悄悄地形成一門新興的富有挑戰(zhàn)性的學問?!?br>
參考文獻
[1]《漢語信息處理詞匯01部分;基本術語(GB12200.1-90)》,中國標準出版社,1991
[2] 朱德熙《語法講義》,商務印書館,1982
1.1萬字 14頁
摘要
漢語言詞語切分(以下簡稱分詞)是漢語信息處理系統(tǒng)中重要的一個環(huán)節(jié),它是將連續(xù)的缺乏詞的分隔標志的生語料,自動切分出以詞為單位的熟語料,也就是將字串分割成詞串。本文闡述了漢語言詞語分詞技術面臨的關鍵問題以及分詞常用的基本算法,通過對分詞技術在漢語信息處理軟件中的應用舉例,說明中文處理功能都要建立在對漢語文本的分詞處理這一基本功能之上。因而,漢語分詞是中文信息處理的基礎,在中文信息處理系統(tǒng)中具有廣泛的應用前景。
關鍵詞 分詞、詞表
引言
中文信息處理是我國重要的計算機應用技術,在計算機產業(yè)中,是我國的專長。國務院制定的國家中長期科技發(fā)展綱領中明確提出“中文信息處理技術是高新技術發(fā)展的重點”。據統(tǒng)計,在信息領域中80%以上的信息是以語言文字為載體的。這些語言信息的自動輸入和輸出,文本的??昂头诸悾畔⒌奶崛『蜋z索以及語言翻譯等語言工程,都是國民經濟和國防信息化建設的重要基礎。中文信息涵蓋了字、詞、短語、句子、篇章等多層面的信息加工處理任務。由于詞是最小能獨立運用的語言單位1,因此,當前漢語信息處理以由“字處理”轉移到“詞處理”由于中文文本是按句子連寫的,詞間無間隙,因而在中文文本處理中首先遇到的是詞的切分問題。按句連寫轉換為按詞連寫,詞的正確切分是進行中文文本信息處理的必要條件。正如陳力為院士所說:“漢語書面語的分詞技術已經悄悄地形成一門新興的富有挑戰(zhàn)性的學問?!?br>
參考文獻
[1]《漢語信息處理詞匯01部分;基本術語(GB12200.1-90)》,中國標準出版社,1991
[2] 朱德熙《語法講義》,商務印書館,1982