基于k-means的文本聚類算法的實現(xiàn).doc


約33頁DOC格式手機打開展開
基于k-means的文本聚類算法的實現(xiàn),基于k-means的文本聚類算法的實現(xiàn)realization of text clustering algorithm based on k-means1.78萬字33頁原創(chuàng)作品,已通過查重系統(tǒng)摘要 文本蘊含了大量有價值的信息,開發(fā)價值很高,它作為信息的載體,有必要采取一種手段來挖掘數(shù)據(jù),這樣能方便、快捷地從文本中提取...


內(nèi)容介紹
此文檔由會員 馬甲線女神 發(fā)布
基于K-Means的文本聚類算法的實現(xiàn)
Realization of Text Clustering Algorithm based on K-Means
1.78萬字 33頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要 文本蘊含了大量有價值的信息,開發(fā)價值很高,它作為信息的載體,有必要采取一種手段來挖掘數(shù)據(jù),這樣能方便、快捷地從文本中提取用戶想要的東西,文本聚類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在很大程度上解決信息爆炸和信息雜亂所帶來的問題,文本聚類依據(jù)著名的聚類假設(shè),同類文檔的相似度較大,而不同類文檔的相似度較小。文本聚類的目標(biāo)是將文本集合分成多個簇,使得在同一個簇中的文本內(nèi)容具有較高的相似度,而不同簇中的文本內(nèi)容差別較大。
論文的語料庫來源于搜狗語料庫,用搜狗語料庫文本來驗證文本聚類效果。論文采用MManlyzer中文分詞器分詞,分詞以后對詞語進行標(biāo)記,參照停用詞表將停用詞去除,計算詞語的tf 、idf、tf*idf值,將文本轉(zhuǎn)化為數(shù)據(jù)形式,建立向量數(shù)據(jù)模型。論文用向量余弦值來計算文本之間的相似度,用K-Means算法實現(xiàn)文本聚類,不斷對數(shù)據(jù)進行迭代,達(dá)到收斂要求時,終止迭代過程,從而達(dá)到文本聚類的效果,最后輸出聚類結(jié)果。系統(tǒng)實現(xiàn)由系統(tǒng)分析、目標(biāo)設(shè)計、預(yù)處理模塊、構(gòu)造向量模塊、K-Means文本聚類模塊組成。具體過程包括文本預(yù)處理、計算tf*idf權(quán)重值、文本向量表示和K-Means聚類算法等幾個方面。
關(guān)鍵詞: 文本聚類 聚類算法 K-Means算法
Realization of Text Clustering Algorithm ba
1.78萬字 33頁 原創(chuàng)作品,已通過查重系統(tǒng)
摘要 文本蘊含了大量有價值的信息,開發(fā)價值很高,它作為信息的載體,有必要采取一種手段來挖掘數(shù)據(jù),這樣能方便、快捷地從文本中提取用戶想要的東西,文本聚類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù),能夠在很大程度上解決信息爆炸和信息雜亂所帶來的問題,文本聚類依據(jù)著名的聚類假設(shè),同類文檔的相似度較大,而不同類文檔的相似度較小。文本聚類的目標(biāo)是將文本集合分成多個簇,使得在同一個簇中的文本內(nèi)容具有較高的相似度,而不同簇中的文本內(nèi)容差別較大。
論文的語料庫來源于搜狗語料庫,用搜狗語料庫文本來驗證文本聚類效果。論文采用MManlyzer中文分詞器分詞,分詞以后對詞語進行標(biāo)記,參照停用詞表將停用詞去除,計算詞語的tf 、idf、tf*idf值,將文本轉(zhuǎn)化為數(shù)據(jù)形式,建立向量數(shù)據(jù)模型。論文用向量余弦值來計算文本之間的相似度,用K-Means算法實現(xiàn)文本聚類,不斷對數(shù)據(jù)進行迭代,達(dá)到收斂要求時,終止迭代過程,從而達(dá)到文本聚類的效果,最后輸出聚類結(jié)果。系統(tǒng)實現(xiàn)由系統(tǒng)分析、目標(biāo)設(shè)計、預(yù)處理模塊、構(gòu)造向量模塊、K-Means文本聚類模塊組成。具體過程包括文本預(yù)處理、計算tf*idf權(quán)重值、文本向量表示和K-Means聚類算法等幾個方面。
關(guān)鍵詞: 文本聚類 聚類算法 K-Means算法
TA們正在看...
- sop-高度規(guī)校驗規(guī)範(fàn).doc
- sop-數(shù)顯卡尺、數(shù)顯千分尺操作指引(日企).doc
- wi-角度規(guī)、高度規(guī)、針規(guī)操作指引(日企).doc
- 臺企-有害物質(zhì)過程管理體系組織架構(gòu)圖.docx
- 臺企-有害物質(zhì)過程管理體系管理手冊.docx
- 臺企-iso內(nèi)部審核檢查表(整個公司完整版).docx
- sip-塑膠件通用檢驗標(biāo)準(zhǔn).docx
- sip-檢驗基準(zhǔn)書(塑膠原料).docx
- sip-檢驗基準(zhǔn)書(銅材-鋼材).docx
- sip-檢驗基準(zhǔn)書(模胚).docx