特级做A爰片毛片免费69,永久免费AV无码不卡在线观看,国产精品无码av地址一,久久无码色综合中文字幕

頻道

熱門頻道

用戶中心

豆知微信公眾號

微信二維碼

社會實踐報告范文大全

上傳

基于k-means的文本聚類算法的實現(xiàn).doc

約33頁DOC格式手機打開展開

基于k-means的文本聚類算法的實現(xiàn),基于k-means的文本聚類算法的實現(xiàn)realization of text clustering algorithm based on k-means1.78萬字33頁原創(chuàng)作品，已通過查重系統(tǒng)摘要文本蘊含了大量有價值的信息，開發(fā)價值很高，它作為信息的載體，有必要采取一種手段來挖掘數(shù)據(jù)，這樣能方便、快捷地從文本中提取...
編號:99-591628大小:994.00K
分類: 論文>計算機論文

內(nèi)容介紹

此文檔由會員馬甲線女神發(fā)布

基于K-Means的文本聚類算法的實現(xiàn)
Realization of Text Clustering Algorithm based on K-Means

1.78萬字 33頁原創(chuàng)作品，已通過查重系統(tǒng)

摘要文本蘊含了大量有價值的信息，開發(fā)價值很高，它作為信息的載體，有必要采取一種手段來挖掘數(shù)據(jù)，這樣能方便、快捷地從文本中提取用戶想要的東西，文本聚類作為處理和組織大量文本數(shù)據(jù)的關(guān)鍵技術(shù)，能夠在很大程度上解決信息爆炸和信息雜亂所帶來的問題，文本聚類依據(jù)著名的聚類假設(shè)，同類文檔的相似度較大，而不同類文檔的相似度較小。文本聚類的目標(biāo)是將文本集合分成多個簇，使得在同一個簇中的文本內(nèi)容具有較高的相似度，而不同簇中的文本內(nèi)容差別較大。
論文的語料庫來源于搜狗語料庫，用搜狗語料庫文本來驗證文本聚類效果。論文采用MManlyzer中文分詞器分詞，分詞以后對詞語進行標(biāo)記，參照停用詞表將停用詞去除，計算詞語的tf 、idf、tf*idf值，將文本轉(zhuǎn)化為數(shù)據(jù)形式，建立向量數(shù)據(jù)模型。論文用向量余弦值來計算文本之間的相似度，用K-Means算法實現(xiàn)文本聚類，不斷對數(shù)據(jù)進行迭代，達(dá)到收斂要求時，終止迭代過程，從而達(dá)到文本聚類的效果，最后輸出聚類結(jié)果。系統(tǒng)實現(xiàn)由系統(tǒng)分析、目標(biāo)設(shè)計、預(yù)處理模塊、構(gòu)造向量模塊、K-Means文本聚類模塊組成。具體過程包括文本預(yù)處理、計算tf*idf權(quán)重值、文本向量表示和K-Means聚類算法等幾個方面。

關(guān)鍵詞：文本聚類聚類算法 K-Means算法

TA們正在看...

相關(guān)文檔

幫助中心
呼吸機
幫助中心

官方微信

支付寶紅包

豆知網(wǎng) 教育科研學(xué)術(shù)文檔分享平臺

可信/實名雙認(rèn)證網(wǎng)站川公網(wǎng)安備 51010502011102號

豆知 . 豆知文庫版權(quán)所有 - 2008-2025 蜀ICP備2023009049號-1