基于weka數(shù)據(jù)挖掘工具的設(shè)計與開發(fā)--模糊c-均值聚類設(shè)計與實現(xiàn).doc
基于weka數(shù)據(jù)挖掘工具的設(shè)計與開發(fā)--模糊c-均值聚類設(shè)計與實現(xiàn),摘要在現(xiàn)代社會中,企業(yè)公司大多數(shù)商務(wù)流程的核心部分是數(shù)據(jù)。而數(shù)據(jù)挖掘(data mining,dm)的任務(wù)就是在如此海量的數(shù)據(jù)中提取有用的數(shù)據(jù),它在商業(yè)方面的成功應(yīng)用使得各種dm工具接踵而至。但這些工具之中大多數(shù)都是商業(yè)軟件,而且通常還很昂貴,所以開發(fā)一種免費(fèi)實用的dm工具是非常有必要的。weka(懷卡托智能分析系統(tǒng))...
內(nèi)容介紹
此文檔由會員 li484167 發(fā)布摘要
在現(xiàn)代社會中,企業(yè)公司大多數(shù)商務(wù)流程的核心部分是數(shù)據(jù)。而數(shù)據(jù)挖掘(Data Mining,DM)的任務(wù)就是在如此海量的數(shù)據(jù)中提取有用的數(shù)據(jù),它在商業(yè)方面的成功應(yīng)用使得各種DM工具接踵而至。但這些工具之中大多數(shù)都是商業(yè)軟件,而且通常還很昂貴,所以開發(fā)一種免費(fèi)實用的DM工具是非常有必要的。Weka(懷卡托智能分析系統(tǒng))就是一種免費(fèi)且開源的數(shù)據(jù)挖掘軟件,它由新西蘭懷卡托大學(xué)開發(fā),功能強(qiáng)大、方便使用,本課題將對Weka進(jìn)行擴(kuò)充開發(fā)。聚類是數(shù)據(jù)挖掘的重要分支之一,引入模糊理論的模糊聚類分析為現(xiàn)實數(shù)據(jù)提供了模糊處理能力,這里把模糊C-均值(FCM)聚類算法集成到Weka里面,擴(kuò)充Weka的數(shù)據(jù)處理功能。
本文將介紹數(shù)據(jù)挖掘相關(guān)知識、技術(shù)和算法(這里主要是聚類算法)、數(shù)據(jù)挖掘工具weka的相關(guān)知識以及對加入到weka中的FCM聚類算法的分析和具體實現(xiàn)。
關(guān)鍵詞:Weka,模糊C均值,F(xiàn)CM聚類算法,數(shù)據(jù)挖掘
Abstract
In the modern times,The data of business enterprise is the most important thing in the business process. The purpose of Data Mining(DM) is withdraw some useful information from a great deal of data,the successful of DM in the commercial application makes a lot of data mining tools emerged.but many of these tools are commercial software, they will cost us much money if we own them,So We need to develop a free and useful data mining tool.Weka(Waikato Environment for Knowledge Analysis)is one kind of DM tool and we can get it free,it’s also an open-source tool 。Weka was developed at the University of Waikato in New Zealand,it’s function is strong and you can easily using it, This assigment will extension develops Weka . Clustering is one of the important tasks in the field of data mining. Fuzzy clustering analysis that introduces the theory of fuzzy sets, provides the capability that be used to deal with real data. the fuzzy c-means (FCM) clustering algorithm will be integrated into Weka here,that can strengthen weka’s function .
This dissertation introduces Knowledge of DM and its relative technology as well as its programs(clustering algorithm),here also Elaborate Weka and the fuzzy c-means clustering algorithm’s structure and analysis of implementation in details.
Key Words:Weka, fuzzy c-means,FCM clustering algorithm, data mining
目錄
第一章 緒論 - 1 -
1.1設(shè)計背景 - 1 -
1.2 數(shù)據(jù)挖掘工具在國內(nèi)外應(yīng)用及研究現(xiàn)狀 - 1 -
1.2.1 數(shù)據(jù)挖掘工具介紹 - 1 -
1.2.2 國內(nèi)外數(shù)據(jù)挖掘工具應(yīng)用及研究現(xiàn)狀 - 3 -
1.3 設(shè)計內(nèi)容 - 6 -
第二章 數(shù)據(jù)挖掘簡介 - 7 -
2.1 數(shù)據(jù)挖掘的定義 - 7 -
2.1.1技術(shù)上的定義 - 7 -
2.1.2商業(yè)角度的定義 - 7 -
2.2 數(shù)據(jù)挖掘的產(chǎn)生背景 - 8 -
2.2.1處理急劇增長的巨量信息的需要 - 8 -
2.2.2相關(guān)技術(shù)支持的逐漸成熟 - 8 -
2.3 數(shù)據(jù)挖掘功能和方法 - 8 -
2.3.1數(shù)據(jù)挖掘功能 - 8 -
2.3.2 數(shù)據(jù)挖掘方法 - 9 -
2.4數(shù)據(jù)挖掘工具 - 9 -
2.4.1 數(shù)據(jù)挖掘工具結(jié)構(gòu) - 9 -
2.4.2 數(shù)據(jù)挖掘工具分類 - 10 -
2.5本章小結(jié) - 11 -
第三章 數(shù)據(jù)挖掘聚類分析 - 12 -
3.1聚類概念 - 13 -
3.2聚類中數(shù)據(jù)類型 - 14 -
3.2.1數(shù)據(jù)標(biāo)準(zhǔn)化 - 15 -
3.2.2 相似度量方法 - 16 -
3.2.3 聚類的方法 - 17 -
3.3本章小結(jié) - 18 -
第四章 FCM聚類算法原理 - 19 -
4.1模糊集 - 19 -
4.2模糊劃分聚類 - 20 -
4.3模糊C-均值(FCM)聚類算法 - 20 -
4.3.1 K均值聚類算法(HCM)介紹 - 20 -
4.3.2 FCM聚類算法原理 - 22 -
第五章 FCM算法在WEKA中的實現(xiàn) - 25 -
5.1 WEKA簡介 - 25 -
5.1.1 Weka的主要功能模塊 - 25 -
5.1.2 Weka 的數(shù)據(jù)格式 - 26 -
5.1.3 Weka聚類器(Clusterer)接口說明 - 28 -
5.2 FCM算法的在WEKA中的實現(xiàn) - 30 -
5.2.1 FCM算法的主要函數(shù) - 30 -
5.2.2 FCM算法的主要函數(shù)代碼 - 31 -
第六章 FCM聚類測試 - 36 -
6.1主要界面: - 36 -
6.2數(shù)據(jù)測試 - 38 -
結(jié)束語 - 43 -
參考文獻(xiàn) - 44 -
致 謝 46