特级做A爰片毛片免费69,永久免费AV无码不卡在线观看,国产精品无码av地址一,久久无码色综合中文字幕

xml文檔檢索結(jié)果的聚類(lèi)算法.doc

約27頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)

xml文檔檢索結(jié)果的聚類(lèi)算法,27頁(yè)共計(jì)14304字摘要現(xiàn)有的搜索引擎得到的檢索結(jié)果,雖經(jīng)過(guò)相關(guān)度排序,仍包含較多與用戶(hù)查詢(xún)請(qǐng)求不相關(guān)的文檔。為提高檢索效率,需對(duì)檢索結(jié)果進(jìn)行聚類(lèi)??蓴U(kuò)展標(biāo)記語(yǔ)言xml是信息表達(dá)和數(shù)據(jù)交換的格式和標(biāo)準(zhǔn),具有自描述性和可擴(kuò)展性等特點(diǎn),近年來(lái)廣泛應(yīng)用于數(shù)據(jù)交換、web服務(wù)、內(nèi)容管理、web集成等領(lǐng)域。本文對(duì)web檢索結(jié)果...
編號(hào):45-70819大小:394.50K
分類(lèi): 論文>計(jì)算機(jī)論文

內(nèi)容介紹

此文檔由會(huì)員 bfxqt 發(fā)布

27頁(yè)共計(jì)14304字
摘 要
現(xiàn)有的搜索引擎得到的檢索結(jié)果,雖經(jīng)過(guò)相關(guān)度排序,仍包含較多與用戶(hù)查詢(xún)請(qǐng)求不相關(guān)的文檔。為提高檢索效率,需對(duì)檢索結(jié)果進(jìn)行聚類(lèi)??蓴U(kuò)展標(biāo)記語(yǔ)言XML是信息表達(dá)和數(shù)據(jù)交換的格式和標(biāo)準(zhǔn),具有自描述性和可擴(kuò)展性等特點(diǎn),近年來(lái)廣泛應(yīng)用于數(shù)據(jù)交換、Web服務(wù)、內(nèi)容管理、Web集成等領(lǐng)域。
本文對(duì)Web檢索結(jié)果聚類(lèi)和XML文檔聚類(lèi)的國(guó)內(nèi)外研究現(xiàn)狀進(jìn)行了深入分析,并綜合考慮了XML技術(shù)和文檔聚類(lèi)等,對(duì)結(jié)果文檔(片段)采取了新的建模方法:用標(biāo)簽路徑和元素特征來(lái)表示XML文檔的結(jié)構(gòu)語(yǔ)義、用文本中的關(guān)鍵詞來(lái)表示文檔的內(nèi)容信息,用標(biāo)簽路徑、元素特征和文本內(nèi)容三個(gè)向量來(lái)表示XML文檔(片段)。同時(shí)用傳統(tǒng)的Cosine度量來(lái)計(jì)算相似度并以最小最大化原則初始化簇,對(duì)經(jīng)典k-means算法加以改進(jìn)。實(shí)驗(yàn)表明,聚類(lèi)質(zhì)量較好,也有一定的穩(wěn)定性。
目 錄

1 引言 1
1.1 選題的意義 1
1.2 國(guó)內(nèi)外研究現(xiàn)狀 1
1.2.1 Web檢索結(jié)果聚類(lèi) 1
1.2.2 XML文檔聚類(lèi) 2
1.3 本實(shí)驗(yàn)的目標(biāo)與論文結(jié)構(gòu)安排 3
2 相關(guān)技術(shù)分析 3
2.1 XML技術(shù) 3
2.1.1 XML的發(fā)展歷史簡(jiǎn)介 4
2.1.2 XML的特點(diǎn) 5
2.1.3 XML文檔的數(shù)據(jù)結(jié)構(gòu) 6
2.2 文檔聚類(lèi) 7
2.2.1 聚類(lèi)的概念 7
2.2.2 文檔聚類(lèi)的概念、作用和應(yīng)用 8
2.2.3 文檔聚類(lèi)的體系結(jié)構(gòu) 8
2.2.4 文檔相似性矩陣 9
2.2.5 聚類(lèi)算法 9
2.3 聚類(lèi)效果的評(píng)價(jià)標(biāo)準(zhǔn) 12
2.3.1 熵 12
2.3.2 F標(biāo)準(zhǔn) 13
3 設(shè)計(jì)思想 13
3.1 XML檢索結(jié)果聚類(lèi) 14
3.2 XML檢索結(jié)果文檔建模 14
3.3 XML文檔關(guān)鍵詞相關(guān)度的計(jì)算方法 15
3.4 相似性度量 15
3.5 聚類(lèi)算法的偽代碼描述 16
4 開(kāi)發(fā)實(shí)驗(yàn) 17
4.1 實(shí)驗(yàn)用的數(shù)據(jù)集、實(shí)驗(yàn)環(huán)境 17
4.2 對(duì)結(jié)果的評(píng)價(jià) 18
5 總結(jié)與展望 20

【關(guān)鍵詞】XML;文檔檢索;建模;k-means聚類(lèi)算法
參考文獻(xiàn)
[1] 王志梅,張俊林,李秋山. Web檢索結(jié)果快速聚類(lèi)方法的研究與實(shí)現(xiàn). 計(jì)算機(jī)工程與設(shè)計(jì), 2004, 25(12): 2231-2233, 2290
[2] 張健沛, 劉洋, 楊靜, 代坤. 搜索引擎結(jié)果聚類(lèi)算法研究. 計(jì)算機(jī)工程, 2004, 30(5): 95-97
[3] 楊海濤. 一個(gè)基于搜索結(jié)果的個(gè)性化推薦系統(tǒng): [碩士學(xué)位論文]. 鄭州: 鄭州大學(xué)信息工程學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)專(zhuān)業(yè), 2006
[4] 閆利國(guó), 賀飛. XML文檔結(jié)構(gòu)相似測(cè)度研究. 計(jì)算機(jī)應(yīng)用研究, 2006, (3): 44-46
[5] 郝曉麗, 馮志勇. XML結(jié)構(gòu)聚類(lèi). 計(jì)算機(jī)應(yīng)用, 2005, 25(6): 1398-1400
[6] 梁作鵬, 吳文明, 董逸生. 一種基于結(jié)構(gòu)信息總結(jié)樹(shù)的XML文檔聚類(lèi)方法. 應(yīng)用科學(xué)學(xué)報(bào), 2005, 23(1): 71-74
[7] 陸翠明, 李芳. XML文檔相似性的仿真研究. 計(jì)算機(jī)仿真, 2005, 22(12): 300-302, 310
[8] 張丙奇, 白碩, 趙章界. XML數(shù)據(jù)相似度研究. 計(jì)算機(jī)工程, 2005, 31(11): 25-27, 126
[博士論文]. 北京: 中國(guó)科學(xué)院計(jì)算技術(shù)研究所, 2004
[9] 梁作鵬, 業(yè)寧, 董逸生. PBC:一種基于路徑的XML文檔聚類(lèi)方法. 應(yīng)用科學(xué)學(xué)報(bào), 2005, 23(4): 399-403
[10] 丁躍潮, 張濤. XML實(shí)用教程. 北京: 北京大學(xué)出版社,2006
[11] Raymond T.Ng, Jiawei Han. Efficient and effective clustering methods for spatial data mining.Proc. of VLDB Conf, 1994,144-155
[12] Andreas Hotho, Steffen Staab, Gerd Stumme. Ontologies Improve Text Document Clustering. icdm, Third IEEE International Conference on Data Mining (ICDM'03). Melbourne, Florida, 2003. p541