web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).doc
約55頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)
web搜索引擎的設(shè)計(jì)與實(shí)現(xiàn),54頁(yè)共計(jì)25135字摘要隨著網(wǎng)絡(luò)的迅猛發(fā)展。網(wǎng)絡(luò)成為信息的極其重要的來(lái)源地,越來(lái)越多的人從網(wǎng)絡(luò)上獲取自己所需要的信息,這就使得像google[40],百度[39]這樣的通用搜索引擎變成了人們尋找信息必不可少的工具。本文在深入研究了通用搜索引擎基本原理、架構(gòu)設(shè)計(jì)和核心技術(shù)的基礎(chǔ)上,結(jié)合小型搜索引擎的需求,參照了天網(wǎng),l...
內(nèi)容介紹
此文檔由會(huì)員 bfxqt 發(fā)布
54頁(yè)共計(jì)25135字
摘 要
隨著網(wǎng)絡(luò)的迅猛發(fā)展。網(wǎng)絡(luò)成為信息的極其重要的來(lái)源地,越來(lái)越多的人從網(wǎng)絡(luò)上獲取自己所需要的信息,這就使得像Google[40],百度[39]這樣的通用搜索引擎變成了人們尋找信息必不可少的工具。
本文在深入研究了通用搜索引擎基本原理、架構(gòu)設(shè)計(jì)和核心技術(shù)的基礎(chǔ)上,結(jié)合小型搜索引擎的需求,參照了天網(wǎng),lucene等搜索引擎的原理,構(gòu)建了一個(gè)運(yùn)行穩(wěn)定,性能良好而且可擴(kuò)充的小型搜索引擎系統(tǒng),本文不僅僅完成了對(duì)整個(gè)系統(tǒng)的設(shè)計(jì),并且完成了所有的編碼工作。
本文論述了搜索引擎的開(kāi)發(fā)背景以及搜索引擎的歷史和發(fā)展趨勢(shì),分析了小型搜索引擎的需求,對(duì)系統(tǒng)開(kāi)發(fā)中的一些問(wèn)題,都給出了解決方案, 并對(duì)方案進(jìn)行詳細(xì)設(shè)計(jì),編碼實(shí)現(xiàn)。論文的主要工作及創(chuàng)新如下:
1.在深刻理解網(wǎng)絡(luò)爬蟲(chóng)的工作原理的基礎(chǔ)上,使用數(shù)據(jù)庫(kù)的來(lái)實(shí)現(xiàn)爬蟲(chóng)部分。
2.在深刻理解了中文切詞原理的基礎(chǔ)之上,對(duì)lucene的切詞算法上做出了改進(jìn)的基礎(chǔ)上設(shè)計(jì)了自己的算法,對(duì)改進(jìn)后的算法實(shí)現(xiàn),并進(jìn)行了準(zhǔn)確率和效率的測(cè)試,證明在效率上確實(shí)提高。
3.在理解了排序索引部分的原理之后,設(shè)計(jì)了實(shí)現(xiàn)索引排序部分結(jié)構(gòu),完成了詳細(xì)流程圖和編碼實(shí)現(xiàn),對(duì)完成的代碼進(jìn)行測(cè)試。
4.在完成搜索部分設(shè)計(jì)后,覺(jué)得效率上還不能夠達(dá)到系統(tǒng)的要求,于是為了提高系統(tǒng)的搜索效率,采用了緩存搜索頁(yè)面和對(duì)搜索頻率較高詞語(yǔ)結(jié)果緩存的兩級(jí)緩存原則來(lái)提高系統(tǒng)搜索效率。
目錄
第一章 緒論 1
1.1搜索引擎出現(xiàn)的背景及意義 1
1.2搜索引擎的發(fā)展歷史及趨勢(shì) 1
1.3本文主要工作 3
1.4論文結(jié)構(gòu) 4
第二章 系統(tǒng)結(jié)構(gòu) 5
2.1概述 5
2.2系統(tǒng)結(jié)構(gòu) 5
2.2.1爬蟲(chóng) 6
2.2.2信息處理 6
2.2.3排序和索引 6
2.2.4搜索 6
2.3搜索引擎主要指標(biāo)及分析 6
2.4開(kāi)發(fā)語(yǔ)言 7
2.5小結(jié) 8
第三章 爬蟲(chóng) 9
3.1概述 9
3.2爬蟲(chóng)結(jié)構(gòu)分析 9
3.2.1爬蟲(chóng)初始化 10
3.2.2從網(wǎng)頁(yè)中提取url 11
3.2.3 URL存儲(chǔ) 12
3.2.4從數(shù)據(jù)庫(kù)中提取url 12
3.3小結(jié) 13
第四章 信息處理 14
4.1概述 14
4.2轉(zhuǎn)換 15
4.3切詞 18
4.3.1中文切詞 19
4.3.2中文切詞測(cè)試 25
4.3.3英文切詞 27
4.3.4數(shù)字切詞 28
4.3.5符號(hào)處理 29
4.3.6詞語(yǔ)存儲(chǔ) 30
4.4小結(jié) 31
第五章 排序索引 33
5.1概述 33
5.2統(tǒng)計(jì)相關(guān)url 33
5.3排序 34
5.4索引 36
5.5小結(jié) 37
第六章 搜索 38
6.1概述 38
6.2實(shí)現(xiàn)搜索 38
6.3性能優(yōu)化 41
6.4小結(jié) 42
第七章 總結(jié)與展望 43
7.1總結(jié) 43
7.3 展望 44
參考文獻(xiàn) 47
致 謝 49
關(guān)鍵詞:搜索引擎,網(wǎng)絡(luò)爬蟲(chóng),中文切詞,排序索引
參考文獻(xiàn)
[21] 嚴(yán)威,趙政.開(kāi)發(fā)中文搜索引擎漢語(yǔ)處理的關(guān)鍵技術(shù).計(jì)算機(jī)工程[J],1999,vol.25:5~8
[22] 鐘濤,陳新明,萬(wàn)鈞,張世永.中文文本W(wǎng)EB搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).計(jì)算機(jī)工程與應(yīng)用[J],2001,vol.17:149~151
[23] 趙立剛.搜索引擎的研究與實(shí)現(xiàn):[碩士學(xué)位論文][D].吉林大學(xué).2005,46~48
[24] 向暉,郭一平,王亮. 基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn).現(xiàn)代圖書情報(bào)技術(shù).2006(8):45~50
[25] 張文忠,趙明生,朱精南. 基于內(nèi)容的網(wǎng)頁(yè)特征提取.計(jì)算機(jī)工程與應(yīng)用2001.10 1~3
[26] 陳慶偉,劉軍.基于Lucene的網(wǎng)站全文搜索的設(shè)計(jì)與實(shí)現(xiàn).科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2005,15(15):242-244
[27] 劉剛,于力超.搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn) 電腦與信息技術(shù)2007 Vol.15 No.4
[28] 胡濤,路紅英. 基于Nutch的搜索引擎的研究. 計(jì)算機(jī)時(shí)代2007年 第1期
[29] 王繼成.基于元數(shù)據(jù)的Web信息檢索技術(shù)研究[D],南京大學(xué)計(jì)算機(jī)學(xué)
院,2000.
[30] Kunihiko Sadakane.Compressed Text Databases with Effcient Query Algorithms based on the
Compressed Suffix Array.ISAAC[J],2000,vol.5:410~421
[31] U.Manber,G.Myers.Suffix arrays:A New Method for On-Line String Searches.SIAM Journal on
Computing[J],1993,vol.22(5):935~948
[32] Michael J.Cafarella,Oren Etzioni.A Search Engine for Natural Language Applications.WWW[J],
2005,vol.2:3~7
[33] Lei Zhang,Bhavani Sridharan,Kinshuk.On-line Knowledge Management Search Engine.The 3rd
IEEE International Conference on Advanced Learning Technologies Conference Proceedings,IEEE
Computer Society[J],2004,vol.2:304~305
[34] Yihong Zhao,Prasad M.Deshpande,Jeffrey F.Naughton.An Array-Based Algorithm for
Simultaneous Multidimensional Aggregates.Proc.1997 ACM-SIGMOD Int.Conf.Management of
Data[J],1997,vol.24:159~170
摘 要
隨著網(wǎng)絡(luò)的迅猛發(fā)展。網(wǎng)絡(luò)成為信息的極其重要的來(lái)源地,越來(lái)越多的人從網(wǎng)絡(luò)上獲取自己所需要的信息,這就使得像Google[40],百度[39]這樣的通用搜索引擎變成了人們尋找信息必不可少的工具。
本文在深入研究了通用搜索引擎基本原理、架構(gòu)設(shè)計(jì)和核心技術(shù)的基礎(chǔ)上,結(jié)合小型搜索引擎的需求,參照了天網(wǎng),lucene等搜索引擎的原理,構(gòu)建了一個(gè)運(yùn)行穩(wěn)定,性能良好而且可擴(kuò)充的小型搜索引擎系統(tǒng),本文不僅僅完成了對(duì)整個(gè)系統(tǒng)的設(shè)計(jì),并且完成了所有的編碼工作。
本文論述了搜索引擎的開(kāi)發(fā)背景以及搜索引擎的歷史和發(fā)展趨勢(shì),分析了小型搜索引擎的需求,對(duì)系統(tǒng)開(kāi)發(fā)中的一些問(wèn)題,都給出了解決方案, 并對(duì)方案進(jìn)行詳細(xì)設(shè)計(jì),編碼實(shí)現(xiàn)。論文的主要工作及創(chuàng)新如下:
1.在深刻理解網(wǎng)絡(luò)爬蟲(chóng)的工作原理的基礎(chǔ)上,使用數(shù)據(jù)庫(kù)的來(lái)實(shí)現(xiàn)爬蟲(chóng)部分。
2.在深刻理解了中文切詞原理的基礎(chǔ)之上,對(duì)lucene的切詞算法上做出了改進(jìn)的基礎(chǔ)上設(shè)計(jì)了自己的算法,對(duì)改進(jìn)后的算法實(shí)現(xiàn),并進(jìn)行了準(zhǔn)確率和效率的測(cè)試,證明在效率上確實(shí)提高。
3.在理解了排序索引部分的原理之后,設(shè)計(jì)了實(shí)現(xiàn)索引排序部分結(jié)構(gòu),完成了詳細(xì)流程圖和編碼實(shí)現(xiàn),對(duì)完成的代碼進(jìn)行測(cè)試。
4.在完成搜索部分設(shè)計(jì)后,覺(jué)得效率上還不能夠達(dá)到系統(tǒng)的要求,于是為了提高系統(tǒng)的搜索效率,采用了緩存搜索頁(yè)面和對(duì)搜索頻率較高詞語(yǔ)結(jié)果緩存的兩級(jí)緩存原則來(lái)提高系統(tǒng)搜索效率。
目錄
第一章 緒論 1
1.1搜索引擎出現(xiàn)的背景及意義 1
1.2搜索引擎的發(fā)展歷史及趨勢(shì) 1
1.3本文主要工作 3
1.4論文結(jié)構(gòu) 4
第二章 系統(tǒng)結(jié)構(gòu) 5
2.1概述 5
2.2系統(tǒng)結(jié)構(gòu) 5
2.2.1爬蟲(chóng) 6
2.2.2信息處理 6
2.2.3排序和索引 6
2.2.4搜索 6
2.3搜索引擎主要指標(biāo)及分析 6
2.4開(kāi)發(fā)語(yǔ)言 7
2.5小結(jié) 8
第三章 爬蟲(chóng) 9
3.1概述 9
3.2爬蟲(chóng)結(jié)構(gòu)分析 9
3.2.1爬蟲(chóng)初始化 10
3.2.2從網(wǎng)頁(yè)中提取url 11
3.2.3 URL存儲(chǔ) 12
3.2.4從數(shù)據(jù)庫(kù)中提取url 12
3.3小結(jié) 13
第四章 信息處理 14
4.1概述 14
4.2轉(zhuǎn)換 15
4.3切詞 18
4.3.1中文切詞 19
4.3.2中文切詞測(cè)試 25
4.3.3英文切詞 27
4.3.4數(shù)字切詞 28
4.3.5符號(hào)處理 29
4.3.6詞語(yǔ)存儲(chǔ) 30
4.4小結(jié) 31
第五章 排序索引 33
5.1概述 33
5.2統(tǒng)計(jì)相關(guān)url 33
5.3排序 34
5.4索引 36
5.5小結(jié) 37
第六章 搜索 38
6.1概述 38
6.2實(shí)現(xiàn)搜索 38
6.3性能優(yōu)化 41
6.4小結(jié) 42
第七章 總結(jié)與展望 43
7.1總結(jié) 43
7.3 展望 44
參考文獻(xiàn) 47
致 謝 49
關(guān)鍵詞:搜索引擎,網(wǎng)絡(luò)爬蟲(chóng),中文切詞,排序索引
參考文獻(xiàn)
[21] 嚴(yán)威,趙政.開(kāi)發(fā)中文搜索引擎漢語(yǔ)處理的關(guān)鍵技術(shù).計(jì)算機(jī)工程[J],1999,vol.25:5~8
[22] 鐘濤,陳新明,萬(wàn)鈞,張世永.中文文本W(wǎng)EB搜索引擎的設(shè)計(jì)與實(shí)現(xiàn).計(jì)算機(jī)工程與應(yīng)用[J],2001,vol.17:149~151
[23] 趙立剛.搜索引擎的研究與實(shí)現(xiàn):[碩士學(xué)位論文][D].吉林大學(xué).2005,46~48
[24] 向暉,郭一平,王亮. 基于Lucene的中文字典分詞模塊的設(shè)計(jì)與實(shí)現(xiàn).現(xiàn)代圖書情報(bào)技術(shù).2006(8):45~50
[25] 張文忠,趙明生,朱精南. 基于內(nèi)容的網(wǎng)頁(yè)特征提取.計(jì)算機(jī)工程與應(yīng)用2001.10 1~3
[26] 陳慶偉,劉軍.基于Lucene的網(wǎng)站全文搜索的設(shè)計(jì)與實(shí)現(xiàn).科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2005,15(15):242-244
[27] 劉剛,于力超.搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計(jì)與實(shí)現(xiàn) 電腦與信息技術(shù)2007 Vol.15 No.4
[28] 胡濤,路紅英. 基于Nutch的搜索引擎的研究. 計(jì)算機(jī)時(shí)代2007年 第1期
[29] 王繼成.基于元數(shù)據(jù)的Web信息檢索技術(shù)研究[D],南京大學(xué)計(jì)算機(jī)學(xué)
院,2000.
[30] Kunihiko Sadakane.Compressed Text Databases with Effcient Query Algorithms based on the
Compressed Suffix Array.ISAAC[J],2000,vol.5:410~421
[31] U.Manber,G.Myers.Suffix arrays:A New Method for On-Line String Searches.SIAM Journal on
Computing[J],1993,vol.22(5):935~948
[32] Michael J.Cafarella,Oren Etzioni.A Search Engine for Natural Language Applications.WWW[J],
2005,vol.2:3~7
[33] Lei Zhang,Bhavani Sridharan,Kinshuk.On-line Knowledge Management Search Engine.The 3rd
IEEE International Conference on Advanced Learning Technologies Conference Proceedings,IEEE
Computer Society[J],2004,vol.2:304~305
[34] Yihong Zhao,Prasad M.Deshpande,Jeffrey F.Naughton.An Array-Based Algorithm for
Simultaneous Multidimensional Aggregates.Proc.1997 ACM-SIGMOD Int.Conf.Management of
Data[J],1997,vol.24:159~170
TA們正在看...
- 診斷學(xué)——臨床常見(jiàn)病原體檢測(cè).ppt
- 誘發(fā)電位的基本知識(shí)及臨床應(yīng)用.ppt
- 透析液及其臨床意義.ppt
- 酸棗仁湯在失眠早泄等方面的臨床經(jīng)驗(yàn).doc
- 長(zhǎng)蛇灸的臨床應(yīng)用.ppt
- 靜脈留置針的臨床應(yīng)用.ppt
- 非語(yǔ)言溝通在臨床護(hù)理的應(yīng)用技巧.ppt
- 麻醉藥在動(dòng)物中的臨床應(yīng)用.doc
- access數(shù)據(jù)庫(kù)應(yīng)用基礎(chǔ)教學(xué)計(jì)劃.doc
- app創(chuàng)業(yè)計(jì)劃書.doc
相關(guān)文檔
- 學(xué)生成績(jī)管理應(yīng)用程序集設(shè)計(jì)報(bào)告.rar
- 企業(yè)員工信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).doc
- 基于b/s模式小區(qū)物業(yè)管理系統(tǒng)的設(shè)計(jì)與實(shí)...rar
- 酒店預(yù)定系統(tǒng)設(shè)計(jì).rar
- asp.net網(wǎng)上商城設(shè)計(jì).doc
- 教學(xué)質(zhì)量評(píng)估系統(tǒng)(開(kāi)題報(bào)告).doc
- 基于jsp技術(shù)的圖書館管理系統(tǒng)的設(shè)計(jì).doc