基于java網(wǎng)絡(luò)蜘蛛程序.rar
基于java網(wǎng)絡(luò)蜘蛛程序,1.2萬字42頁包括開題報告,任務(wù)書,答辯ppt和論文正文摘要在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。網(wǎng)絡(luò)蜘蛛程序是web搜索引擎技術(shù)中關(guān)鍵的一部分。本論文基...
該文檔為壓縮文件,包含的文件列表如下:
內(nèi)容介紹
原文檔由會員 劉麗 發(fā)布
基于java網(wǎng)絡(luò)蜘蛛程序
1.2萬字 42頁
包括開題報告,任務(wù)書,答辯PPT和論文正文
摘 要
在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。網(wǎng)絡(luò)蜘蛛程序是Web搜索引擎技術(shù)中關(guān)鍵的一部分。
本論文基于現(xiàn)有的知識理論實(shí)現(xiàn)了蜘蛛程序,從給定網(wǎng)址開始進(jìn)行爬行搜索,利用數(shù)據(jù)庫隊(duì)列技術(shù)管理網(wǎng)頁鏈接,將訪問過的網(wǎng)頁資源下載到本地硬盤保存。通過使用Lucene工具包對下載資源。利用java.url中的類實(shí)現(xiàn)Spider程序與外界通訊,以及處理網(wǎng)頁中的URL連接,對蜘蛛程序的核心類(通訊核心、蜘蛛程序工作核心),資源索引的建立與搜索新型了詳細(xì)的研究。
通過設(shè)計(jì)分析,完成了自己的蜘蛛爬行程序。程序按照初始設(shè)計(jì)功能完成,實(shí)現(xiàn)了對網(wǎng)絡(luò)資源的收集和整理。功能通過了測試,程序可以正常穩(wěn)定運(yùn)行
最后論文對全文進(jìn)行了總結(jié),并對為了發(fā)展的方向進(jìn)行了展望。
關(guān)鍵字:HTTP,線程,Spider,Lucene
Abstract
At the initial stage of internet development, there were few websites, so information searching is comparatively easy. However, with the explosion of internet, searching for information became very hard to common website users which calls for the appearance of professional searching websites. A crucial part of web searching engine technology is web spider program.
This paper realized the following procedures from give the website address to operate searching, make use of data base lining technology to manage webpage linkage to download visited sources to the local hard drives. Lucene tool bag is used to give content to the download sources. This paper is focused on the following technology: the core of spider program (communication core, spider program working core), the establishment of sources and search.
Though the design analysis, I have finished my own spider creeping program. The program is finished based on initial design, implement the collection and arranging of net sources. These functions passed the test, and is able to run normally.
Key words: HTTP, routine, spider, Lucene
目 錄
1 緒 論 1
1.1課題研究背景 1
1.2國內(nèi)外研究現(xiàn)狀 1
1.3 本論文的結(jié)構(gòu) 4
2 程序設(shè)計(jì)目標(biāo)及策略 5
2.1程序分析 5
2.1.1 多線程搜索 5
2.1.2 數(shù)據(jù)庫隊(duì)列管理 5
2.1.3 檢索引擎——Lucene 6
2.2功能點(diǎn)技術(shù)分析 6
2.2.1 Spider如何獲取URL鏈接的獲取 6
2.2.2 程序結(jié)構(gòu)的選擇 6
2.2.3利用遞歸構(gòu)造Spider 6
2.2.4利用非遞歸構(gòu)造Spider 7
2.2.5 Spider程序的隊(duì)列 7
2.2.6全文索引 8
3 程序設(shè)計(jì)與實(shí)現(xiàn)、測試 9
3.1 HTTP類及相關(guān)類的設(shè)計(jì)與實(shí)現(xiàn) 9
3.2 蜘蛛程序工作核心類設(shè)計(jì)與實(shí)現(xiàn) 13
3.2.1 蜘蛛程序中線程的設(shè)計(jì) 13
3.2.2 多線程同步 14
3.3 Spider類及其相關(guān)類的實(shí)現(xiàn) 15
3.3.1 ISpiderReportable接口 15
3.3.2 IWorkloadStorable接口 15
3.3.3 SpiderSQLWorkload類 16
3.3.4 SpiderWorker類 16
3.3.5 SpiderDone類 18
3.3.6 Spider類 19
3.4程序測試 20
3.4.1硬件環(huán)境 20
3.4.2軟件環(huán)境 20
3.4.3測試用例 20
3.4.4測試結(jié)論 21
4 總結(jié) 22
致 謝 25
參考文獻(xiàn) 26
附錄:代碼 27
參考文獻(xiàn)
[1]佟曉筠等.面向主題的智能機(jī)器人ROBOT研究與實(shí)現(xiàn)〔J〕,電子與信息學(xué)報
[2]杜亞軍等,爬行蟲算法設(shè)計(jì)與程序?qū)崿F(xiàn)〔J〕,計(jì)算機(jī)應(yīng)用,24卷
[3] Heaton J, Programming Spiders,Bots and Aggregators in Java.
[4]Jeff Heaton[美],董兆豐譯,網(wǎng)絡(luò)機(jī)器人JAVA編程指南〔M〕,北京電子工業(yè)出版社
附錄:代碼
package com.spider;
import java.util.*;
import java.io.*;
import java.lang.reflect.*;
import com.spider.*;
public class Spider extends Thread implements ISpiderReportable {
protected IWorkloadStorable workload;
protected SpiderWorker pool[]
......
1.2萬字 42頁
包括開題報告,任務(wù)書,答辯PPT和論文正文
摘 要
在互聯(lián)網(wǎng)發(fā)展初期,網(wǎng)站相對較少,信息查找比較容易。然而伴隨互聯(lián)網(wǎng)爆炸性的發(fā)展,普通網(wǎng)絡(luò)用戶想找到所需的資料簡直如同大海撈針,這時為滿足大眾信息檢索需求的專業(yè)搜索網(wǎng)站便應(yīng)運(yùn)而生了。網(wǎng)絡(luò)蜘蛛程序是Web搜索引擎技術(shù)中關(guān)鍵的一部分。
本論文基于現(xiàn)有的知識理論實(shí)現(xiàn)了蜘蛛程序,從給定網(wǎng)址開始進(jìn)行爬行搜索,利用數(shù)據(jù)庫隊(duì)列技術(shù)管理網(wǎng)頁鏈接,將訪問過的網(wǎng)頁資源下載到本地硬盤保存。通過使用Lucene工具包對下載資源。利用java.url中的類實(shí)現(xiàn)Spider程序與外界通訊,以及處理網(wǎng)頁中的URL連接,對蜘蛛程序的核心類(通訊核心、蜘蛛程序工作核心),資源索引的建立與搜索新型了詳細(xì)的研究。
通過設(shè)計(jì)分析,完成了自己的蜘蛛爬行程序。程序按照初始設(shè)計(jì)功能完成,實(shí)現(xiàn)了對網(wǎng)絡(luò)資源的收集和整理。功能通過了測試,程序可以正常穩(wěn)定運(yùn)行
最后論文對全文進(jìn)行了總結(jié),并對為了發(fā)展的方向進(jìn)行了展望。
關(guān)鍵字:HTTP,線程,Spider,Lucene
Abstract
At the initial stage of internet development, there were few websites, so information searching is comparatively easy. However, with the explosion of internet, searching for information became very hard to common website users which calls for the appearance of professional searching websites. A crucial part of web searching engine technology is web spider program.
This paper realized the following procedures from give the website address to operate searching, make use of data base lining technology to manage webpage linkage to download visited sources to the local hard drives. Lucene tool bag is used to give content to the download sources. This paper is focused on the following technology: the core of spider program (communication core, spider program working core), the establishment of sources and search.
Though the design analysis, I have finished my own spider creeping program. The program is finished based on initial design, implement the collection and arranging of net sources. These functions passed the test, and is able to run normally.
Key words: HTTP, routine, spider, Lucene
目 錄
1 緒 論 1
1.1課題研究背景 1
1.2國內(nèi)外研究現(xiàn)狀 1
1.3 本論文的結(jié)構(gòu) 4
2 程序設(shè)計(jì)目標(biāo)及策略 5
2.1程序分析 5
2.1.1 多線程搜索 5
2.1.2 數(shù)據(jù)庫隊(duì)列管理 5
2.1.3 檢索引擎——Lucene 6
2.2功能點(diǎn)技術(shù)分析 6
2.2.1 Spider如何獲取URL鏈接的獲取 6
2.2.2 程序結(jié)構(gòu)的選擇 6
2.2.3利用遞歸構(gòu)造Spider 6
2.2.4利用非遞歸構(gòu)造Spider 7
2.2.5 Spider程序的隊(duì)列 7
2.2.6全文索引 8
3 程序設(shè)計(jì)與實(shí)現(xiàn)、測試 9
3.1 HTTP類及相關(guān)類的設(shè)計(jì)與實(shí)現(xiàn) 9
3.2 蜘蛛程序工作核心類設(shè)計(jì)與實(shí)現(xiàn) 13
3.2.1 蜘蛛程序中線程的設(shè)計(jì) 13
3.2.2 多線程同步 14
3.3 Spider類及其相關(guān)類的實(shí)現(xiàn) 15
3.3.1 ISpiderReportable接口 15
3.3.2 IWorkloadStorable接口 15
3.3.3 SpiderSQLWorkload類 16
3.3.4 SpiderWorker類 16
3.3.5 SpiderDone類 18
3.3.6 Spider類 19
3.4程序測試 20
3.4.1硬件環(huán)境 20
3.4.2軟件環(huán)境 20
3.4.3測試用例 20
3.4.4測試結(jié)論 21
4 總結(jié) 22
致 謝 25
參考文獻(xiàn) 26
附錄:代碼 27
參考文獻(xiàn)
[1]佟曉筠等.面向主題的智能機(jī)器人ROBOT研究與實(shí)現(xiàn)〔J〕,電子與信息學(xué)報
[2]杜亞軍等,爬行蟲算法設(shè)計(jì)與程序?qū)崿F(xiàn)〔J〕,計(jì)算機(jī)應(yīng)用,24卷
[3] Heaton J, Programming Spiders,Bots and Aggregators in Java.
[4]Jeff Heaton[美],董兆豐譯,網(wǎng)絡(luò)機(jī)器人JAVA編程指南〔M〕,北京電子工業(yè)出版社
附錄:代碼
package com.spider;
import java.util.*;
import java.io.*;
import java.lang.reflect.*;
import com.spider.*;
public class Spider extends Thread implements ISpiderReportable {
protected IWorkloadStorable workload;
protected SpiderWorker pool[]
......