網絡爬蟲的設計與分析.doc


約35頁DOC格式手機打開展開
網絡爬蟲的設計與分析,摘要 隨著互聯(lián)網的快速發(fā)展,社會對信息的獲得越來越顯得重要,而在互聯(lián)網時代利用網絡爬蟲搜集網頁已經成為一種有效的手段,網絡爬蟲是一種自動搜集互聯(lián)網信息的程序。其功能強大,應用廣泛,能夠為搜索引擎采集網絡信息,也可以作為定向信息采集器,定向采集某些網站下的特定信息,如政府的輿情監(jiān)控應用,企業(yè)的信息采集...


內容介紹
此文檔由會員 那年三月 發(fā)布
網絡爬蟲的設計與分析
摘要 隨著互聯(lián)網的快速發(fā)展,社會對信息的獲得越來越顯得重要,而在互聯(lián)網時代利用網絡爬蟲搜集網頁已經成為一種有效的手段,網絡爬蟲是一種自動搜集互聯(lián)網信息的程序。其功能強大,應用廣泛,能夠為搜索引擎采集網絡信息,也可以作為定向信息采集器,定向采集某些網站下的特定信息,如政府的輿情監(jiān)控應用,企業(yè)的信息采集等。
本文利用JAVA實現(xiàn)了一個基于廣度優(yōu)先算法的多線程爬蟲程序。本論文闡述了網絡爬蟲實現(xiàn)中一些主要問題:為何使用廣度優(yōu)先的爬行策略,以及如何實現(xiàn)廣度優(yōu)先爬行;為何要使用多線程,以及如何實現(xiàn)多線程;爬蟲執(zhí)行時的數(shù)據存儲方案;網頁信息解析功能等。