職位信息垂直搜索引擎的系統(tǒng)與實(shí)現(xiàn).doc
約38頁(yè)DOC格式手機(jī)打開(kāi)展開(kāi)
職位信息垂直搜索引擎的系統(tǒng)與實(shí)現(xiàn),1.5萬(wàn)字38頁(yè)原創(chuàng)作品,已通過(guò)查重系統(tǒng)摘要 目前就業(yè)信息發(fā)布途徑增多,出現(xiàn)了如智聯(lián)招聘、51job等大大小小的招聘信息網(wǎng)站。同一個(gè)招聘信息可以發(fā)布在不同網(wǎng)站,而每個(gè)網(wǎng)站的信息只限站內(nèi)搜索。為了方便求職者能夠及時(shí)、快速的獲取職位招聘信息,本論文就這種實(shí)際情況并基于垂直搜索引擎的特點(diǎn)設(shè)計(jì)并...
內(nèi)容介紹
此文檔由會(huì)員 馬甲線女神 發(fā)布
職位信息垂直搜索引擎的系統(tǒng)與實(shí)現(xiàn)
1.5萬(wàn)字 38頁(yè) 原創(chuàng)作品,已通過(guò)查重系統(tǒng)
摘要 目前就業(yè)信息發(fā)布途徑增多,出現(xiàn)了如智聯(lián)招聘、51job等大大小小的招聘信息網(wǎng)站。同一個(gè)招聘信息可以發(fā)布在不同網(wǎng)站,而每個(gè)網(wǎng)站的信息只限站內(nèi)搜索。為了方便求職者能夠及時(shí)、快速的獲取職位招聘信息,本論文就這種實(shí)際情況并基于垂直搜索引擎的特點(diǎn)設(shè)計(jì)并實(shí)現(xiàn)了職位信息垂直搜索引擎。
本論文在深入研究垂直搜索引擎的關(guān)鍵技術(shù)的基礎(chǔ)上分析設(shè)計(jì)并實(shí)現(xiàn)了基于Lucene的職位信息垂直搜索引擎系統(tǒng)。本系統(tǒng)主要包含如下個(gè)功能模塊:
(1)網(wǎng)頁(yè)采集模塊:該模塊負(fù)責(zé)抓取下載招聘網(wǎng)站上的網(wǎng)頁(yè),其能夠抓取有效的招聘信息頁(yè)面,過(guò)濾掉與主題無(wú)關(guān)的網(wǎng)頁(yè)。本系統(tǒng)通過(guò)設(shè)計(jì)專業(yè)的網(wǎng)絡(luò)爬蟲(chóng),采用廣度優(yōu)先策略來(lái)實(shí)現(xiàn)該功能模塊。
(2)網(wǎng)頁(yè)解析模塊:網(wǎng)頁(yè)解析模塊的功能是過(guò)濾掉網(wǎng)頁(yè)上無(wú)用的信息(網(wǎng)頁(yè)去噪),提取出僅與主題相關(guān)的信息。如:正文內(nèi)容、標(biāo)題、超鏈接、信息來(lái)源和更新時(shí)間等信息,以供相關(guān)度分析模塊進(jìn)行下一步的處理判斷。本系統(tǒng)使用開(kāi)源工具包HTMLParser,采用基于HTML網(wǎng)頁(yè)結(jié)構(gòu)的方法實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)信息的提取。
(3)索引和數(shù)據(jù)存儲(chǔ)模塊:該模塊為網(wǎng)頁(yè)解析模塊提取出的結(jié)構(gòu)化信息創(chuàng)建索引,并將結(jié)構(gòu)化信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。本系統(tǒng)借助全文檢索框架Lucene,采用基于詞典的中文分詞方法對(duì)結(jié)構(gòu)化信息建立索引,并對(duì)索引進(jìn)行優(yōu)化處理。
(4)檢索模塊:信息檢索模塊的目的是接收用戶提交的查詢分析查詢并從索引庫(kù)中檢索出相關(guān)的文檔根據(jù)文檔與查詢的相關(guān)度進(jìn)行排序?qū)⑴判蚝蟮奈臋n列表返回給用戶
最后建立職位信息垂直搜索引擎系統(tǒng)Web頁(yè)面,完成了對(duì)整個(gè)系統(tǒng)的構(gòu)建工作。
關(guān)鍵詞:垂直搜索引擎 專業(yè)網(wǎng)絡(luò)爬蟲(chóng) Lucene 廣度優(yōu)先 HTMLParser 網(wǎng)頁(yè)去噪 中文分詞
1.5萬(wàn)字 38頁(yè) 原創(chuàng)作品,已通過(guò)查重系統(tǒng)
摘要 目前就業(yè)信息發(fā)布途徑增多,出現(xiàn)了如智聯(lián)招聘、51job等大大小小的招聘信息網(wǎng)站。同一個(gè)招聘信息可以發(fā)布在不同網(wǎng)站,而每個(gè)網(wǎng)站的信息只限站內(nèi)搜索。為了方便求職者能夠及時(shí)、快速的獲取職位招聘信息,本論文就這種實(shí)際情況并基于垂直搜索引擎的特點(diǎn)設(shè)計(jì)并實(shí)現(xiàn)了職位信息垂直搜索引擎。
本論文在深入研究垂直搜索引擎的關(guān)鍵技術(shù)的基礎(chǔ)上分析設(shè)計(jì)并實(shí)現(xiàn)了基于Lucene的職位信息垂直搜索引擎系統(tǒng)。本系統(tǒng)主要包含如下個(gè)功能模塊:
(1)網(wǎng)頁(yè)采集模塊:該模塊負(fù)責(zé)抓取下載招聘網(wǎng)站上的網(wǎng)頁(yè),其能夠抓取有效的招聘信息頁(yè)面,過(guò)濾掉與主題無(wú)關(guān)的網(wǎng)頁(yè)。本系統(tǒng)通過(guò)設(shè)計(jì)專業(yè)的網(wǎng)絡(luò)爬蟲(chóng),采用廣度優(yōu)先策略來(lái)實(shí)現(xiàn)該功能模塊。
(2)網(wǎng)頁(yè)解析模塊:網(wǎng)頁(yè)解析模塊的功能是過(guò)濾掉網(wǎng)頁(yè)上無(wú)用的信息(網(wǎng)頁(yè)去噪),提取出僅與主題相關(guān)的信息。如:正文內(nèi)容、標(biāo)題、超鏈接、信息來(lái)源和更新時(shí)間等信息,以供相關(guān)度分析模塊進(jìn)行下一步的處理判斷。本系統(tǒng)使用開(kāi)源工具包HTMLParser,采用基于HTML網(wǎng)頁(yè)結(jié)構(gòu)的方法實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)信息的提取。
(3)索引和數(shù)據(jù)存儲(chǔ)模塊:該模塊為網(wǎng)頁(yè)解析模塊提取出的結(jié)構(gòu)化信息創(chuàng)建索引,并將結(jié)構(gòu)化信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。本系統(tǒng)借助全文檢索框架Lucene,采用基于詞典的中文分詞方法對(duì)結(jié)構(gòu)化信息建立索引,并對(duì)索引進(jìn)行優(yōu)化處理。
(4)檢索模塊:信息檢索模塊的目的是接收用戶提交的查詢分析查詢并從索引庫(kù)中檢索出相關(guān)的文檔根據(jù)文檔與查詢的相關(guān)度進(jìn)行排序?qū)⑴判蚝蟮奈臋n列表返回給用戶
最后建立職位信息垂直搜索引擎系統(tǒng)Web頁(yè)面,完成了對(duì)整個(gè)系統(tǒng)的構(gòu)建工作。
關(guān)鍵詞:垂直搜索引擎 專業(yè)網(wǎng)絡(luò)爬蟲(chóng) Lucene 廣度優(yōu)先 HTMLParser 網(wǎng)頁(yè)去噪 中文分詞