基于文本的web圖片搜索引擎的研究.doc
約65頁DOC格式手機(jī)打開展開
基于文本的web圖片搜索引擎的研究,65頁共計(jì)39501字摘要本文研究工作是針對web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型web圖片搜索引擎為目標(biāo),提出基于文本檢索方式的web圖片搜索引擎設(shè)計(jì)方案。文中介紹和研究了一系列與web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(vsm和lsi)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計(jì)方案...


內(nèi)容介紹
此文檔由會員 bfxqt 發(fā)布
65頁共計(jì)39501字
摘 要
本文研究工作是針對Web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型Web圖片搜索引擎為目標(biāo),提出基于文本檢索方式的Web圖片搜索引擎設(shè)計(jì)方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(VSM和LSI)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計(jì)方案中。
本文重點(diǎn)地研究如何從HTML文檔中提取圖片相關(guān)信息,保證高效和準(zhǔn)確的實(shí)現(xiàn)圖片檢索。在對真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)和分析的基礎(chǔ)上,提出了若干關(guān)鍵技術(shù),用于系統(tǒng)的設(shè)計(jì),現(xiàn)歸納如下:
1) 本文提出的方法通過細(xì)致地分析HTML文件的
標(biāo)記、標(biāo)記、網(wǎng)頁標(biāo)題、網(wǎng)頁的超鏈接文本、圖片URL、標(biāo)記、關(guān)聯(lián)的和
結(jié)構(gòu)、
摘 要
本文研究工作是針對Web圖片搜索引擎的應(yīng)用背景,以構(gòu)建大型Web圖片搜索引擎為目標(biāo),提出基于文本檢索方式的Web圖片搜索引擎設(shè)計(jì)方案。
文中介紹和研究了一系列與Web圖片搜索引擎相關(guān)的技術(shù),包括網(wǎng)頁抓取、相關(guān)性排序(VSM和LSI)、信息提取、信息索引等,這些技術(shù)將被應(yīng)用到文中提出的系統(tǒng)設(shè)計(jì)方案中。
本文重點(diǎn)地研究如何從HTML文檔中提取圖片相關(guān)信息,保證高效和準(zhǔn)確的實(shí)現(xiàn)圖片檢索。在對真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)和分析的基礎(chǔ)上,提出了若干關(guān)鍵技術(shù),用于系統(tǒng)的設(shè)計(jì),現(xiàn)歸納如下:
1) 本文提出的方法通過細(xì)致地分析HTML文件的