基于web日志的用戶訪問(wèn).docx
約74頁(yè)DOCX格式手機(jī)打開(kāi)展開(kāi)
基于web日志的用戶訪問(wèn),摘要隨著網(wǎng)絡(luò)和信息技術(shù)的高速發(fā)展,基于web的應(yīng)用已經(jīng)覆蓋社會(huì)生活的各個(gè)方面,因此web上的數(shù)據(jù)通常是海量的。在這些數(shù)據(jù)中,相比網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容,用戶的使用模式更加引人關(guān)注。通過(guò)獲取用戶的訪問(wèn)模式,可以實(shí)現(xiàn)從優(yōu)化網(wǎng)站設(shè)計(jì)到改善客戶關(guān)系的一系列應(yīng)用:根據(jù)訪問(wèn)者的行為模式來(lái)設(shè)計(jì)和修改網(wǎng)站結(jié)構(gòu)和布局,讓用戶以最短的時(shí)間訪問(wèn)到感...


內(nèi)容介紹
此文檔由會(huì)員 違規(guī)屏蔽12 發(fā)布
摘 要
隨著網(wǎng)絡(luò)和信息技術(shù)的高速發(fā)展,基于Web的應(yīng)用已經(jīng)覆蓋社會(huì)生活的各個(gè)方面,因此Web上的數(shù)據(jù)通常是海量的。在這些數(shù)據(jù)中,相比網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容,用戶的使用模式更加引人關(guān)注。通過(guò)獲取用戶的訪問(wèn)模式,可以實(shí)現(xiàn)從優(yōu)化網(wǎng)站設(shè)計(jì)到改善客戶關(guān)系的一系列應(yīng)用:根據(jù)訪問(wèn)者的行為模式來(lái)設(shè)計(jì)和修改網(wǎng)站結(jié)構(gòu)和布局,讓用戶以最短的時(shí)間訪問(wèn)到感興趣的頁(yè)面,優(yōu)化服務(wù)性能;理解和分析用戶的瀏覽行為,發(fā)現(xiàn)潛在的用戶并使用戶駐留;通過(guò)對(duì)用戶訪問(wèn)行為的把握,組織決策者可以更有針對(duì)性地設(shè)計(jì)商品目錄,提高商業(yè)決策的準(zhǔn)確性;發(fā)現(xiàn)個(gè)體用戶的訪問(wèn)模式,從而識(shí)別出用戶的興趣、愛(ài)好、習(xí)慣和需求,建立個(gè)性化用戶模型,為用戶提供更個(gè)性化的內(nèi)容和服務(wù)。
用戶使用模式的信息通常在Web服務(wù)器日志中有所體現(xiàn)。Web服務(wù)器日志記錄了用戶與服務(wù)器的交互信息,反映了用戶訪問(wèn)Web站點(diǎn)的所有動(dòng)作。對(duì)Web日志進(jìn)行分析挖掘,獲得用戶訪問(wèn)行為的模式和興趣愛(ài)好等有用信息,從而可以理解用戶的訪問(wèn)行為。
本文基于Web使用挖掘的方法和過(guò)程,將Web服務(wù)器日志文件作為數(shù)據(jù)源,旨在挖掘出單個(gè)用戶以及群體用戶的頻繁訪問(wèn)路徑,以發(fā)現(xiàn)網(wǎng)站用戶的訪問(wèn)模式。
針對(duì)單個(gè)用戶的頻繁訪問(wèn)路徑挖掘,在詳細(xì)介紹兩種具有代表性的關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上,從提高關(guān)聯(lián)規(guī)則有用性的角度,引入有趣度測(cè)量因子實(shí)現(xiàn)對(duì)算法的改進(jìn);針對(duì)群體用戶,在詳細(xì)分析用戶聚類(lèi)的過(guò)程后,采用基于瀏覽路徑的聚類(lèi)算法實(shí)現(xiàn)對(duì)群體用戶訪問(wèn)模式的發(fā)現(xiàn)。
最后提出一個(gè)用戶訪問(wèn)模式挖掘系統(tǒng)的模型框架,介紹各模塊的功能并進(jìn)行了實(shí)驗(yàn)分析,結(jié)合具體的實(shí)例數(shù)據(jù)加以說(shuō)明。
關(guān)鍵詞 Web使用挖掘;Web日志;關(guān)聯(lián)規(guī)則;用戶聚類(lèi);行為模式
Abstract
With the rapid development of the network and information technology, the application based on Web has covered all aspects of social life, so the data on the Web is usually huge. In these data, compared with the web structure and content, the using mode of users is more remarkable. By obtaining the access mode of users, we can realize a series of application from optimizing the design of websites to improving the customer relationship. Designing and modifying the structure and layout of websites according to the behavior patterns of users can let users visit interested pages in the shortest time and improve service performance. Understanding and analyzing the access behavior of users can find potential customers and keep users presence. By mastering the access behavior of users, group decision makers can design the goods catalogue more purposefully and improve the accuracy of business decisions. Finding the access pattern of the individual user can recognize the user's interests, hobbies, habits and needs, establish the personalized user model, provide the content and service more personally.
The information of usage modes is usually revealed in Web server logs. Web server logs records the mutual reacting information between users and servers which reflects all movement by users. Mining and analyzing Web logs can obtain access patterns and useful information including hobbies and interests so as to understand the access behavior of users.
Basing on the method and the process of Web usage mining and using Web server logs as data sources, the paper aims to mine frequent access paths of the individual user and group users, in order to find out the access modes of web users.
As for mining frequent access paths of the individual user, the paper introduces two representative association rule mining algorithm in detail, improves the algorithm by adding interesting measurement factor from the aspect of enhancing usefulness of association rules. As for group users , the paper analyzes the process of user clustering in detail, and uses UBPC to mine access patterns of users.
Finally, the paper proposes a model of user access patterns mining system, introduces the function of each module, does the experimental analysis by combining the concrete data to illustrate.
Key Words: web usage mining; web logs; association rule; user clustering; behavior mode
目錄
摘 要 I
Abstract II
第1章 緒論 1
1.1 課題研究的背景及意義 1
1.1.1 課題研究的背景 1
1.1.2 課題研究的意義 2
1.2 國(guó)內(nèi)外研究現(xiàn)狀 3
1.2.1 數(shù)據(jù)預(yù)處理的國(guó)內(nèi)外研究現(xiàn)狀 3
1.2.2 模式發(fā)現(xiàn)的國(guó)內(nèi)外研究現(xiàn)狀 3
1.2.3 模式分析的國(guó)內(nèi)外研究現(xiàn)狀 4
1.3 論文的主要研究?jī)?nèi)容 5
1.4 論文的組織結(jié)構(gòu) 6
1.5 本章小結(jié) 6
第2章 數(shù)據(jù)預(yù)處理 8
2.1 Web使用挖掘概述 8
2.1.1 Web使用挖掘的概念和應(yīng)用 8
2.1.2 Web日志的內(nèi)容 9
2.1.3 Web使用挖掘的過(guò)程 11
2.2 數(shù)據(jù)預(yù)處理 11
2.2.1 數(shù)據(jù)清洗 12
2.2.2 用戶識(shí)別 14
2.2.3 會(huì)話識(shí)別 15
2.2.4 路徑補(bǔ)充 16
2.2.5 事務(wù)識(shí)別 17
2.3 本章小結(jié) 19
第3章 基于關(guān)聯(lián)規(guī)則的用戶頻繁訪問(wèn)模式挖掘 20
3.1 用戶頻繁訪問(wèn)模式 20
3.2 關(guān)聯(lián)規(guī)則概述 20
3.2.1 關(guān)聯(lián)規(guī)則的概念和形式定義 20
3.2.2 支持度 22
3.2.3 置信度 22
3.3 關(guān)聯(lián)規(guī)則挖掘算法 22
3.3.1 Apriori算法 23
3.3.2 對(duì)Apriori算法經(jīng)典改進(jìn)的介紹 24
3.3.3 FP增長(zhǎng)算法 25
3.4 基于有趣度的改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法 28
3.4.1 已有的有趣度定義 29
3.4.2 本文提出的有趣度定義 29
3.4.3 改進(jìn)的算法 30
3.4.4 實(shí)驗(yàn)結(jié)果 32
3.4.5 實(shí)例分析 33
3.5 本章小結(jié) 35
第4章 基于聚類(lèi)分析的群體用戶訪問(wèn)模式發(fā)現(xiàn) 36
4.1 聚類(lèi) 36
4.1.1 聚類(lèi)的類(lèi)型 36-..
隨著網(wǎng)絡(luò)和信息技術(shù)的高速發(fā)展,基于Web的應(yīng)用已經(jīng)覆蓋社會(huì)生活的各個(gè)方面,因此Web上的數(shù)據(jù)通常是海量的。在這些數(shù)據(jù)中,相比網(wǎng)頁(yè)結(jié)構(gòu)和內(nèi)容,用戶的使用模式更加引人關(guān)注。通過(guò)獲取用戶的訪問(wèn)模式,可以實(shí)現(xiàn)從優(yōu)化網(wǎng)站設(shè)計(jì)到改善客戶關(guān)系的一系列應(yīng)用:根據(jù)訪問(wèn)者的行為模式來(lái)設(shè)計(jì)和修改網(wǎng)站結(jié)構(gòu)和布局,讓用戶以最短的時(shí)間訪問(wèn)到感興趣的頁(yè)面,優(yōu)化服務(wù)性能;理解和分析用戶的瀏覽行為,發(fā)現(xiàn)潛在的用戶并使用戶駐留;通過(guò)對(duì)用戶訪問(wèn)行為的把握,組織決策者可以更有針對(duì)性地設(shè)計(jì)商品目錄,提高商業(yè)決策的準(zhǔn)確性;發(fā)現(xiàn)個(gè)體用戶的訪問(wèn)模式,從而識(shí)別出用戶的興趣、愛(ài)好、習(xí)慣和需求,建立個(gè)性化用戶模型,為用戶提供更個(gè)性化的內(nèi)容和服務(wù)。
用戶使用模式的信息通常在Web服務(wù)器日志中有所體現(xiàn)。Web服務(wù)器日志記錄了用戶與服務(wù)器的交互信息,反映了用戶訪問(wèn)Web站點(diǎn)的所有動(dòng)作。對(duì)Web日志進(jìn)行分析挖掘,獲得用戶訪問(wèn)行為的模式和興趣愛(ài)好等有用信息,從而可以理解用戶的訪問(wèn)行為。
本文基于Web使用挖掘的方法和過(guò)程,將Web服務(wù)器日志文件作為數(shù)據(jù)源,旨在挖掘出單個(gè)用戶以及群體用戶的頻繁訪問(wèn)路徑,以發(fā)現(xiàn)網(wǎng)站用戶的訪問(wèn)模式。
針對(duì)單個(gè)用戶的頻繁訪問(wèn)路徑挖掘,在詳細(xì)介紹兩種具有代表性的關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上,從提高關(guān)聯(lián)規(guī)則有用性的角度,引入有趣度測(cè)量因子實(shí)現(xiàn)對(duì)算法的改進(jìn);針對(duì)群體用戶,在詳細(xì)分析用戶聚類(lèi)的過(guò)程后,采用基于瀏覽路徑的聚類(lèi)算法實(shí)現(xiàn)對(duì)群體用戶訪問(wèn)模式的發(fā)現(xiàn)。
最后提出一個(gè)用戶訪問(wèn)模式挖掘系統(tǒng)的模型框架,介紹各模塊的功能并進(jìn)行了實(shí)驗(yàn)分析,結(jié)合具體的實(shí)例數(shù)據(jù)加以說(shuō)明。
關(guān)鍵詞 Web使用挖掘;Web日志;關(guān)聯(lián)規(guī)則;用戶聚類(lèi);行為模式
Abstract
With the rapid development of the network and information technology, the application based on Web has covered all aspects of social life, so the data on the Web is usually huge. In these data, compared with the web structure and content, the using mode of users is more remarkable. By obtaining the access mode of users, we can realize a series of application from optimizing the design of websites to improving the customer relationship. Designing and modifying the structure and layout of websites according to the behavior patterns of users can let users visit interested pages in the shortest time and improve service performance. Understanding and analyzing the access behavior of users can find potential customers and keep users presence. By mastering the access behavior of users, group decision makers can design the goods catalogue more purposefully and improve the accuracy of business decisions. Finding the access pattern of the individual user can recognize the user's interests, hobbies, habits and needs, establish the personalized user model, provide the content and service more personally.
The information of usage modes is usually revealed in Web server logs. Web server logs records the mutual reacting information between users and servers which reflects all movement by users. Mining and analyzing Web logs can obtain access patterns and useful information including hobbies and interests so as to understand the access behavior of users.
Basing on the method and the process of Web usage mining and using Web server logs as data sources, the paper aims to mine frequent access paths of the individual user and group users, in order to find out the access modes of web users.
As for mining frequent access paths of the individual user, the paper introduces two representative association rule mining algorithm in detail, improves the algorithm by adding interesting measurement factor from the aspect of enhancing usefulness of association rules. As for group users , the paper analyzes the process of user clustering in detail, and uses UBPC to mine access patterns of users.
Finally, the paper proposes a model of user access patterns mining system, introduces the function of each module, does the experimental analysis by combining the concrete data to illustrate.
Key Words: web usage mining; web logs; association rule; user clustering; behavior mode
目錄
摘 要 I
Abstract II
第1章 緒論 1
1.1 課題研究的背景及意義 1
1.1.1 課題研究的背景 1
1.1.2 課題研究的意義 2
1.2 國(guó)內(nèi)外研究現(xiàn)狀 3
1.2.1 數(shù)據(jù)預(yù)處理的國(guó)內(nèi)外研究現(xiàn)狀 3
1.2.2 模式發(fā)現(xiàn)的國(guó)內(nèi)外研究現(xiàn)狀 3
1.2.3 模式分析的國(guó)內(nèi)外研究現(xiàn)狀 4
1.3 論文的主要研究?jī)?nèi)容 5
1.4 論文的組織結(jié)構(gòu) 6
1.5 本章小結(jié) 6
第2章 數(shù)據(jù)預(yù)處理 8
2.1 Web使用挖掘概述 8
2.1.1 Web使用挖掘的概念和應(yīng)用 8
2.1.2 Web日志的內(nèi)容 9
2.1.3 Web使用挖掘的過(guò)程 11
2.2 數(shù)據(jù)預(yù)處理 11
2.2.1 數(shù)據(jù)清洗 12
2.2.2 用戶識(shí)別 14
2.2.3 會(huì)話識(shí)別 15
2.2.4 路徑補(bǔ)充 16
2.2.5 事務(wù)識(shí)別 17
2.3 本章小結(jié) 19
第3章 基于關(guān)聯(lián)規(guī)則的用戶頻繁訪問(wèn)模式挖掘 20
3.1 用戶頻繁訪問(wèn)模式 20
3.2 關(guān)聯(lián)規(guī)則概述 20
3.2.1 關(guān)聯(lián)規(guī)則的概念和形式定義 20
3.2.2 支持度 22
3.2.3 置信度 22
3.3 關(guān)聯(lián)規(guī)則挖掘算法 22
3.3.1 Apriori算法 23
3.3.2 對(duì)Apriori算法經(jīng)典改進(jìn)的介紹 24
3.3.3 FP增長(zhǎng)算法 25
3.4 基于有趣度的改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法 28
3.4.1 已有的有趣度定義 29
3.4.2 本文提出的有趣度定義 29
3.4.3 改進(jìn)的算法 30
3.4.4 實(shí)驗(yàn)結(jié)果 32
3.4.5 實(shí)例分析 33
3.5 本章小結(jié) 35
第4章 基于聚類(lèi)分析的群體用戶訪問(wèn)模式發(fā)現(xiàn) 36
4.1 聚類(lèi) 36
4.1.1 聚類(lèi)的類(lèi)型 36-..
TA們正在看...
- 智能溫室控制系統(tǒng)的設(shè)計(jì).doc
- 高中人教a版數(shù)學(xué)教案.rar
- 班主任評(píng)語(yǔ)模板.doc
- 制藥企業(yè)員工滿意度、組織承諾與離職意愿相關(guān)性實(shí)...doc
- 深圳市深信服電子科技有限公司集成創(chuàng)新實(shí)證研究.doc
- s2sh網(wǎng)上書(shū)店系統(tǒng)(mysql5+tomcat5.5/6).rar
- 即時(shí)通信系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)任務(wù)說(shuō)明書(shū).rar
- asp同學(xué)錄畢業(yè)設(shè)計(jì).rar
- office辦公軟件技巧大全.rar
- 面試題庫(kù)(14個(gè)維度選拔考查).doc