相關(guān)鏈接: 中國安全網(wǎng) 中國質(zhì)量網(wǎng) 中國論文網(wǎng) 中國資訊網(wǎng)
Abstract: With the rapid development of mobile communication technology, mobile e-commerce gets a lot of network users because of the advantages of convenient, fast and so on. Behavior analysis of mobile Internet user has become the rapid developed knowledge field. As a basis of user behavior analysis Web data mining technology has a high practical value in the field of mobile e-commerce. The definition of Web-based data mining and features of Web data are introduced in the article, the processes and algorithms of Web usage mining are focused researched, including data preprocessing, pattern discovery and pattern analysis. In addition, based on the traditional enterprise involving e-commerce and business field diversification, how to construct large-scale e-business online platform, how to effectively collect vast amounts of data generated by the platform and how to use data mining technology to serve enterprises are innovatively researched.
Key words: mobile e-commerce;Web data mining;electronic platform;user behavior analysis
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1006-4311(2015)26-0245-05
1 移動電子商務(wù)與數(shù)據(jù)挖掘
1.1 移動電子商務(wù)與數(shù)據(jù)挖掘的關(guān)系 目前,移動互聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)庫技術(shù)飛速發(fā)展,移動電子商務(wù)正顯示出越來越強大的生命力,它把電子交易從傳統(tǒng)的PC端轉(zhuǎn)移到了移動終端,使人們可以隨時隨地進行電子商務(wù)活動,這加速了社會經(jīng)濟的電子化進程,同時也使得數(shù)據(jù)爆炸的問題越來越嚴(yán)重。數(shù)據(jù)挖掘的興起為電子商務(wù)提供了強大的數(shù)據(jù)支撐,利用數(shù)據(jù)挖掘技術(shù)可以有效的幫助企業(yè)分析網(wǎng)上獲取的大量數(shù)據(jù),發(fā)現(xiàn)隱藏在其背后的知識,為電子商務(wù)客戶提供個性化服務(wù),建設(shè)智能商務(wù)網(wǎng)站,指導(dǎo)企業(yè)的營銷策略,由此使企業(yè)線上的業(yè)務(wù)得到進一步的發(fā)展。
移動電子商務(wù)便捷以及交互式的服務(wù)可以為數(shù)據(jù)挖掘提供海量的數(shù)據(jù)。因為客戶對網(wǎng)站的每一次點擊都會被網(wǎng)絡(luò)服務(wù)器記錄在日志中,由此產(chǎn)生了點擊流數(shù)據(jù)。網(wǎng)站的服務(wù)器日志,后臺數(shù)據(jù)庫中客戶相關(guān)的數(shù)據(jù),以及大量交易記錄等數(shù)據(jù)資源中都蘊含著海量有待充分挖掘的信息,海量數(shù)據(jù)是數(shù)據(jù)挖掘的一個必要條件,如果數(shù)據(jù)量少,則挖掘的信息是不夠精準(zhǔn)的。
移動電子商務(wù)網(wǎng)站可以為數(shù)據(jù)挖掘提供“干凈的”數(shù)據(jù)。因為許多相關(guān)的信息是從網(wǎng)站上直接提取的,無需從歷史系統(tǒng)中集成,避免了很多錯誤。通過良好的站點設(shè)計,不需要進行分析、計算和預(yù)處理等步驟,就可以直接得到與數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù)。移動電子商務(wù)網(wǎng)站的數(shù)據(jù),非?煽浚瑹o需人工輸入,從而避免了很多錯誤。此外,可以通過良好的站點設(shè)計來控制數(shù)據(jù)采樣的顆粒度。
基于移動電子商務(wù)的數(shù)據(jù)挖掘能夠使得挖掘的成果非常容易應(yīng)用。很多其他的數(shù)據(jù)挖掘研究雖然有很多的知識發(fā)現(xiàn),但是這些知識很多不能輕松的在商業(yè)領(lǐng)域中應(yīng)用并產(chǎn)生效果。因為要應(yīng)用這些知識可能意味著需要進行復(fù)雜的系統(tǒng)更改、流程更改、或改變?nèi)藗內(nèi)粘5霓k事習(xí)慣,這在現(xiàn)實中是相對困難的。而在移動電子商務(wù)領(lǐng)域,很多知識發(fā)現(xiàn)都可以直接應(yīng)用。如改變站點設(shè)計(改變布局,適當(dāng)進行個性化設(shè)計),針對于特定目標(biāo)或消費群進行的隨時隨地的網(wǎng)上促銷,根據(jù)對廣告效果的統(tǒng)計數(shù)據(jù)改變相應(yīng)的廣告策略,根據(jù)數(shù)據(jù)特點可以很容易地進行網(wǎng)上捆綁式銷售等。
1.2 Web挖掘的定義 Web數(shù)據(jù)挖掘(Web Data Mining),是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從大量的Web文檔集合和在站點內(nèi)進行瀏覽的相關(guān)數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。它是一項綜合技術(shù),涉及到Internet技術(shù)、人工智能、信息學(xué)、統(tǒng)計學(xué)等多個領(lǐng)域。
面向電子商務(wù)的數(shù)據(jù)挖掘是Web挖掘的一個典型應(yīng)用,Web上的日志文件,如客戶的訪問行為,訪問頻度,瀏覽內(nèi)容及時間等,包括很多可挖掘內(nèi)容,對這些內(nèi)容進行提取、加工、分析,可以將客戶的訪問數(shù)據(jù)從潛在的、隱含的狀態(tài),變?yōu)槠髽I(yè)分析市場、制定經(jīng)營策略、管理客戶關(guān)系的有力依據(jù),從而實現(xiàn)Web上電子商務(wù)活動的本質(zhì),即獲得商務(wù)的增值。 對應(yīng)于不同的Web數(shù)據(jù),Web挖掘也分成三類:Web內(nèi)容挖掘(Web Content Mining)、Web結(jié)構(gòu)挖掘(Web Structure Mining)和Web使用模式挖掘(Web Usage Mining)。(圖1)
Web內(nèi)容挖掘就是對網(wǎng)絡(luò)頁面的內(nèi)容進行挖掘分析,包括對文本、圖像、音頻、視頻、元組數(shù)據(jù)的挖掘,但目前多數(shù)是基于文本信息的挖掘,這又可以進一部分為網(wǎng)頁內(nèi)容挖掘和搜索結(jié)果挖掘,前者是傳統(tǒng)的依據(jù)內(nèi)容搜索網(wǎng)頁,后者是在前者搜索結(jié)果的基礎(chǔ)上進一步搜索網(wǎng)頁。Web內(nèi)容挖掘和通常的平面文本挖掘的功能和方法比較類似,但由于互聯(lián)網(wǎng)上的數(shù)據(jù)基本上都是HTML格式的文件數(shù)據(jù)格式流,因此可以利用文檔中的HTML標(biāo)記來提高Web文本挖掘的性能。
Web結(jié)構(gòu)挖掘是對網(wǎng)絡(luò)頁面之間的結(jié)構(gòu)進行挖掘,從網(wǎng)頁的實際組織結(jié)構(gòu)中獲取信息。整個Web空間中,頁面內(nèi)容和頁面結(jié)構(gòu)中都可能會存在有用的知識。Web結(jié)構(gòu)挖掘主要就是針對頁面的超鏈接結(jié)構(gòu)進行分析,通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且由此可以獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息。如果發(fā)現(xiàn)有較多的超鏈接都指向某一頁面,那么該頁面就是重要的。這種知識可以用來改進搜索路徑。
Web使用模式挖掘是對用戶和網(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)進行挖掘,包括網(wǎng)絡(luò)服務(wù)器訪問記錄、瀏覽器日志記錄、注冊信息等。最常用到的是網(wǎng)絡(luò)服務(wù)器訪問記錄挖掘,它通過挖掘Web日志文件及客戶交易數(shù)據(jù)來發(fā)現(xiàn)有意義的客戶訪問模式和相關(guān)的潛在客戶群。其主要特點是對客戶信息數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。這里需要特別指出的是,Web使用模式挖掘還可以進一部分為一般訪問模式跟蹤和定制使用跟蹤,前者是一種查看網(wǎng)頁訪問歷史記錄的使用模式挖掘。這種挖掘可以是一般化的,也可以是針對特定的使用或使用者,這便是后者。
1.3 Web挖掘的數(shù)據(jù)源
很多數(shù)據(jù)都可以在Web上進行數(shù)據(jù)挖掘分析,并且這些數(shù)據(jù)存在很多類型,具體來說主要有以下幾種類型的數(shù)據(jù)。
1.3.1 服務(wù)器數(shù)據(jù) 通常只要有客戶訪問站點就會在Web服務(wù)器上留下相應(yīng)的痕跡,即日志數(shù)據(jù),這些日志數(shù)據(jù)存儲在服務(wù)器上的形式通常都是文本文件,比如cookie logs、error logs、sever logs等。
1.3.2 查詢數(shù)據(jù) 它是電子商務(wù)站點在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對于在線客戶也許會搜索一些產(chǎn)品或某些廣告信息,這些查詢信息就通過cookie或是登記信息連接到服務(wù)器的訪問日志上。
1.3.3 在線市場數(shù)據(jù) 在線時長數(shù)據(jù)主要包括存儲在傳統(tǒng)關(guān)系數(shù)據(jù)庫里的商品信息、客戶購買信息和電子商務(wù)站點信息等。
1.3.4 Web頁面 主要是指HTLM和XML頁面的內(nèi)容,包括本文、圖片、語音、圖像等。
1.3.5 Web頁面超級鏈接關(guān)系 主要是指頁面之間存在的超級鏈接關(guān)系,這也是一種重要的資源。
1.3.6 客戶登記信息 客戶登記信息是指客戶通過Web頁輸入的、要提交給服務(wù)器的相關(guān)客戶信息,這些信息通常是關(guān)于用戶的人的特征。在Web的數(shù)據(jù)挖掘中,客戶登記信息需要和訪問日志集成,以提高數(shù)據(jù)挖掘的準(zhǔn)確度,使之能更進一步地了解客戶。
2 Web使用模式挖掘分析
Web使用模式挖掘是Web數(shù)據(jù)挖掘中最重要的應(yīng)用,其數(shù)據(jù)源通常是服務(wù)器的日志信息。Web服務(wù)器的日志記載了用戶訪問站點的信息,這些信息包括:訪問者的IP地址、訪問時間、訪問方式(GET/POST)、訪問的頁面、協(xié)議、錯誤代碼以及傳輸?shù)淖止?jié)數(shù)等信息。
每當(dāng)網(wǎng)頁被請求一次,Web日志就在日志數(shù)據(jù)庫內(nèi)追加相應(yīng)的記錄。站點的規(guī)模和復(fù)雜程度與日俱增,利用普通的概率方法來統(tǒng)計、分析和安排站點結(jié)構(gòu)已經(jīng)不能滿足要求。只有通過數(shù)據(jù)挖掘技術(shù)處理服務(wù)器的日志文件,才能分析用戶訪問站點的規(guī)律,改進網(wǎng)站的組織結(jié)構(gòu)及其性能,增加個性化服務(wù),實現(xiàn)網(wǎng)站自適應(yīng),發(fā)現(xiàn)潛在的用戶群體。
Web使用模式挖掘的過稱具體包括數(shù)據(jù)的預(yù)處理過程、模式發(fā)現(xiàn)過程以及模式分析過程。
2.1 數(shù)據(jù)預(yù)處理過程
在數(shù)據(jù)預(yù)處理過程中,首先需要做一些數(shù)據(jù)清洗。其次由于日志文件中只記錄了主機或代理服務(wù)器的地址,需要運用Cookie技術(shù)和一些啟發(fā)規(guī)則來幫助識別用戶,之后還要確認(rèn)Web日志中是否有重要的訪問頁面被遺漏,如果有,需要進行相關(guān)的路徑補充。最后要進行事務(wù)識別工作,即將用戶的會話針對挖掘活動的特定需要進行定義、細分,使挖掘更加精確,得到想要的知識。
數(shù)據(jù)清洗:即把日志文件中一些與數(shù)據(jù)分析的無關(guān)項處理掉,例如剔除Web請求方法中不是“get”的記錄。以及刪除Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù),一般來說只有服務(wù)器日志中的HTML與挖掘相關(guān),Web日志文件的目的是獲取用戶的行為模式,通過檢查URL的后綴,可以刪除不相關(guān)的數(shù)據(jù)。例如:將日志文件中后綴名為JPG,GIF等圖片文件刪除,將后綴名為CGI的腳本文件刪除。
用戶識別:數(shù)據(jù)清洗之后,使用基于日志的方法同時輔助以一些啟發(fā)式規(guī)則,可以識別出每個訪問網(wǎng)站的用戶,這個過程就叫做用戶識別。在時間區(qū)間跨越較大的Web日志中,某一用戶可能多次訪問該站點,這時就要用到會話識別。其目的就是將用戶的訪問記錄分為單個會話(Session)。那么如何來分呢?可以做如下設(shè)定:用二元組S表示一個用戶會話
S=,
其中userid是用戶標(biāo)識,RS是用戶在一段時間內(nèi)請求訪問Web頁面的集合,RS內(nèi)包含用戶請求頁面的標(biāo)識符Pid及請求時間time,那么這段時間的訪問集合RS即可劃分為:
RS={
S=,
由此可以看出分成的每一個單獨的會話。
路徑補充:由于代理服務(wù)器本地緩存和代理服務(wù)器緩存的存在,使得服務(wù)器的日志會遺漏一些重要的頁面請求,路徑補充就是利用引用日志和站點的的拓撲結(jié)構(gòu)將這些遺漏的請求補充到用戶會話中,設(shè)遺漏的請求為
S=,
HTML通過“Frame”標(biāo)記支持多窗口頁面,每個窗口里裝載的頁面都對應(yīng)一個URL,F(xiàn)rame頁面用來定義頁面的大小、位置、及內(nèi)容,“Subframe”用來定義被Frame包含的子窗口頁面,當(dāng)用戶訪問URL對應(yīng)的是一個Frame頁面時,瀏覽器通過解釋執(zhí)行頁面源程序,會自動向Web服務(wù)器請求該Frame頁面包含的所有Subframe頁面,這一過程可以重復(fù)進行,直到所有Subframe頁面都被請求。如果在這樣的用戶會話文件上進行挖掘,F(xiàn)rame頁面和Subframe頁面作為頻繁遍歷路徑出現(xiàn)的概率很高,這自然就降低的挖掘的結(jié)果價值。為此應(yīng)當(dāng)消除Frame頁面對挖掘的影響,得到用戶真正感興趣的挖掘結(jié)果。
2.2 模式發(fā)現(xiàn)過程
數(shù)據(jù)預(yù)處理之后,可以對“干凈整齊”的數(shù)據(jù)進行挖掘,即找出有用的模式和規(guī)則的過程。下面主要分析三種常用的Web使用模式挖掘方法:關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、時間序列分析。
關(guān)聯(lián)分析:即通過分析用戶訪問網(wǎng)頁間的潛在聯(lián)系而歸納出的一種規(guī)則,如80%的用戶訪問頁面company/product1時,也訪問了頁面company/product2,這說明了兩個頁面的相關(guān)性。那么可以進行一個頁面的預(yù)取,來減少等待時間。用{A,B}來表示兩個頁面,那么在用戶訪問A時,可以把頁面B提前調(diào)入緩存中,從了改善Web緩存,改善網(wǎng)絡(luò)交通,提高性能。若A和B表示兩個產(chǎn)品頁面,則兩種產(chǎn)品對客戶來說有很大的相關(guān)性。利用這一點可以做出很有效的促銷和廣告策略。
關(guān)聯(lián)規(guī)則的算法思想是Apriori算法或其變形,由此可以挖掘出訪問頁面中頻繁在一起被訪問的頁面集,這種頻繁在一起被訪問的頁面就成為關(guān)聯(lián)頁面,可用A=>B表示。那么,若有:
A=>B=>C,A=>B=>D,A=>B=>E,A=>B=>F=>G,…,
則說明A=>B。
分類和預(yù)測:可以用分類來提取出用來描述重要數(shù)據(jù)類的模型,并可以用分類模型來劃分未知數(shù)據(jù)的類,從而預(yù)測未知數(shù)據(jù)的趨勢。常用的算法思想為決策樹,神經(jīng)網(wǎng)絡(luò)、貝葉斯分類等。例如可以根據(jù)用戶的資料數(shù)據(jù)(包括用戶一些屬性)或其特定的訪問模式將其歸入某一特定的類。
可以根據(jù)客戶對某一類產(chǎn)品的訪問情況,或如其拋棄購物車的情況,來對客戶分類(即對哪一類產(chǎn)品感興趣)。更深入一點,可以為客戶添加一些屬性,如性別,年齡,愛好等(可在網(wǎng)站注冊信息中獲得),并將對哪一類產(chǎn)品感興趣定義為目標(biāo)屬性,那么基于這些屬性可以用決策樹算法來進行分類,可以得出符合目標(biāo)屬性的人的特點,如40歲以上的男性更容易網(wǎng)購皮鞋等,這樣可以更精準(zhǔn)的捕捉客戶并制定營銷策略。
聚類分析:聚類即將對象的集合分成由類似的對象組成的多個類的過程。常用的算法思想有劃分方法、層次方法、基于密度的方法等。如可以用K-mean的劃分方法做到類之間差異化最大,而類內(nèi)相似性最大。
在使用模式挖掘中主要有兩種聚類。一種是頁聚類,即將內(nèi)容相關(guān)的頁面歸到一個網(wǎng)頁組,這對網(wǎng)上搜索引擎對網(wǎng)頁的搜索有很大幫助。另一種是客戶聚類,即將具有相似訪問特性的客戶歸為一組,那么可以分析出喜好類似的客戶群,從而可以動態(tài)的為客戶群制定網(wǎng)頁內(nèi)容或提供瀏覽意見,如通過對眾多的瀏覽“sports”網(wǎng)頁的客戶分析,發(fā)現(xiàn)經(jīng)常在該網(wǎng)頁上花上一段時間去瀏覽的客戶,再通過對這部分客戶的登記資料分析,知道這些客戶是潛在要買運動產(chǎn)品的客戶群體。就可以調(diào)整“sports”網(wǎng)頁的內(nèi)容和風(fēng)格,以適應(yīng)客戶的需要。這在電子商務(wù)市場的分割和為客戶提供個性化服務(wù)中起到了很大的作用。
2.3 模式分析過程
在挖掘出一系列客戶訪問模式和規(guī)則后,還需要進一步觀察發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計值,之后確定下步怎么辦,是發(fā)布模式還是對數(shù)據(jù)挖掘過程進行進一步調(diào)整。
如果存在冗余或無關(guān)的知識,需要將其剔除。如果經(jīng)過模式分析發(fā)現(xiàn)該模式不是想要的有價值的模式,則需要對挖掘過程進行調(diào)整,再轉(zhuǎn)入第二步重新開始。反之,即發(fā)現(xiàn)感興趣的規(guī)則模式,則可采用可視化技術(shù)以圖形界面的方式提供給使用者。
3 基于企業(yè)的電子商務(wù)平臺的數(shù)據(jù)挖掘應(yīng)用
許多傳統(tǒng)制造業(yè)或零售業(yè)的業(yè)務(wù)正在進行著電子化的轉(zhuǎn)型,電子商務(wù)、移動客戶端、線上大平臺的思路不斷發(fā)展。那么,如何建設(shè)一個企業(yè)的電子化平臺,如何有效收集平臺產(chǎn)生的海量數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)如何應(yīng)用于海量數(shù)據(jù),這些都是值得深入研究的問題。
3.1 建設(shè)企業(yè)線上大平臺
目前許多企業(yè)都面臨著客戶資源管理分散,客戶數(shù)據(jù)的物理化、靜態(tài)化、分散化,以及缺乏對客戶的深層分析和需求挖掘等問題。按照傳統(tǒng)企業(yè)想要占有電子商務(wù)市場或移動客戶端市場的需求,為了更好地以大數(shù)據(jù)集中為基礎(chǔ),推進客戶營銷服務(wù)個性化,企業(yè)可建設(shè)以會員管理為核心的大客戶管理系統(tǒng),把原有的各類信息系統(tǒng)、業(yè)務(wù)網(wǎng)站、電子商務(wù)網(wǎng)站等融匯在一個大平臺下,并分階段實施數(shù)據(jù)大集中,實現(xiàn)“海量客戶資源共享,一個客戶、多個產(chǎn)品、多頻次使用”的一站式營銷服務(wù)。通過數(shù)據(jù)的整合管理,分析客戶特點,實現(xiàn)客戶在企業(yè)內(nèi)各板塊的遷移和共享。 會員管理的實質(zhì)是為用戶提供連續(xù)的、長期的產(chǎn)品和服務(wù)。實現(xiàn)了為用戶提供持續(xù)的、長期的產(chǎn)品和服務(wù)就需要將短期的用戶發(fā)展為長期型和穩(wěn)定型用戶,而會員制正式實現(xiàn)這種轉(zhuǎn)變的最合適的方法,這就需要建立起強大的會員平臺,從而掌握會員的消費數(shù)據(jù),實現(xiàn)會員制的管理。
許多企業(yè)擁有的業(yè)務(wù)眾多,這就造成了各業(yè)務(wù)擁有自己眾多的忠實用戶,但目前各個業(yè)務(wù)的用戶沒有達到行業(yè)內(nèi)的共享。會員管理平臺為這些分散在行業(yè)內(nèi)的用戶提供統(tǒng)一的平臺達到行業(yè)內(nèi)的統(tǒng)一,在會員管理的平臺上不同業(yè)務(wù)的用戶可以實現(xiàn)統(tǒng)一登錄、統(tǒng)一管理、統(tǒng)一辦理業(yè)務(wù)來達到賬號統(tǒng)一、業(yè)務(wù)統(tǒng)一、積分統(tǒng)一、信用統(tǒng)一,從而使企業(yè)多元化的各項業(yè)務(wù)達到資源和信息的行業(yè)內(nèi)統(tǒng)一。
3.2 基于線上平臺的數(shù)據(jù)采集平臺
建設(shè)會員管理平臺的根本目的是進行數(shù)據(jù)挖掘,以龐大的會員信息來進行市場洞察和市場預(yù)測。因此建設(shè)數(shù)據(jù)收集系統(tǒng)并與會員管理平臺對接,可以有效收集到客戶數(shù)據(jù)并進行挖掘工作。
在數(shù)據(jù)的收集方面,目前許多企業(yè)數(shù)據(jù)信息的作用主要是統(tǒng)計收入和業(yè)務(wù)量、清分核算以及考核,而大數(shù)據(jù)這一數(shù)據(jù)價值最為關(guān)鍵的特性卻沒有被很好利用。
企業(yè)現(xiàn)有的平臺有時并不能很好地完成有效數(shù)據(jù)的收集,許多數(shù)據(jù)多為財務(wù)列收數(shù)據(jù)或業(yè)務(wù)完成情況數(shù)據(jù)。該類數(shù)據(jù)的屬性并無太多挖掘價值,無法進行有效的數(shù)據(jù)分析。數(shù)據(jù)挖掘需涉及到分類、聚類、關(guān)聯(lián)分析等算法的應(yīng)用,以此來定位目標(biāo)客戶,這對數(shù)據(jù)的屬性要求是比較高的。企業(yè)要充分挖掘和分析各類數(shù)據(jù),開展信息應(yīng)用,進行業(yè)務(wù)創(chuàng)新和運作流程的優(yōu)化,提升經(jīng)營管理能力和客戶服務(wù)水平。
數(shù)據(jù)收集平臺系統(tǒng)正是基于此目的進行開發(fā),需達到真實有效的客戶信息數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、Web服務(wù)器日志數(shù)據(jù)的全面收集,功能包括:
、倥c電子化平臺對接,可以收集到平臺的會員及非會員的客戶信息數(shù)據(jù)。在系統(tǒng)中可設(shè)客戶的年齡、職業(yè)、愛好、收入等客戶相關(guān)屬性項,從而把會員俱樂部中的有效客戶信息數(shù)據(jù)歸類收集,為分析不同類型客戶做準(zhǔn)備。
、谟行占娇蛻艚灰讛(shù)據(jù)以及相關(guān)業(yè)務(wù)數(shù)據(jù),系統(tǒng)中設(shè)定各類客戶指標(biāo)(收入貢獻、交易額、價值度等),為分析不同類型業(yè)務(wù)做準(zhǔn)備。
、勰軌蜻M行WEB服務(wù)器日志數(shù)據(jù)的收集。對于企業(yè)業(yè)務(wù)網(wǎng)站及企業(yè)電子商務(wù)平臺,系統(tǒng)可抽取和收集網(wǎng)站的WEB服務(wù)器日志數(shù)據(jù),從而為進行相關(guān)的頁面訪問頻度、瀏覽時間、頁面指向等客戶行為模式分析做準(zhǔn)備。
3.3 Web挖掘在企業(yè)的應(yīng)用
目前Web數(shù)據(jù)挖掘技術(shù)已經(jīng)在企業(yè)得到了廣泛應(yīng)用,分析其原因是該技術(shù)能夠挖掘出活動過程中的各類潛在信息,進而幫助企業(yè)得到更高的發(fā)展,其優(yōu)勢具體如下:
3.3.1 發(fā)現(xiàn)潛在客戶 由于Web數(shù)據(jù)挖掘技術(shù)可以把客戶在電子化平臺上的瀏覽行為存儲下來,通過查看這些客戶的瀏覽行為就可以了解到客戶的興趣和購買意向,由此就可以發(fā)現(xiàn)潛在客戶,進而有針對性地對這些潛在客戶采取某種謀略,使其盡快的成為在冊客戶群體,如此一來,電子商務(wù)網(wǎng)站的經(jīng)濟效益將會越來越好。
3.3.2 提供優(yōu)質(zhì)個性化服務(wù),提高客戶忠誠度 在電子商務(wù)中,雖然客戶和銷售商之間的空間距離消失了,但客戶的選擇面更廣了,客戶只需輕點幾下鼠標(biāo)就可以從這家電子商務(wù)網(wǎng)站轉(zhuǎn)換到另一家電子商務(wù)網(wǎng)站。在這種情況下,各家電子商務(wù)網(wǎng)站必須各出奇招,努力使自家網(wǎng)站的內(nèi)容和層次、用詞、標(biāo)題和獎勵方案等比其它網(wǎng)站更具優(yōu)勢、更吸引人,通過提供優(yōu)質(zhì)個性化的服務(wù),不斷提高客戶的忠誠度。
3.3.3 改進系統(tǒng)性能,增強安全性 對于電子化平臺的各種數(shù)據(jù)統(tǒng)計分析,有助于改進系統(tǒng)性能,增強系統(tǒng)安全性,并提供相關(guān)決策支持。客戶衡量網(wǎng)站滿意度的一個關(guān)鍵指標(biāo)就是Web服務(wù)器的性能,通過應(yīng)用Web數(shù)據(jù)挖掘技術(shù)可以清楚了解到哪個站點的客戶是最多的,最容易造成擁塞記錄的,然后有針對性的采取有效的Web緩存策略,減少網(wǎng)站的傳輸壓力,同時運用Web數(shù)據(jù)挖掘技術(shù)還可以將非法進入電子商務(wù)網(wǎng)站的人員挖掘并清除出去,因此可以說Web挖掘在企業(yè)的應(yīng)用改進了系統(tǒng)性能,增強了安全性,保證了業(yè)務(wù)的正常展開。
3.3.4 改進網(wǎng)站設(shè)計,增強客戶體驗 Web挖掘在企業(yè)的應(yīng)用還能夠有效的改進網(wǎng)站設(shè)計,增強客戶體驗,具體表現(xiàn)在以下三個方面:
①通過對Web日志的挖掘,發(fā)現(xiàn)客戶訪問頁面的相關(guān)性,從而對密切聯(lián)系的網(wǎng)頁之間增加鏈接,方便客戶使用。②利用路徑分析技術(shù)判定在一個Web站點中最頻繁的訪問路徑,可以考慮把重要的商品信息放在這些頁面中,改進頁面和網(wǎng)站結(jié)構(gòu)的設(shè)計,增強對客戶的吸引力,提高銷售量。③通過對Web日志的挖掘,發(fā)現(xiàn)客戶的期望位置。如果在期望位置的訪問頻率高于對實際位置的訪問頻率,可考慮在期望位置和實際位置之間建立導(dǎo)航鏈接,從而實現(xiàn)對Web站點結(jié)構(gòu)的優(yōu)化。
3.3.5 應(yīng)用于收索引擎 通過對Web網(wǎng)頁內(nèi)容的挖掘,可以實現(xiàn)對網(wǎng)頁的聚類和分類,實現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索;通過客戶使用的歷史記錄分析,可以有效地進行擴展,提高客戶的檢索效果;通過運用Web挖掘技術(shù)改進關(guān)鍵詞加權(quán)法,可以提高網(wǎng)絡(luò)信息的準(zhǔn)確度,改善檢索效果。通過挖掘客戶的行為記錄和反饋情況可以為站點設(shè)計提供改進的依據(jù),從而進一步優(yōu)化網(wǎng)站組織結(jié)構(gòu)和服務(wù)方式來提高網(wǎng)站效率。
站點的結(jié)構(gòu)和內(nèi)容是吸引客戶的關(guān)鍵,站點上頁面內(nèi)容的安排和連接如同超市中物品在貨架上的擺設(shè)一樣,把具有一定支持度和信任度的相關(guān)聯(lián)物品擺放在一起有助于銷售。比如利用關(guān)聯(lián)規(guī)則,可以針對不同客戶動態(tài)調(diào)整站點結(jié)構(gòu),使客戶訪問的有關(guān)聯(lián)的頁面之間的鏈接更直接,讓客戶很容易訪問到想要訪問的頁面。這樣的網(wǎng)站往往能給客戶留下好印象,提高客戶忠誠度,吸引客戶不斷訪問。
3.3.6 聚類客戶 許多企業(yè)都對企業(yè)的客戶、市場、銷售、服務(wù)與支持信息進行深層次發(fā)掘和分析,對客戶價值進行分類,發(fā)現(xiàn)新的市場機會,增加收入和利潤。所以聚類電子化平臺客戶是一個重要的方面。通過分組具有相似瀏覽行為的客戶并分析組中客戶的共同特征,可以幫助企業(yè)更好地了解自己的客戶,及時調(diào)整頁面及頁面內(nèi)容使商務(wù)活動能夠在一定程度上滿足客戶的要求,向客戶提供更適合、更面向客戶的服務(wù),使商務(wù)活動對客戶和銷售商來說更具意義。 4 小結(jié)
數(shù)據(jù)挖掘技術(shù)正以前所未有的速度發(fā)展,并且擴大著用戶群體,在未來越來越激烈的市場競爭中,擁有數(shù)據(jù)挖掘技術(shù)必將比別人獲得更快速的反應(yīng),贏得更多的商業(yè)機會。
基于Web的數(shù)據(jù)挖掘在移動電子商務(wù)中的應(yīng)用將是一個非常有前景的領(lǐng)域,有很多優(yōu)勢,經(jīng)過近幾年的發(fā)展已逐漸成為數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域的一個重要分支。其針對移動電子商務(wù)網(wǎng)站用戶的行為模式進行挖掘,可以找到用戶的潛在興趣與偏好,指導(dǎo)網(wǎng)站建設(shè),支持企業(yè)營銷決策。
企業(yè)在運營電子商務(wù)網(wǎng)站時,尤其是移動電子商務(wù),會產(chǎn)生海量的業(yè)務(wù)數(shù)據(jù),所以需要建設(shè)一個線上的電子化大平臺來匯集業(yè)務(wù),同時在這個大平臺基礎(chǔ)之上高效地收集業(yè)務(wù)數(shù)據(jù),針對Web數(shù)據(jù),使用Web挖掘技術(shù)預(yù)測客戶的消費趨勢、市場走向,維系客戶關(guān)系、指導(dǎo)企業(yè)建設(shè)個性化智能網(wǎng)站,帶來巨大商業(yè)利潤。這可以為企業(yè)創(chuàng)造新的商業(yè)增長點,使其在激烈的市場競爭中處于有利位置,搶占先機。