91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

您當(dāng)前位置:首頁 > 新聞?lì)l道 > 技術(shù)動(dòng)態(tài) > 正文
簡(jiǎn)述基于數(shù)據(jù)挖掘的客戶關(guān)系管理設(shè)計(jì)與研究

論文導(dǎo)讀:數(shù)據(jù)挖掘的目的是選擇合適的分類算法將公司的客戶合理分類。首先確定所要生成的決策樹的相關(guān)分類C,如“關(guān)鍵客戶”,“主要客戶”,“一般客戶”,“潛在客戶”。
關(guān)鍵詞:數(shù)據(jù)挖掘,客戶關(guān)系,決策樹

  1 引言
  本課題研究的公司其客戶的不斷增加,為了減少公司的投入以及更有效的利用公司現(xiàn)有的人力資源,將所有客戶適當(dāng)分類勢(shì)在必行。隨著公司客戶的不斷增加,和客戶相關(guān)的信息資料也不斷增加,這就要求公司投入更多的人力和物力來整理這些龐雜信息資料,而且為了更有效的利用公司現(xiàn)有的人力資源,將所有客戶適當(dāng)分類也勢(shì)在必行。很顯然,如果僅僅依靠傳統(tǒng)人工技術(shù),這將是一項(xiàng)非常困難的工作。本文就是選擇好的解決方法。
  通過公司的mis系統(tǒng),可以搜集到關(guān)于客戶的基本信息、客戶近段時(shí)間內(nèi)的訪談?dòng)涗、客戶的銷售確認(rèn)單(SO 單)、客戶擁有的設(shè)備等信息資料。接下來的工作就是如何從這些信息資料中挖掘出公司所需要的知識(shí)。我們需要解決的問題如下:
  1)用戶的根本需要,即用戶需要發(fā)現(xiàn)什么?2) 用戶對(duì)現(xiàn)有數(shù)據(jù)中的哪些屬性更加關(guān)注?3) 數(shù)據(jù)挖掘的目的是什么?
  2 系統(tǒng)的概要設(shè)計(jì)
  2.1設(shè)計(jì)目標(biāo)
  需要是發(fā)明之母。對(duì)每個(gè)問題有了一個(gè)比較清晰的結(jié)論才可以進(jìn)行以后的工作,才可以保證以后的工作的有用性。期望的結(jié)果如下:
  1)用戶需要對(duì)所有客戶合理分類,為公司制定各種營銷和服務(wù)活動(dòng)打好基礎(chǔ);
  2)用戶對(duì)數(shù)據(jù)中客戶的SO單、訪談?dòng)涗洈?shù)量等更加關(guān)注;
  3)數(shù)據(jù)挖掘的目的是選擇合適的分類算法將公司的客戶合理分類。
  由上面的問題分析可以分析出用戶的需求:用戶已經(jīng)有了一個(gè)業(yè)務(wù)數(shù)據(jù)庫,而且積累了大量的數(shù)據(jù),用戶希望可以利用這些數(shù)據(jù)將客戶合理分類,以便公司制定各種營銷和服務(wù)活動(dòng),增加銷售收入。
  2.1數(shù)據(jù)預(yù)處理
  數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,對(duì)挖掘數(shù)據(jù)進(jìn)行壓縮、歸約等處理,從而有助于提高其后的挖掘過程的精度和運(yùn)行性能。數(shù)據(jù)預(yù)處理包括一些復(fù)雜的過程,一般包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約。
  1)數(shù)據(jù)清理。數(shù)據(jù)清理要去除數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù),取出空白數(shù)據(jù)域和知識(shí)背景上的白噪聲,考慮時(shí)間順序和數(shù)據(jù)變化等。主要包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理,并完成一些數(shù)據(jù)類型的轉(zhuǎn)換。論文參考。比如,數(shù)據(jù)庫中大量存在null值,這將會(huì)影響我們最終的挖掘結(jié)果,怎樣才能為該屬性填上空缺的值呢?我們可以忽略該條記錄,也可以使用最可能的值人工填寫空缺值,或者使用一個(gè)全局常量(或該屬性的平均值)填充空缺值。論文參考。
  2)數(shù)據(jù)集成。數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,解決語義的模糊性。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突解決以及不一致數(shù)據(jù)的處理問題。比如,數(shù)據(jù)分析者或計(jì)算機(jī)如何才能確信一個(gè)數(shù)據(jù)庫中的customer _id 和另一個(gè)數(shù)據(jù)庫中的customer_number 指的是同一實(shí)體?通常,我們通過元數(shù)據(jù)(關(guān)于數(shù)據(jù)的數(shù)據(jù))來解決這個(gè)問題,這種元數(shù)據(jù)可以幫助避免模式集成中的錯(cuò)誤。
  3)數(shù)據(jù)變換。數(shù)據(jù)變換主要是找到數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括:規(guī)格化、歸約、切換、旋轉(zhuǎn)和投影等操作。比如,在數(shù)據(jù)庫的客戶信息表中并沒有設(shè)置某個(gè)字段來記錄客戶的訪談?dòng)涗浨闆r(>=40 或20...40 或<=20),通過SQL 語句也只是能得到該客戶的訪談?dòng)涗浀木唧w數(shù)量,這里就必須進(jìn)行數(shù)據(jù)變換,將屬性數(shù)據(jù)離散化,以適應(yīng)數(shù)據(jù)挖掘的需要。
  4)數(shù)據(jù)歸約。有些數(shù)據(jù)屬性對(duì)發(fā)現(xiàn)任務(wù)是沒有影響的,這些屬性的加入會(huì)大大影響挖掘效率,甚至還可能導(dǎo)致挖掘結(jié)果的偏差。因此,有效的縮減數(shù)據(jù)是很必要的。
  5)事實(shí)表:把所有的度量值合成到一張表中,這張表就是事實(shí)表,事實(shí)表中存放的是所有用戶所關(guān)心的數(shù)據(jù),分析時(shí)通過按不同的維度,查看、翻轉(zhuǎn)、切片數(shù)據(jù)來得到關(guān)心的信息。
  6)維度表:維度表存放了事實(shí)數(shù)據(jù)的描述信息,一般包括時(shí)間、地點(diǎn)等信息。
  3 所選分類算法的研究
  3.1決策樹的生成
  本次數(shù)據(jù)挖掘的基本算法可以描述如下:
  首先確定所要生成的決策樹的相關(guān)分類 C,如“關(guān)鍵客戶”,“主要客戶”,“一般客戶”,“潛在客戶”。
     樹以代表訓(xùn)練樣本的單個(gè)節(jié)點(diǎn)開始。
  如果樣本都在屬于 C,則該節(jié)點(diǎn)成為樹葉,并標(biāo)記該節(jié)點(diǎn)的概率權(quán)值為1。
  否則,算法使用稱為“信息增益”的基于熵的度量作為啟發(fā)信息,選擇能夠最好的將樣本分類的屬性。該屬性成為節(jié)點(diǎn)的“測(cè)試”或“判定”屬性。
  對(duì)于測(cè)試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分支,并據(jù)此劃分樣本。論文參考。
  算法使用同樣的過程,遞歸的形成每個(gè)劃分上的樣本決策樹。一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不會(huì)在該分支再次出現(xiàn)。
  遞歸劃分步驟當(dāng)且僅當(dāng)下列條件之一成立時(shí)停止:
  1) 給定節(jié)點(diǎn)的所有樣本都屬于C或者都不屬于C。此時(shí)當(dāng)前節(jié)點(diǎn)成為葉子節(jié)
  點(diǎn),并標(biāo)記該節(jié)點(diǎn)的概率權(quán)值為1或0。
  2) 有剩余屬性可以用來進(jìn)一步劃分樣本。此時(shí)當(dāng)前節(jié)點(diǎn)成為葉子節(jié)點(diǎn),并
  標(biāo)記該節(jié)點(diǎn)的概率權(quán)值為C類樣本在樣本中所占比例。
  3) 分支test_attribute=ai沒有樣本。在這種情況下,以樣本中的多數(shù)類創(chuàng)建一個(gè)樹葉。
  3.2 決策樹的剪枝
  在決策樹構(gòu)造時(shí),許多分支可能反映的是訓(xùn)練數(shù)據(jù)中的噪聲或孤立點(diǎn)。樹剪枝試圖檢測(cè)和剪去這種分支,以提高在未知數(shù)據(jù)上分類的準(zhǔn)確性。通常使用統(tǒng)計(jì)度量,剪去最不可靠的分支,這將導(dǎo)致較快的分類,提高樹獨(dú)立于測(cè)試數(shù)據(jù)正確分類的能力,目前剪枝方法主要有以下幾種:
  1)減小錯(cuò)誤修剪法(Reduced Error Pruning):此方法由Quinlan提出。在此方法中,檢測(cè)決策樹中非葉的節(jié)點(diǎn),當(dāng)此節(jié)點(diǎn)被最佳的葉取代而產(chǎn)生的錯(cuò)誤數(shù)目小于或者等于之前未修剪的決策樹的錯(cuò)誤數(shù)目,則修剪成功;否則修剪失敗,放棄修剪。
  2)悲觀錯(cuò)誤修剪法(Pessimistic Error Pruning):此方法同樣是由Quinlan提出的。Quinlan發(fā)現(xiàn),當(dāng)用產(chǎn)生決策樹的訓(xùn)練數(shù)據(jù)來檢測(cè)錯(cuò)誤率時(shí),實(shí)際上對(duì)錯(cuò)誤的估計(jì)過于樂觀了。
  3)基于代價(jià)復(fù)雜度的修剪法(Cost Complexity Pruning):此方法由Breiman等提出,主要包括:按照一些啟發(fā)式的方法由原決策樹產(chǎn)生一系列子樹{T0,T1,T2,……,TL};通過評(píng)價(jià)以上子樹的錯(cuò)誤率來選擇一個(gè)最好的子樹以取代原決策樹。
  4)代價(jià)敏感(Cost Sensitive)的決策樹修剪方法:上述決策樹修剪方法均是通過分析錯(cuò)誤率的大小來決定是否進(jìn)行修剪。對(duì)于所有這些錯(cuò)誤,假設(shè)它們的嚴(yán)重性都是等同的。但在現(xiàn)實(shí)生活中,情況并非如此,往往不同的錯(cuò)誤具有不同的嚴(yán)重性。
  我們可以根據(jù)編碼所需的二進(jìn)位位數(shù),而不是根據(jù)期望錯(cuò)誤率,對(duì)樹進(jìn)行剪枝。所得的“最佳剪枝樹”使得編碼所需的二進(jìn)位最少。這種方法采用最小描述長(zhǎng)度原則。這一原則遵循的理念是最簡(jiǎn)單的解是最期望的。不想代價(jià)復(fù)雜性剪枝,它不需要獨(dú)立的樣本集。
  3.3由決策樹提取分類規(guī)則
  決策樹很容易轉(zhuǎn)換成分類規(guī)則,并以IF-THEN 形式的分類規(guī)則表示。對(duì)從根到樹葉的每條路徑創(chuàng)建一個(gè)規(guī)則。沿著給定路徑上的每個(gè)屬性-值對(duì)形成規(guī)則前件(“IF”部分)的一個(gè)合取項(xiàng)。葉節(jié)點(diǎn)包含類預(yù)測(cè),形成規(guī)則后件(“THEN”部分)。IF-THEN規(guī)則易于理解,特別是當(dāng)給定的樹比較大的時(shí)候。
  
  圖1:概念buys computers的決策樹,
  指出顧客是否購買計(jì)算機(jī)
  沿著由根節(jié)點(diǎn)到樹葉節(jié)點(diǎn)的路徑,圖1的決策樹可以轉(zhuǎn)換成如下的IF-THEN
  分類規(guī)則:
   IF age=”<=30” AND student=”no” THENbuys_computers=”no”
  IF age=”<=30” AND student=”yes” THENbuys_computers=”yes”
  IF age=” 30...40” THEN buys_computers=”yes”
   …… …… ……
  3.4 算法的復(fù)雜性分析
  假設(shè)參與分類算法的客戶記錄數(shù)為n,共有分析屬性p個(gè),分析屬性值為q個(gè)ID3 算法掃描每條數(shù)據(jù)記錄q×p 次,若每次掃描數(shù)據(jù)記錄耗費(fèi)一個(gè)單位時(shí)間,則法的時(shí)間復(fù)雜性為 O(n)。
  4 系統(tǒng)的詳細(xì)設(shè)計(jì)
  4.1 系統(tǒng)結(jié)構(gòu)的設(shè)計(jì)
  系統(tǒng)大致可以分成三層:數(shù)據(jù)層(包括業(yè)務(wù)數(shù)據(jù)庫和數(shù)據(jù)倉庫)、業(yè)務(wù)邏輯層、數(shù)據(jù)展現(xiàn)層。如圖2。
  
  圖2:系統(tǒng)的層次結(jié)構(gòu)
  4.2 業(yè)務(wù)邏輯層的設(shè)計(jì)
  業(yè)務(wù)邏輯層同樣分為三層:Facade層、BO 層、DAO層。如下圖3所示。將業(yè)務(wù)邏輯層分層的主要目的在于提高系統(tǒng)的重用性、可維護(hù)性、可移植性。
  
  圖3 業(yè)務(wù)邏輯層設(shè)計(jì)
  DAO Factory和DAO都屬于DAO層,DAO封裝訪問數(shù)據(jù)層的所有方法,一般來說,一個(gè)DAO只對(duì)應(yīng)一張數(shù)據(jù)庫表,由DAO Factory 實(shí)例化不同數(shù)據(jù)表對(duì)應(yīng)的DAO。將DAO層作為獨(dú)立的一層的主要優(yōu)勢(shì)在于:
  1)上層(BO層)在實(shí)現(xiàn)對(duì)數(shù)據(jù)層操作時(shí)只需要調(diào)用該層提供的統(tǒng)一接口,提高了代碼的重用性,也大大簡(jiǎn)化了開發(fā)。
  2)通過提供操作接口使得該層的功能實(shí)現(xiàn)對(duì)上層透明,當(dāng)需要對(duì)數(shù)據(jù)庫操作進(jìn)行修改時(shí),無須修改上層的大量程序文件,而只需修改該層的方法,降低了層與層之間的耦合度,增強(qiáng)了靈活性。
  3)該層作為功能獨(dú)立的一層,可以作為獨(dú)立組件重用,提高了軟件的可復(fù)用性。
  BO層封裝具體的業(yè)務(wù)操作邏輯,根據(jù)不同的邏輯調(diào)用不同的DAO方法以取得相應(yīng)的結(jié)果,比如根據(jù)權(quán)限的大小限定用戶可以查看的結(jié)果。在BO層可以調(diào)用多個(gè)DAO,即可以操作多張數(shù)據(jù)庫表。
  Facade層對(duì)外提供統(tǒng)一的接口,因?yàn)樵谕瓿梢粋(gè)功能調(diào)用的時(shí)候可能會(huì)涉及到多個(gè)BO。為了最小化下層的修改對(duì)上層的影響,用戶調(diào)用的是Facade 層的方法,而不是直接讓用戶來調(diào)用BO 層的方法。Facade 層可以直接調(diào)用DAO 層的方法,也可以通過BO層來調(diào)用DAO層的方法,這取決于具體的業(yè)務(wù)需要。
  另外,DAO返回的只是相應(yīng)數(shù)據(jù)庫表的內(nèi)容(對(duì)應(yīng)Data Object),當(dāng)需要聯(lián)合顯示多個(gè)數(shù)據(jù)庫表的內(nèi)容時(shí),在Facade 層做相應(yīng)的數(shù)據(jù)拼裝(由多個(gè)Data Object 按需要組合成Facade Data Object),以適應(yīng)數(shù)據(jù)展現(xiàn)層的表示需要。這樣做一方面提高了系統(tǒng)的安全性,另一方面減小了訪問客戶端的負(fù)擔(dān)。
  5 結(jié)束語
  數(shù)據(jù)挖掘的進(jìn)行不是在設(shè)計(jì)和建造階段就可以最終確定的,要經(jīng)過用戶的反復(fù)驗(yàn)證和不斷改進(jìn)才可以做到真正滿足用戶的需要。因此,還存在進(jìn)一步的工作有待完善。
    ??數(shù)據(jù)挖掘出來的知識(shí),只是相對(duì)于某一時(shí)間的某些數(shù)據(jù)的,新的數(shù)據(jù)可能使發(fā)現(xiàn)的新知識(shí)與原來的知識(shí)沖突。
  ??根據(jù)已經(jīng)有的分類算法分析出的結(jié)果,不斷優(yōu)化分類算法和參數(shù)值的設(shè)置,使挖掘出的結(jié)果更加符合用戶的需求。
  ??發(fā)掘用戶其他需求,建立新的挖掘模型,添加到已有系統(tǒng)中,進(jìn)一步增強(qiáng)系統(tǒng)的功能。

參考文獻(xiàn):
[1] 李冠乾,許亮. CRM 數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的應(yīng)用. 昆明理工大學(xué)學(xué)報(bào)-理工版. 2004年2月,第29卷,第1期.
[2] 蔡淑勤,劉至高,梁凱春,王略. 基于Web的CRM應(yīng)用系統(tǒng)技術(shù)支持平臺(tái)研究. 武漢理工大學(xué)學(xué)報(bào)-信息與管理工程版. 2005年2月,第27卷,第1期.
[3] 黃解軍,萬幼川. 基于數(shù)據(jù)挖掘的電子商務(wù)策略. 計(jì)算機(jī)應(yīng)用與軟件. 2004年6月,第21卷,第7期.
 

關(guān)鍵字:管理
About Us - 關(guān)于我們 - 服務(wù)列表 - 付費(fèi)指導(dǎo) - 媒體合作 - 廣告服務(wù) - 版權(quán)聲明 - 聯(lián)系我們 - 網(wǎng)站地圖 - 常見問題 - 友情鏈接
Copyright©2014安裝信息網(wǎng) www.78375555.com. All rights reserved.
服務(wù)熱線:4000-293-296 聯(lián)系電話:0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號(hào)-4
未經(jīng)過本站允許,請(qǐng)勿將本站內(nèi)容傳播或復(fù)制
安全聯(lián)盟認(rèn)證