相關(guān)鏈接: 中國(guó)安全網(wǎng) 中國(guó)質(zhì)量網(wǎng) 中國(guó)論文網(wǎng) 中國(guó)資訊網(wǎng)
基于預(yù)測(cè)度量值的IPTV用戶行為規(guī)則預(yù)測(cè)算法(通訊)
汪敏娟1,2,嵇正鵬3,呂超1,2
(1.江蘇省公用信息有限公司,江蘇南京210006;2.中國(guó)電信股份有限公司智慧家庭運(yùn)營(yíng)中心,江蘇南京210006;3.中國(guó)電信股份有限公司江蘇分公司,江蘇南京210003)
摘 要:提出了一種符合用戶行為的,基于海量IPTV用戶特征數(shù)據(jù),對(duì)IPTV用戶進(jìn)行分群和規(guī)則提取的算法模型。首先提出了符合用戶點(diǎn)播使用行為的IPTV用戶分群的描述維度,即通過(guò)基礎(chǔ)屬性描述用戶分群、通過(guò)點(diǎn)播行為描述用戶分群變化趨勢(shì)。然后提出了預(yù)測(cè)度量值的概念,對(duì)用戶分群的穩(wěn)定性進(jìn)行描述,并提出了對(duì)穩(wěn)定的用戶分群提取點(diǎn)播行為概率的算法。最后通過(guò)大量的IPTV運(yùn)營(yíng)數(shù)據(jù)對(duì)算法模型進(jìn)行了驗(yàn)證分析。
關(guān)鍵詞:IPTV;點(diǎn)播行為;等價(jià)類劃分;信息熵;預(yù)測(cè)度最值;規(guī)則提取
中圖分類號(hào):TP181 doi: 10.11959/j.issn.1000-0801.2016153
1 引言
IPTV(intemet protocol television,網(wǎng)絡(luò)協(xié)議電視)是以網(wǎng)絡(luò)協(xié)議為基礎(chǔ),面向電視終端,通過(guò)寬帶網(wǎng)向用戶提供交互式電視及增值服務(wù)的業(yè)務(wù)舊。在業(yè)務(wù)的發(fā)展和運(yùn)營(yíng)過(guò)程中.IPTV平臺(tái)已積累了海量用戶特征屬性數(shù)據(jù)。這些數(shù)據(jù)是在用戶辦理業(yè)務(wù)和使用業(yè)務(wù)過(guò)程中積累的、對(duì)用戶基本信息和使用信息的描述。用戶特征屬性數(shù)據(jù)蘊(yùn)含了豐富的用戶行為信息。如何在這些海量的信息中提取出有意義的用戶行為特征,用于有效地指導(dǎo)IPTV業(yè)務(wù)運(yùn)營(yíng)與服務(wù),已成為當(dāng)前研究的熱點(diǎn)問(wèn)題。用戶行為特征的預(yù)測(cè)算法研究,無(wú)論對(duì)于運(yùn)營(yíng)商,還是對(duì)于用戶,都具有很高的經(jīng)濟(jì)價(jià)值和實(shí)際意義。
國(guó)內(nèi)外很多學(xué)者、運(yùn)營(yíng)機(jī)構(gòu)對(duì)于IPTV用戶行為特征預(yù)測(cè)進(jìn)行了研究。目前的研究工作主要通過(guò)計(jì)算用戶與內(nèi)容的關(guān)聯(lián)關(guān)系、學(xué)習(xí)用戶興趣標(biāo)簽、用戶聚類等角度展開。基于用戶聚類的關(guān)聯(lián)推薦算法,利用皮爾曼相關(guān)系數(shù)和斯皮爾曼相關(guān)系數(shù)來(lái)確定IPTV用戶群與內(nèi)容之間的偏好關(guān)系;提出從業(yè)務(wù)的用戶使用場(chǎng)景出發(fā),結(jié)合用戶標(biāo)簽加強(qiáng)推薦的針對(duì)性;將一種單蟻群聚類應(yīng)用于IPTV用戶群偏好分析中,解決了用戶偏好發(fā)現(xiàn)問(wèn)題;提出了在沒有先驗(yàn)知識(shí)的情況下,利用生態(tài)位理論計(jì)算IPTV服務(wù)之間的“競(jìng)爭(zhēng)系數(shù)”,從而選取更為符合期望的服務(wù)的方法。上述工作都對(duì)利用IPTV用戶特征屬性信息進(jìn)行用戶分類、通過(guò)用戶分類進(jìn)行行為預(yù)測(cè)提供了有效解決方式。
在IPTV的實(shí)際運(yùn)營(yíng)過(guò)程中發(fā)現(xiàn),用戶的特征屬性數(shù)據(jù)可分為基礎(chǔ)屬性和點(diǎn)播行為兩類。基礎(chǔ)屬性是描述用戶基本特征的數(shù)據(jù)(如所在地區(qū)、職業(yè)、產(chǎn)品套餐類型等);點(diǎn)播行為是在運(yùn)營(yíng)過(guò)程中產(chǎn)生的,隨著用戶使用業(yè)務(wù)而動(dòng)態(tài)變化的數(shù)據(jù)(如平均消費(fèi)值、最常收看的頻道類型等)。
用戶的點(diǎn)播行為是從無(wú)到有、不斷變化的,而往往具有相同基礎(chǔ)屬性的用戶在點(diǎn)播行為上表現(xiàn)出了一定的共性。另外,由于用戶使用IPTV業(yè)務(wù)均經(jīng)歷了從陌生到熟悉的使用習(xí)慣培養(yǎng)過(guò)程,故處于不同狀態(tài)階段的用戶特征屬性數(shù)據(jù)對(duì)行為特征預(yù)測(cè)的貢獻(xiàn)是不同的?梢姂(yīng)該從已趨于穩(wěn)定狀態(tài)的用戶群體中獲取行為特征,這樣得到的規(guī)則較為貼近實(shí)際運(yùn)營(yíng)情況。而目前從上述角度進(jìn)行研究的工作較少。
為此,從研究某些IPTV用戶群是否適宜于進(jìn)行用戶行為預(yù)測(cè)人手,建立了一種全新的IPTV用戶行為特征預(yù)測(cè)算法模型。首先利用IPTV用戶的基礎(chǔ)屬性對(duì)用戶進(jìn)行基本分類,而后對(duì)每個(gè)基本分類中用戶的點(diǎn)播行為是否已經(jīng)趨于穩(wěn)定進(jìn)行觀測(cè)。對(duì)于用戶點(diǎn)播行為已趨于穩(wěn)定的用戶進(jìn)行基本分類,計(jì)算出分類中點(diǎn)播行為出現(xiàn)的概率數(shù)據(jù),利用此概率數(shù)據(jù)對(duì)IPTV用戶的行為進(jìn)行預(yù)測(cè)。通過(guò)對(duì)實(shí)際運(yùn)營(yíng)應(yīng)用數(shù)據(jù)的分析與比較,提出的算法模型有效地提升了IPTV用戶行為預(yù)測(cè)的準(zhǔn)確性和用戶行為預(yù)測(cè)的計(jì)算效率。
2 IPTV用戶基本分類與預(yù)測(cè)度量值
2.1 IPTV用戶基本分類模型
研究的IPTV用戶行為特征預(yù)測(cè)算法模型,是以用戶特征屬性信息為基礎(chǔ)進(jìn)行知識(shí)學(xué)習(xí)的計(jì)算模型。首先基于對(duì)用戶在各基礎(chǔ)屬性上的取值,通過(guò)等價(jià)關(guān)系運(yùn)算來(lái)對(duì)IPTV用戶進(jìn)行等價(jià)劃分,每個(gè)等價(jià)劃分對(duì)應(yīng)一個(gè)用戶基本分類。
基于上述定義對(duì)IPTV用戶進(jìn)行基礎(chǔ)分類劃分的算法模型如圖1所示。通過(guò)對(duì)IPTV用戶核心基礎(chǔ)屬性值與已知各IPTV用戶基本分類在核心基礎(chǔ)屬性上的取值相比較,在取值函數(shù)上取值相同的,即可將用戶劃分到該基本分類中。不斷地重復(fù)上述過(guò)程,即可不斷地根據(jù)用戶基礎(chǔ)屬性的取值來(lái)建立用戶基本分類。
2.2基本分類的預(yù)測(cè)度量值
通過(guò)把IPTV用戶劃分為若干個(gè)基本分類后,即可開始對(duì)各分類在運(yùn)營(yíng)過(guò)程中的變化情況進(jìn)行觀測(cè)。中提出,在IPTV運(yùn)營(yíng)過(guò)程中,絕大多數(shù)的用戶會(huì)經(jīng)歷從對(duì)業(yè)務(wù)不熟悉到逐漸形成自己使用習(xí)慣的過(guò)程。即大多數(shù)用戶使用了一定時(shí)期IPTV業(yè)務(wù)后,其對(duì)業(yè)務(wù)的使用習(xí)慣一般會(huì)停留在一個(gè)穩(wěn)定的、有規(guī)律的狀態(tài)附近。但如何來(lái)確定某一個(gè)用戶基本分類已經(jīng)趨于穩(wěn)定,我們借鑒Shannon等人提出的經(jīng)典信息熵概念:任何信息都存在冗余,冗余的大小與信息微觀的不確定性有關(guān)。而信息熵就是用來(lái)描述信息源不確定程度的概念,即熵值越大,其不確定性越大;熵值越小,其確定性越大。
在對(duì)IPTV用戶的預(yù)測(cè)過(guò)程中,對(duì)于已經(jīng)趨于穩(wěn)定的用戶基本分類,其用戶體現(xiàn)同類型點(diǎn)播行為的可能性越大。本文提出的預(yù)測(cè)度量值,就是利用信息熵的概念,對(duì)每個(gè)基本分類中海量的用戶點(diǎn)播行為進(jìn)行概率計(jì)算,用于判定當(dāng)前的用戶基本分類是否已經(jīng)趨于確定。
設(shè)通過(guò)第2.1節(jié)的理論對(duì)IPTV用戶集U劃分得到的
依據(jù)信息熵的計(jì)算法則,定義IPTV用戶基本分類點(diǎn)播行為的信息熵如下。
定義2 某IPTV用戶基本中分類點(diǎn)播行為d的信息熵為:
H(d j)描述了某一個(gè)點(diǎn)播行為的不確定性。它通過(guò)其所有可能取值的變化情況來(lái)描述該屬性當(dāng)前的狀態(tài)。對(duì)于一個(gè)IPTV用戶基本分類來(lái)說(shuō),其預(yù)測(cè)度量值為其包含的所有點(diǎn)播行為信息熵之和。
IPTV用戶基本分類的預(yù)測(cè)度量值為:
H(X i)在傳統(tǒng)的對(duì)信息變化描述的基礎(chǔ)上,通過(guò)對(duì)IPTV用戶基本分類中點(diǎn)播行為變化情況的匯總,來(lái)表示當(dāng)前分類整體點(diǎn)播行為的不確定性。
使用預(yù)測(cè)度量值表示在一個(gè)IPTV用戶的基本分類中,其所有用戶的點(diǎn)播行為是否已趨于穩(wěn)定狀態(tài)。預(yù)測(cè)度量值越大,表示該分類中的用戶行為仍處于較為混亂的狀態(tài),意味著該分類暫時(shí)無(wú)法用于用戶預(yù)測(cè);預(yù)測(cè)度量值越小,表示該分類中的用戶行為已趨于穩(wěn)定,意味著該分類已形成了一類用戶行為的描述。即隨著用戶逐步形成自己的使用習(xí)慣后,其點(diǎn)播行為雖仍在不斷變化,但已趨于某一種規(guī)律。
IPTV用戶基本分類預(yù)測(cè)度量值算法具體如下。
3 lPTV用戶行為規(guī)則分析
得到每個(gè)IPTV基本分類對(duì)應(yīng)的預(yù)測(cè)度量值后,對(duì)低于預(yù)設(shè)閾值的基本分類,認(rèn)為其已基本趨于穩(wěn)定。在IPTV業(yè)務(wù)運(yùn)營(yíng)過(guò)程中,可根據(jù)當(dāng)前各基本分類預(yù)測(cè)度量值實(shí)際取值和運(yùn)營(yíng)經(jīng)驗(yàn)來(lái)預(yù)設(shè)閾值。一般來(lái)說(shuō),在一定時(shí)間周期內(nèi),某個(gè)用戶基本分類的預(yù)測(cè)度量值停留在一個(gè)較低的取值區(qū)間且沒有發(fā)生較大范圍的波動(dòng)時(shí),可認(rèn)為其已趨于穩(wěn)定。
在趨于穩(wěn)定的用戶基本分類X中,用戶在基礎(chǔ)屬性上等價(jià),在點(diǎn)播行為上取值不同,但保持了一定的變化規(guī)律。因此可通過(guò)對(duì)基本分類X中IPTV用戶基礎(chǔ)屬性取值與點(diǎn)播行為取值的統(tǒng)計(jì)關(guān)系來(lái)得到某一類IPTV用戶的行為特征。
4實(shí)驗(yàn)分析
對(duì)Ⅳ市12個(gè)月內(nèi)IPTV用戶的行為進(jìn)行了預(yù)測(cè)實(shí)驗(yàn)。數(shù)據(jù)包括了Ⅳ市IPTV用戶的基礎(chǔ)屬性和第1-12個(gè)月的點(diǎn)播行為數(shù)據(jù)。具體數(shù)據(jù)見表1。
首先根據(jù)用戶的基礎(chǔ)屬性對(duì)用戶進(jìn)行分類,計(jì)算其預(yù)測(cè)度量值,并通過(guò)對(duì)已趨于穩(wěn)定的用戶基本分類進(jìn)行用戶行為特征預(yù)測(cè),并將預(yù)測(cè)結(jié)果與12月的實(shí)際點(diǎn)播行為情況進(jìn)行比對(duì),以驗(yàn)證預(yù)測(cè)規(guī)則的準(zhǔn)確性。
按照提出的用戶基本分類算法,將Ⅳ市分成了30余個(gè)用戶基本分類,針對(duì)各分類計(jì)算其1-11月的預(yù)測(cè)度量值。表2是Ⅳ市用戶基本分類取值范圍的情況。從表2中可以看到,用戶基本分類的預(yù)測(cè)度量值處于一個(gè)“兩頭小、中間大”的狀態(tài),即部分基本分類已趨于穩(wěn)定、少量分類處于大量變化階段、多數(shù)用戶分類處于由不穩(wěn)定到穩(wěn)定的變化過(guò)程中。
選取了預(yù)測(cè)度量值最小的3個(gè)基本分類、預(yù)測(cè)度量值最大的1個(gè)基本分類。其預(yù)測(cè)度量值1-11月份的變化情況如圖2所示。從圖2中可以看到,通過(guò)11個(gè)月的運(yùn)營(yíng),用戶基本分類A、B、C的預(yù)測(cè)度量值已逐步由較高的取值降低到一個(gè)平緩的取值范圍,但也存在用戶基本分類D,其預(yù)測(cè)度量值始終處于不斷變化的狀態(tài)。
通過(guò)對(duì)上述用戶基本分類的走訪,發(fā)現(xiàn)用戶基本分類D中的絕大多數(shù)用戶屬于集體宿舍、賓館等形態(tài)的用戶。用戶流動(dòng)性大、使用人群不固定,故其預(yù)測(cè)度量值始終處于一個(gè)變化的范圍。而對(duì)于基本分類A、B、C來(lái)說(shuō),其絕大多數(shù)IPTV業(yè)務(wù)用戶為普通家庭用戶,通過(guò)一段時(shí)間的業(yè)務(wù)使用,其使用習(xí)慣已逐漸趨于穩(wěn)定,月均消費(fèi)額、最常觀看的直播頻道、點(diǎn)播標(biāo)簽等運(yùn)營(yíng)特征數(shù)據(jù)均已處于一個(gè)穩(wěn)定的范圍內(nèi)。
對(duì)于已趨于穩(wěn)定的用戶基本分類A、B、C,可通過(guò)其特征屬性進(jìn)行用戶行為特征的預(yù)測(cè)。通過(guò)IPTV用戶的預(yù)測(cè)算法,提取用戶基本分類A、B、C中的行為規(guī)則,并將預(yù)測(cè)的規(guī)則與這3個(gè)基本分類在12個(gè)月的實(shí)際點(diǎn)播行為進(jìn)行對(duì)比,用于驗(yàn)證預(yù)測(cè)規(guī)則的準(zhǔn)確性。對(duì)比情況見表3。
從表3可以看到.3個(gè)用戶基本分類點(diǎn)播行為的預(yù)測(cè)值和實(shí)際值的誤差率都在8%以內(nèi),能夠有效地為運(yùn)營(yíng)人員針對(duì)不同的用戶基本分類進(jìn)行有針對(duì)性的運(yùn)營(yíng)提供數(shù)據(jù)基礎(chǔ)。
5結(jié)束語(yǔ)
提出了一種符合IPTV業(yè)務(wù)特征的分類及行為分析算法,結(jié)合實(shí)際運(yùn)營(yíng)經(jīng)驗(yàn)將IPTV用戶特征屬性劃分為基礎(chǔ)屬性和點(diǎn)播行為,利用基礎(chǔ)屬性對(duì)用戶進(jìn)行分類,利用點(diǎn)播行為描述各用戶分類的變化情況,當(dāng)用戶分類變化趨于穩(wěn)定時(shí),計(jì)算該基本分類中用戶的基礎(chǔ)屬性與點(diǎn)播行為之間的概率關(guān)系,并將該概率關(guān)系輸出為行為規(guī)則,用于指導(dǎo)IPTV業(yè)務(wù)運(yùn)營(yíng)。通過(guò)對(duì)實(shí)際運(yùn)營(yíng)數(shù)據(jù)的分析,本文提出的預(yù)測(cè)算法明顯地提升了IPTV用戶預(yù)測(cè)的準(zhǔn)確性,也降低了IPTV用戶分類、行為規(guī)則提取的計(jì)算開銷。
在后續(xù)的工作中,需對(duì)IPTV用戶的特征屬性分類提出更為精確的劃分標(biāo)準(zhǔn),并優(yōu)化對(duì)IPTV用戶基礎(chǔ)屬性分類算法和計(jì)算規(guī)則的約定,進(jìn)而通過(guò)大規(guī)模數(shù)據(jù)統(tǒng)計(jì)規(guī)律來(lái)優(yōu)化對(duì)用戶點(diǎn)播行為信息熵、預(yù)測(cè)度量值的閾值估算方法。