相關(guān)鏈接: 中國(guó)安全網(wǎng) 中國(guó)質(zhì)量網(wǎng) 中國(guó)論文網(wǎng) 中國(guó)資訊網(wǎng)
基于通聯(lián)數(shù)據(jù)的人際關(guān)系網(wǎng)絡(luò)構(gòu)建與挖掘(網(wǎng)絡(luò))
曲洋,王永劍,彭如香,姜國(guó)慶
(公安部第三研究所信息網(wǎng)絡(luò)安全公安部重點(diǎn)實(shí)驗(yàn)室,上海201400)
摘要:網(wǎng)絡(luò)通訊已然成為了信息時(shí)代最具代表性的產(chǎn)物,用戶之間的社交關(guān)系也變得越來(lái)越清晰、越來(lái)越重要。文章通過(guò)模擬通聯(lián)數(shù)據(jù),利用中文分詞、自然語(yǔ)言處理等技術(shù)構(gòu)建反映人際關(guān)系的通聯(lián)好友網(wǎng)絡(luò),并設(shè)計(jì)了一種適用于好友網(wǎng)絡(luò)人際關(guān)系預(yù)測(cè)的多分類算法。該算法首先利用層次聚類對(duì)原始數(shù)據(jù)進(jìn)行聚類并結(jié)合人工干預(yù),確定最終類的個(gè)數(shù),從而有效避免通聯(lián)分組信息的多義詞性造成的類別數(shù)過(guò)多的問(wèn)題,然后以通聯(lián)來(lái)往記錄等信息為基礎(chǔ)設(shè)計(jì)分類特征,最后利用在小樣本下,具有復(fù)雜決策邊界建模能力的支持向量機(jī)( Support VectorMachine,SVM)進(jìn)行訓(xùn)練,得到適用于人際關(guān)系預(yù)測(cè)的分類模型,并用于未知人際關(guān)系的預(yù)測(cè)。
關(guān)鍵詞:通聯(lián)日志;人際網(wǎng)絡(luò):用戶串并;關(guān)系預(yù)測(cè);SVM
中圖分類號(hào):TP309 文章編號(hào):1671-1122( 2016) 06-0068-060研究現(xiàn)狀
在社會(huì)學(xué)、統(tǒng)計(jì)學(xué)和圖論領(lǐng)域中,針對(duì)人類社會(huì)網(wǎng)絡(luò)的研究由來(lái)已久。近年來(lái),在網(wǎng)絡(luò)結(jié)構(gòu)、人類行為等各方面也取得了眾多的科研成果,部分學(xué)者重點(diǎn)就社交網(wǎng)絡(luò)節(jié)點(diǎn)的影響力進(jìn)行了深入研究。
韓毅等人通過(guò)分析社交網(wǎng)絡(luò)的鏈接結(jié)構(gòu),設(shè)計(jì)了一種基于依賴關(guān)系的支撐結(jié)構(gòu)模型及計(jì)算方法并用于確定社交網(wǎng)絡(luò)中特定節(jié)點(diǎn)的影響力來(lái)源。此外,吳信東等人從網(wǎng)絡(luò)拓?fù)、用戶行為和交互信息等幾個(gè)方面總結(jié)了影響力分析的建模和度量方法。郭靜等人將社交網(wǎng)絡(luò)中用戶的歷史行為日志看作樣本,借鑒最大似然估計(jì)的思想對(duì)用戶間影響力學(xué)習(xí)問(wèn)題建模;并在在線性閾值模型的框架下,提出一種影響力傳播權(quán)重的計(jì)算方法。鄧小龍等人提出了_一種新穎的基于軸節(jié)點(diǎn)選擇策略的大圖重要節(jié)點(diǎn)中介度近似計(jì)算方法和原型系統(tǒng),并通過(guò)模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)(包含一個(gè)連續(xù)六個(gè)月的真實(shí)社交網(wǎng)絡(luò)數(shù)據(jù)集)進(jìn)行了驗(yàn)證。在機(jī)器學(xué)習(xí)方法的應(yīng)用方面,曹玖新等人使用樸素貝葉斯NaiveBayes、邏輯回歸logisticsRregerssion等分類方法基于用戶屬性、社交關(guān)系和微博內(nèi)容三類綜合特征,對(duì)給定微博的用戶轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè)。葉娜等人針對(duì)識(shí)別社交網(wǎng)絡(luò)用戶時(shí)存在的模式不一致問(wèn)題,提出了基于分塊和二部圖的用戶識(shí)別算法。李勇軍等人以論文合作網(wǎng)絡(luò)為基礎(chǔ),依據(jù)學(xué)生發(fā)表論文時(shí)通常與導(dǎo)師共同署名的現(xiàn)象,抽象出能夠反映導(dǎo)師一學(xué)生合作關(guān)系的特征,并提出基于最大熵模型的導(dǎo)師一學(xué)生關(guān)系識(shí)別算法。張玉清等人從基于行為特征、基于內(nèi)容、基于圖( Graph)、無(wú)監(jiān)督學(xué)習(xí)四個(gè)方面對(duì)近年來(lái)社交網(wǎng)絡(luò)中異常帳號(hào)檢測(cè)方案進(jìn)行系統(tǒng)性的歸納總結(jié),并對(duì)未來(lái)異常帳號(hào)檢測(cè)的研究趨勢(shì)進(jìn)行了展望。
1基于通聯(lián)數(shù)據(jù)的人際關(guān)系網(wǎng)絡(luò)構(gòu)建
1.1實(shí)體抽取
使用字典驅(qū)動(dòng)方式對(duì)于結(jié)構(gòu)化的通聯(lián)數(shù)據(jù)進(jìn)行實(shí)體抽取,實(shí)體抽取的原則是實(shí)體本身具有唯一性,并能夠唯一表現(xiàn)該實(shí)體的特征,實(shí)體本身不能是孤立的,要和其他實(shí)體存在關(guān)聯(lián)關(guān)系,實(shí)體屬性要依附于實(shí)體本身,可以補(bǔ)充實(shí)體的特征和關(guān)聯(lián)關(guān)系。通過(guò)隨機(jī)生成方式,模擬出—萬(wàn)條數(shù)據(jù)樣例,并且從通聯(lián)數(shù)據(jù)本身的特點(diǎn)出發(fā),選擇出需要的實(shí)體。
1)用戶標(biāo)識(shí):模擬數(shù)據(jù)中隨機(jī)產(chǎn)生了四種可以當(dāng)作實(shí)體的字段,包括手機(jī)號(hào)碼,郵箱,QQ賬號(hào)以及為模擬數(shù)據(jù)生成的用戶唯一標(biāo)識(shí)。對(duì)于用戶名實(shí)體需要添加賬號(hào)類型的屬性,對(duì)帳號(hào)的類別加以區(qū)分。同時(shí)用戶標(biāo)識(shí)會(huì)存在一些可串聯(lián)的關(guān)聯(lián)實(shí)體,例如,設(shè)備號(hào)、證件號(hào)、上網(wǎng)賬號(hào)、用戶名和IP地址。
2)好友標(biāo)識(shí):通聯(lián)數(shù)據(jù)中關(guān)系好友的郵件信息用來(lái)唯一標(biāo)識(shí)該好友,對(duì)于少量缺失情況標(biāo)識(shí)實(shí)體需要補(bǔ)充記錄ID。此舉可避免同一節(jié)點(diǎn)對(duì)象由于采用不同標(biāo)識(shí)而被視為不同的節(jié)點(diǎn),進(jìn)而保證人際關(guān)系網(wǎng)絡(luò)的完整性,抽取結(jié)果如表1所示。
1.2實(shí)體關(guān)系抽取
實(shí)體間存在著緊密的連接關(guān)系,例如,證件號(hào)碼和上網(wǎng)賬號(hào)兩個(gè)實(shí)體間在規(guī)定時(shí)間區(qū)間內(nèi)是一對(duì)一的關(guān)系,一個(gè)證件號(hào)只能擁有唯一一個(gè)上網(wǎng)賬號(hào),一個(gè)上網(wǎng)賬號(hào)只能依附于一個(gè)身份證號(hào),同時(shí)上網(wǎng)賬號(hào)可以串聯(lián)出此賬號(hào)擁有的IP,通過(guò)IP可以關(guān)聯(lián)出此IP下所使用的設(shè)備情況,進(jìn)一步完成對(duì)于用戶虛擬身份的串聯(lián)。通過(guò)用戶名這一個(gè)實(shí)體就可以很容易的構(gòu)建用戶的好友網(wǎng)絡(luò),從而擴(kuò)展出大的用戶關(guān)系網(wǎng)。對(duì)于實(shí)體間關(guān)系的描述主要從時(shí)間維度出發(fā),而與好友的實(shí)體關(guān)系還可以通過(guò)不同的上傳工具進(jìn)行分類,總體抽取結(jié)果如圖1所示。
2基于支持向量機(jī)的人際關(guān)系預(yù)測(cè)
利用中文分詞、自然語(yǔ)言處理等文本挖掘技術(shù),對(duì)通聯(lián)數(shù)據(jù)中能夠反映人與人之間人際關(guān)系的文本數(shù)據(jù)進(jìn)行分析處理。首先提取諸如同事、朋友、同學(xué)、家人等反映人際關(guān)系的特定詞語(yǔ),然后以此類詞語(yǔ)作為節(jié)點(diǎn)間邊的屬性來(lái)構(gòu)建人際關(guān)系網(wǎng)絡(luò)。其次以通聯(lián)記錄、短信來(lái)往記錄等信息為基礎(chǔ)設(shè)計(jì)分類特征。最后利用在小樣本下具有復(fù)雜決策邊界建模能力的支持向量機(jī)( Suppport Vector Machine,SVM)進(jìn)行訓(xùn)練得到適用于人際關(guān)系預(yù)測(cè)的分類模型,并用于未知關(guān)系的預(yù)測(cè)。
2.1人際關(guān)系預(yù)測(cè)模型的建立
為了預(yù)測(cè)人際網(wǎng)絡(luò)中的兩個(gè)自然人是否存在親屬、朋友或其他關(guān)系,本文通過(guò)分析現(xiàn)有具有特定人際關(guān)系的用戶之間和無(wú)關(guān)系用戶之間的行為特征差異,設(shè)計(jì)幾種具有良好分類能力的屬性作為分類特征,進(jìn)而構(gòu)建訓(xùn)練樣本,并將是否存在關(guān)系及存在關(guān)系類別的判定轉(zhuǎn)換成數(shù)據(jù)挖掘中的分類問(wèn)題。
2.1.1特征選擇
1)共同好友數(shù)量占好友總數(shù)的比率CFR
KOSSINETS等人通過(guò)研究在校大學(xué)生之間的熟人關(guān)系網(wǎng)絡(luò),發(fā)現(xiàn)他們之間的共同熟人數(shù)目在很大程度上決定兩人之間是否存在聯(lián)系,即共同熟人數(shù)越多則兩人也為熟人的可能性就越大。顯然兩個(gè)自然人之間的共同好友數(shù)量越多,他們之間存在好友關(guān)系的可能性越大,相反則越小。
但是單純以共同好友數(shù)量來(lái)衡量?jī)蓚(gè)自然人之間關(guān)系的緊密程度存在明顯的缺陷。假設(shè)用戶A與用戶B之間的共同好友數(shù)量為5,但用戶A的好友總數(shù)為30而用戶B的好友總數(shù)為100那么用戶A存在與其剩余的其他25個(gè)好友更為緊密的可能性,同樣用戶B同樣存在與其剩余的其他5個(gè)好友關(guān)系更為緊密的可能性,但是好友總數(shù)更多的用戶A,其可能性更大。為了避免此種可能性的影響,利用好友總數(shù)為基數(shù),利用共同好友數(shù)量占各自好友總數(shù)的比例來(lái)衡量關(guān)系緊密程度,其計(jì)算公式如下所示。
2)平均通聯(lián)次數(shù)AR
AR是指在觀測(cè)數(shù)據(jù)范圍內(nèi),兩個(gè)用戶之間通聯(lián)次數(shù)。分別統(tǒng)計(jì)出現(xiàn)有數(shù)據(jù)中人物之間的日平均通聯(lián)次數(shù)、周平均通聯(lián)次數(shù)及月平均通聯(lián)次數(shù),在不同人際關(guān)系之間進(jìn)行對(duì)比,取三者中分類能力最強(qiáng)的指標(biāo)來(lái)表征平均通聯(lián)次數(shù),如圖2所示,其計(jì)算公式如下所示。
3)平均通聯(lián)時(shí)長(zhǎng)ATR
僅僅從用戶之間平均通聯(lián)次數(shù),不足以區(qū)分用戶的關(guān)系緊密程度。例如,用戶A與用戶B之間的通聯(lián)次數(shù)與用戶B與用戶C之間的通聯(lián)次數(shù)相同,但用戶B與用戶C之間的通聯(lián)時(shí)長(zhǎng)更長(zhǎng),顯然后者的關(guān)系更為緊密。所以有必要引入平均通聯(lián)時(shí)長(zhǎng)作為分類特征,該特征指在觀測(cè)數(shù)據(jù)范圍內(nèi),兩個(gè)用戶之間通聯(lián)的平均時(shí)長(zhǎng),單位為秒,如圖3所示。其計(jì)算公式如下所示。
4)平均消息交互次數(shù)AM
AM是指在觀測(cè)數(shù)據(jù)范圍內(nèi),兩個(gè)用戶之間發(fā)送消息的次數(shù)。同樣分別統(tǒng)計(jì)出現(xiàn)有數(shù)據(jù)中人物之間消息交互的日平均、周平均及月平均次數(shù),在不同人際關(guān)系之間進(jìn)行對(duì)比,取三者中分類能力最強(qiáng)的的指標(biāo)來(lái)表征平均消息交互次數(shù),其計(jì)算公式如下所示。
本文設(shè)計(jì)的4大類特征依人際關(guān)系的遠(yuǎn)近呈規(guī)律性變化,即人際關(guān)系越緊密其通聯(lián)次數(shù)及通聯(lián)時(shí)長(zhǎng)數(shù)值越大,而人際關(guān)系越疏遠(yuǎn)其通聯(lián)次數(shù)及通聯(lián)時(shí)長(zhǎng)數(shù)值越小。例如“家庭關(guān)系”之間通聯(lián)時(shí)長(zhǎng)、通聯(lián)次數(shù)均遠(yuǎn)遠(yuǎn)大于其他兩類關(guān)系,且不同關(guān)系之間存在著一定的差異?梢(jiàn),上訴4大類特征可以在一定程度上區(qū)分不同的人際關(guān)系,從而用于人際關(guān)系預(yù)測(cè)模型的訓(xùn)練。
2.1.2訓(xùn)練樣本的構(gòu)建
獲取兩兩自然人之間的通聯(lián)記錄數(shù)據(jù)、消息信息及其他信息數(shù)據(jù),分別依據(jù)2 .1.1節(jié)確立的計(jì)算方法進(jìn)行計(jì)算得到共同好友數(shù)量、平均通聯(lián)次數(shù)、平均通聯(lián)時(shí)長(zhǎng)、平均消息交互次數(shù)4個(gè)分類特征,得到初步的訓(xùn)練樣本,數(shù)據(jù)形態(tài)如圖4所示。
由于通聯(lián)日志對(duì)于關(guān)系表述不一致。例如,朋友、客人這兩類完全可以合并為同一類處理,將其命名為“朋友”類(合并前的類稱為原始類,合并后的大類稱為最終類)。這樣避免出現(xiàn)大量相近的類別,大大提高訓(xùn)練樣本的質(zhì)量。
本文對(duì)上述初步的訓(xùn)練樣本運(yùn)用層次聚類進(jìn)行類的合并。處理原則如下:1)利用層次聚類的類別可控特點(diǎn),人工干預(yù)類的合并,進(jìn)一步提高類的質(zhì)量;2)合并后的最終類各樣本的特征值由合并類中所有原始類中各特征值的平均值計(jì)算得到。其處理結(jié)果如圖5所示,“朋友”、“客人,’被合并為同一類“朋友”類,“同事”、“員工”被合并為同一類“同事”類,其樣本值為各自原始類中樣本值的平均值。
2.2算法的正確率驗(yàn)證
本文中的人際關(guān)系預(yù)測(cè)只針對(duì)在通聯(lián)中已建立好友關(guān)系但是具體存在何種關(guān)系類型未知的情況作為預(yù)測(cè),這是一種分類問(wèn)題。在預(yù)測(cè)過(guò)程中,為保證預(yù)測(cè)算法的有效性,本文將采用K折交叉驗(yàn)證評(píng)估方法。K折交叉驗(yàn)證:將初始樣本分割成K個(gè)集合,其中一個(gè)單獨(dú)的子樣本作為驗(yàn)證模型的數(shù)據(jù),其他K-1個(gè)樣本作為訓(xùn)練集。為交叉驗(yàn)證需重復(fù)K次,每次針對(duì)一個(gè)子樣本驗(yàn)證一次,并將平均K次的結(jié)果作為本算法的預(yù)測(cè)準(zhǔn)確率。
本文采用多種評(píng)價(jià)方法對(duì)本預(yù)測(cè)算法進(jìn)行評(píng)價(jià),包括精確率、召回率、及F-Measure。下面以二元分類問(wèn)題的混淆矩陣來(lái)說(shuō)明以上幾個(gè)評(píng)價(jià)指標(biāo)的含義。
假設(shè)人際關(guān)系只有兩種:“朋友”,“親人’。
從表2可知,在實(shí)際的預(yù)測(cè)中,任何一個(gè)類的預(yù)測(cè)可能有兩種結(jié)果,1)正確的預(yù)測(cè);2)錯(cuò)誤的預(yù)測(cè)。從而形成上訴:真正例( True Positive),真負(fù)例(True Negative),假負(fù)例( False Negative)及假正例(False Positive)的情況。同時(shí),當(dāng)真正例( True Positive)、真負(fù)例(True Negative)的比率較高時(shí),就意味著模型整體的預(yù)測(cè)正確率就高,在混淆矩陣中表現(xiàn)為數(shù)值集中在矩陣的主對(duì)角線上。正確率、精確率、召回率和AUC的計(jì)算方法如下所示。
1)正確率:反映所有類的預(yù)測(cè)正確率,即整體識(shí)別率。
2)精確率:標(biāo)記為正類的元組實(shí)際為正類的所占的百分比,在上例中表示為所有“朋友關(guān)系”被預(yù)測(cè)的比例,即
4) 一個(gè)分類結(jié)果的好壞的特征在于其是否同時(shí)具有高敏感性和高特異性,而AUC恰好結(jié)合了兩者的特性。AUC是ROC曲線和兩坐標(biāo)軸圍成的區(qū)域面積,該面積越大則表示預(yù)測(cè)準(zhǔn)確率越高。AUC的基準(zhǔn)值為0.5,即隨機(jī)猜測(cè)。
3實(shí)例分析
3.1基于層次聚類的訓(xùn)練樣本的構(gòu)建
模擬出通聯(lián)數(shù)據(jù)后,首先利用中文分詞、自然語(yǔ)言處理等技術(shù)提取通聯(lián)中的好友分組信息,然后以兩兩通聯(lián)好友為計(jì)算對(duì)象,分別計(jì)算兩個(gè)好友的共同好友數(shù)量占好友總數(shù)的比率CFR、平均通聯(lián)次數(shù)AR、平均通聯(lián)時(shí)長(zhǎng)ATR及平均消息交互次數(shù)AM,得到‘初始訓(xùn)練樣本”的4個(gè)分類特征。
由于不同的通聯(lián)工具,其分組標(biāo)識(shí)各不相同,并且用戶可自定義分組信息,這必將導(dǎo)致出現(xiàn)大量的分組,即出現(xiàn)大量的分類類別。如:“同學(xué)”,“同事”,“好友”,“員工”,“同事”等。顯然,“員工”和“同事”這兩個(gè)子類在一定程度上是可以合并處理的,從而避免在使用分類算法時(shí),出現(xiàn)大量冗余、信息重疊的類別。本文采用層次聚類結(jié)合人工干預(yù)對(duì)“初始訓(xùn)練樣本”進(jìn)行聚類,合并冗余信息類,得到較為精準(zhǔn)的“最終訓(xùn)練樣本”。圖6顯示了對(duì)10個(gè)子類進(jìn)行系統(tǒng)聚類的結(jié)果。
由圖6可知,當(dāng)聚類為3時(shí),子類System Group:Friend。、同事、所有聯(lián)系人一號(hào)店在籍2號(hào)店員工、客人、員工及Favorite_8656150共6個(gè)子類被合并為l類,陌生人、ageha小惡魔被合并為1類,所有聯(lián)系人TIARA、所有聯(lián)系人家庭被合并為1類。
聚類的結(jié)果較為合理,分類特征值較為相近的子類被合并為一個(gè)大類,所有聯(lián)系人TIARA、所有聯(lián)系人家庭是2個(gè)溝通交流較為頻繁的子類,而陌生人、ageha小惡魔為2個(gè)溝通頻較低2個(gè)子類。鑒于本文的研究對(duì)象,本文將系統(tǒng)聚類的結(jié)果進(jìn)一步進(jìn)行調(diào)整,合并為4大類,其結(jié)果如下:
3.2基于SVM的人際關(guān)系預(yù)測(cè)模型構(gòu)建
3.2.1人際關(guān)系預(yù)測(cè)模型訓(xùn)練
依據(jù)3.1節(jié)系統(tǒng)聚類的結(jié)果,對(duì)訓(xùn)練樣本進(jìn)行調(diào)整,合并子類,將合并類作為訓(xùn)練樣本的類標(biāo)號(hào),選取70%的樣本作為訓(xùn)練樣本,利用支持向量機(jī)SVM進(jìn)行模型訓(xùn)練,剩余30%的樣本用于模型的正確率檢驗(yàn)。人際產(chǎn)關(guān)系預(yù)測(cè)模型的訓(xùn)練過(guò)程如圖7所示。
如表4所示,基于本文現(xiàn)有的訓(xùn)練數(shù)據(jù),利用基于徑向基核函數(shù)的支持向量機(jī)進(jìn)行人際關(guān)于預(yù)測(cè)模型的預(yù)測(cè),在現(xiàn)有數(shù)據(jù)中,共出現(xiàn)4中人際關(guān)系類型,分別是“家庭關(guān)系”,“陌生關(guān)系”,“朋友關(guān)系”,“同事關(guān)系”,模型的整體識(shí)別率為62.5%。同時(shí),“家庭關(guān)系”及“同事關(guān)系”的預(yù)測(cè)較為精準(zhǔn),尤其是“家庭關(guān)系”其精度為100%,而“陌生關(guān)系”及“朋友關(guān)系”的預(yù)測(cè)準(zhǔn)確率較低,“陌生關(guān)系”的精度僅為25%。如圖8所示,混淆矩陣顯示了本文提出的人際關(guān)系預(yù)測(cè)模型各個(gè)類的情況。
4結(jié)束語(yǔ)
本文以通聯(lián)數(shù)據(jù)為研究對(duì)象,首先基于郵箱等虛擬身份信息對(duì)疑似同一對(duì)象的用戶實(shí)體進(jìn)行識(shí)別,并處理。其次采用中文分詞、自然語(yǔ)言處理等方法提取通聯(lián)數(shù)據(jù)中的分組信息,建立初步的人際關(guān)系網(wǎng)絡(luò),并設(shè)計(jì)共同好友數(shù)量占好友總數(shù)的比率CFR、平均通聯(lián)次數(shù)AR等4個(gè)方面的特征,利用系統(tǒng)聚類,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行聚類并結(jié)合人工干預(yù)合確定最終類及訓(xùn)練樣本,從而消除通聯(lián)分組信息的冗余,避免大量類的出現(xiàn)。然后在以上分析的基礎(chǔ)上,利用適合小樣本的支持向量機(jī)算法,進(jìn)行模型訓(xùn)練,得到適合通聯(lián)數(shù)據(jù)人際關(guān)系預(yù)測(cè)的分類模型。實(shí)驗(yàn)結(jié)果表明,本算法能夠識(shí)別出網(wǎng)絡(luò)中的全部比例“家庭關(guān)系”,并能從整體上保證相對(duì)較高的準(zhǔn)確率,具有一定的應(yīng)用價(jià)值。