91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

您當(dāng)前位置:首頁 > 新聞頻道 > 技術(shù)動態(tài) > 正文
關(guān)于核空間二次蟻群聚類算法的探究
論文摘要:傳統(tǒng)的聚類算法在處理復(fù)雜特征數(shù)據(jù)時效果不理想,為此提出使用高斯徑向基核函數(shù)將原空間上的數(shù)據(jù)映射到高維特征空間后,再用螞蟻算法進(jìn)行第一次聚類,針對第一次聚類結(jié)果得到較多簇等問題,提出再用馬賽克算法進(jìn)行二次聚類,得到較為接近真實情況的簇數(shù)目。UCI數(shù)據(jù)集中的鳶尾花數(shù)據(jù)集,第三類數(shù)據(jù)由于與其它兩類有特征交叉現(xiàn)象,很難被傳統(tǒng)聚類算法準(zhǔn)確識別,但本文的核空間二次螞蟻聚類算法在此數(shù)據(jù)集上取得較為理想的結(jié)果。
論文關(guān)鍵詞:核函數(shù),蟻群聚類,馬賽克算法
 。ㄒ唬┮
  聚類(clustering)分析已經(jīng)廣泛地用于許多應(yīng)用領(lǐng)域。Deneubourg[2]等于1991年,根據(jù)螞蟻堆積尸體的行為提出了基于螞蟻的聚類基本模型(DM),首次將蟻群算法應(yīng)用于聚類分析。隨后,Ramos等人提出了ACLUSTER算法[3]。ACLUSTER算法改進(jìn)了以往螞蟻聚類模型中螞蟻的拾起和放下物體的策略,并且引入信息素模型指導(dǎo)人工螞蟻的移動,避免了算法中螞蟻過多地在無物體分布區(qū)域耗時的隨機(jī)搜索,減少了時間開銷;引入了對應(yīng)于多種任務(wù)的響應(yīng)閾值,使得人工螞蟻在計算拾起或放下概率時考慮了周圍的物體數(shù)量,更有利于形成簇;去掉了人工螞蟻的記憶能力并取消了不同速度的螞蟻,保持了算法模型的簡單性,并減少了相應(yīng)的計算時間和存儲空間開銷。這些改進(jìn)有效地改善了聚類的效果,并能應(yīng)用于文本聚類、圖像模式識別、Web挖掘等任務(wù)。
  核函數(shù)方法能將原空間中的樣本映射到未知的高維特征空間,從而優(yōu)化樣本特征,改善學(xué)習(xí)性能[。本文針對高維數(shù)據(jù)的特性,將核函數(shù)方法引入ACLUSTER蟻群聚類算法,將數(shù)據(jù)映射到高維特征空間進(jìn)行聚類,該算法有效地把樣本投影成一維的距離數(shù)據(jù)值,易于聚類。針對ACLUSTER算法收斂速度慢、形成簇過多等問題,本文提出新的聚類策略,通過使用不同參數(shù)設(shè)置的兩次聚類對數(shù)據(jù)進(jìn)行聚類。最后通過實驗說明,二次快速蟻群聚類算法提高了算法的時間效率,并且改善了聚類的效果。
  (二)核空間兩點距離的計算方法
  在原歐幾里德空間中,數(shù)據(jù)對象X和Y之間的距離定義為:
  ,其中n為對象的維數(shù)。
  將對象X,Y通過核函數(shù)映射到核空間,利用核的定義便可以推導(dǎo)在核空間中的距離。特征空間中的歐幾里德距離可表示為:
  
  上式展開得:
  
  因為K(x,y)=φ(x)·φ(y)>,所以將上式直接用核函數(shù)表示為:
  
  代入高斯徑向基核函數(shù),可推出特征空間中的歐幾里德距離:
  
  即為每個物體的核距離值,決定了物體在聚類空間的位置。程序里使用該公式。
  參數(shù)Y、σ的選擇:
  (1)Y選坐標(biāo)原點,容易計算。
  (2)在根號下,因為有平方,X、σ取實數(shù)即大于或等于0,但如果σ太大,X變化小,趨于0,趨于1,得到的值的變化和1貼得緊;表達(dá)式得到的值就分不開,不易區(qū)分物體。如果σ太小,趨于0,同樣不易區(qū)分物體的核距離值。根據(jù)經(jīng)驗,σ取X的中間值即(j,k是物體編號,i是屬性號),即找出離原點最近的物體k,算出最小距離;找出離原點最遠(yuǎn)的物體j,算出最大距離;最小加上最大兩個物體的距離,取一半為σ。
  求出每個物體的d(x,y)之后,將物體撒在矩陣上,采用Acluster方法聚類。
 。ㄈ┖丝臻g二次蟻群聚類算法
  Acluster聚類結(jié)果得到的簇數(shù)量較多,得不到準(zhǔn)確結(jié)果,這樣就需要用二次聚類。收集聚類得到的結(jié)果,把它們整理出來,放到小空間聚類,方法采用馬賽克算法。
  馬賽克算法:將這個原25x25的矩陣壓縮到13x13矩陣,將大矩陣中劃分為2x2一組,每組壓縮成新矩陣中1x1的格子,對應(yīng)地放到新的小矩陣中。規(guī)則如下:
  (1)如果2x2的格子里沒有或者只有一個物體,則新格子里沒有物體。
  (2)如果有2個物體,則計算隨機(jī)數(shù),為0則新格子沒物體,1則有物體,新物體的核距離值為兩個物體的平均值,新標(biāo)號也為平均值。
  (3)如果有3個或4個物體,則新格子里有物體,核距離值和標(biāo)號都為均值。
  核空間二次蟻群聚類算法工作流程圖如下:
  
  圖1核空間二次蟻群聚類算法圖
  (四)實驗結(jié)果及分析
  實驗平臺:PC(配置:CPUIntelPentiumDual2.0GHz,內(nèi)存DDR2G),操作系統(tǒng)為WindowsServer2003EnterpriseEdition。算法使用MSVisualBasic.Net2008編程,數(shù)據(jù)庫采用SQLServer2000實現(xiàn)。
  使用UCI數(shù)據(jù)集中的鳶尾花數(shù)據(jù)集,該數(shù)據(jù)集每一行有一朵鳶尾花的萼片長、萼片寬、花瓣長、花瓣寬的數(shù)值,一共有150行,分為3種類別:irissetosa(山鳶尾)、irisversicolour(變色鳶尾)、irisvirginica(維吉尼亞鳶尾),每類50行。數(shù)據(jù)集中的第一、第二類較容易識別,但第三類的特征與第一、第二類有交叉,一般的聚類算法很難準(zhǔn)確識別第三類。
  實驗1:我們使用鳶尾花數(shù)據(jù)集,使用原空間歐幾里德距離值和ACluster算法聚類,聚類參數(shù):螞蟻數(shù)量AntCount=16,最大迭代次數(shù)T=10,網(wǎng)格數(shù)g=25,k1=0.1,k2=0.3,η=0.07,β=3.5,α=400,γ=0.2。得到了圖2示的聚類結(jié)果,簇數(shù)目很多、較為松散、凌亂,且執(zhí)行次數(shù)再加多,結(jié)果離正確值3個簇都是很遠(yuǎn)。聚類算法的執(zhí)行結(jié)果達(dá)不到要求。
  
  圖2歐氏空間聚類結(jié)果
  實驗2:采用本文的核函數(shù)二次聚類算法。聚類參數(shù):螞蟻數(shù)量AntCount=16,最大迭代次數(shù)T=10,網(wǎng)格數(shù)g=25,k1=0.1,k2=0.3,η=0.07,β=3.5,α=400,γ=0.2;核參數(shù)=96.15。將150朵花的數(shù)據(jù)散布到25x25的陣列空間后第一次聚類得到的結(jié)果如圖3示。
  
  圖3核函數(shù)第一次聚類結(jié)果
  圖4第二次聚類結(jié)果
  在圖3中,簇的數(shù)目較多,不容易判斷出有3簇,但每簇內(nèi)同類對象較集中。我們采用馬賽克法把第一次聚類結(jié)果壓縮成13x13的矩陣,再進(jìn)行二次聚類。聚類參數(shù):物體個數(shù)ItemNumber=28,螞蟻數(shù)ant=10,網(wǎng)格grid=13,η=0.07,β=3.5,α=400,γ=0.2,k1=0.15,k2=0.35,迭代次數(shù)10。圖4為第二次聚類結(jié)果。我們可以看到數(shù)據(jù)被聚類成了3大部分,與鳶尾花數(shù)據(jù)集的3類基本符合。
 。ㄎ澹┙Y(jié)論:
  核函數(shù)二次聚類算法適合于多屬性(維)多對象的聚類。將高維數(shù)據(jù)用核函數(shù)映射到一維空間得到核距離值,每個對象對應(yīng)一個核距離值。將對象撒到平面矩陣中,用ACluster方法使用較小的閾值聚類,在大空間得到規(guī)模較小但內(nèi)部相似度很高的簇,然后將大空間的信息壓縮到小空間,再用不同的聚類相關(guān)的參數(shù)進(jìn)行第二次聚類,得到較接近真實情況的結(jié)果。
參考文獻(xiàn)
1 Han J W,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2008:251-300
2 Deneubourg J L, Goss S, Franks N. The dynamics of collective sorting: robot-like ant and ant-likerobot[C]. Proceedings first conference on simulation of adaptive behavior: fromanimals to animats. Cambridge: MITPress, 1991:356-363.
3 Vitorino Ramos, Fernando Muge, Pedro Pina. Self-Organized Data and Image Retrieval as a Consequence ofInter-Dynamic Synergistic Relationships in Artificial Ant Colonies [C], 2ndInt. Conf. on Hybrid Intelligent Systems, IOS Press, 2002 Vol. 87:500-509.
4 張冰,孔銳,一種支持向量機(jī)的組合核函數(shù)[J],計算機(jī)應(yīng)用,第27卷第1期,文章編號:1001-9081(2007)01-0044-03
5 徐燕子,覃華.用核空間距離聚類約簡大規(guī)模SVM訓(xùn)練集[J].微計算機(jī)信息, 2010, 15:197-198.
6 http://archive.ics.uci.edu/ml/machine-learning-databases/iris/.
關(guān)鍵字:其它,北京
About Us - 關(guān)于我們 - 服務(wù)列表 - 付費指導(dǎo) - 媒體合作 - 廣告服務(wù) - 版權(quán)聲明 - 聯(lián)系我們 - 網(wǎng)站地圖 - 常見問題 - 友情鏈接
Copyright©2014安裝信息網(wǎng) www.78375555.com. All rights reserved.
服務(wù)熱線:4000-293-296 聯(lián)系電話:0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號-4
未經(jīng)過本站允許,請勿將本站內(nèi)容傳播或復(fù)制
安全聯(lián)盟認(rèn)證