相關(guān)鏈接: 北京安全網(wǎng) 北京質(zhì)量網(wǎng) 北京論文網(wǎng) 北京資訊網(wǎng)
論文導(dǎo)讀::多元統(tǒng)計(jì)方法已被廣泛應(yīng)用于自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域,而在現(xiàn)實(shí)處理多元數(shù)據(jù)分析中,離不開(kāi)統(tǒng)計(jì)軟件的支持;R軟件由于其免費(fèi)、開(kāi)源、強(qiáng)大的統(tǒng)計(jì)分析、及其完美的做圖功能已得到越來(lái)越多人的關(guān)注與應(yīng)用;本文結(jié)合實(shí)例介紹了R軟件在多元統(tǒng)計(jì)分析中的應(yīng)用,具體內(nèi)容包括R軟件在聚類(lèi)分析、主成分分析、典型相關(guān)分析等方面的應(yīng)用。
論文關(guān)鍵詞:R軟件,聚類(lèi)分析,主成分分析,典型相關(guān)分析
引言:多元統(tǒng)計(jì)分析是統(tǒng)計(jì)學(xué)的一個(gè)重要分支,也稱(chēng)多變量統(tǒng)計(jì)分析;在現(xiàn)實(shí)生活中,受多種指標(biāo)共同作用和影響的現(xiàn)象大量存在,多元統(tǒng)計(jì)分析就是研究多個(gè)隨機(jī)變量之間相互依賴(lài)關(guān)系及其內(nèi)在統(tǒng)計(jì)規(guī)律的重要學(xué)科,由于多元統(tǒng)計(jì)分析方法一般涉及復(fù)雜的數(shù)學(xué)理論,一般無(wú)法用手工計(jì)算,必須有計(jì)算機(jī)和統(tǒng)計(jì)軟件的支持。
在統(tǒng)計(jì)軟件方面,常用的統(tǒng)計(jì)軟件有SPSS、SAS、STAT、R、S-PLUS等。R軟件是一個(gè)自由、免費(fèi)、開(kāi)源的軟件,是一個(gè)具有強(qiáng)大統(tǒng)計(jì)分析功能和優(yōu)秀統(tǒng)計(jì)制圖功能的統(tǒng)計(jì)軟件,現(xiàn)已是國(guó)內(nèi)外眾多統(tǒng)計(jì)學(xué)者喜愛(ài)的數(shù)據(jù)分析工具。本文結(jié)合實(shí)例介紹了R軟件在多元統(tǒng)計(jì)分析中的應(yīng)用,具體內(nèi)容包括R軟件在聚類(lèi)分析、主成分分析、對(duì)應(yīng)分析等方面的應(yīng)用。
一 在聚類(lèi)分析教學(xué)中的應(yīng)用
聚類(lèi)分析又稱(chēng)群分析,它是研究(樣品或指標(biāo))分類(lèi)問(wèn)題的一種多元統(tǒng)計(jì)方法,所謂類(lèi),通俗地說(shuō),就是指相似元素的集合。在社會(huì)經(jīng)濟(jì)領(lǐng)域中存在著大量分類(lèi)問(wèn)題,比如若對(duì)某些大城市的物價(jià)指數(shù)進(jìn)行考察聚類(lèi)分析,而物價(jià)指數(shù)很多,有農(nóng)用生產(chǎn)物價(jià)指數(shù)、服務(wù)項(xiàng)目?jī)r(jià)指數(shù)、食品消費(fèi)物價(jià)指數(shù)、建材零售價(jià)格指數(shù)等等。由于要考察的物價(jià)指數(shù)很多,通常先對(duì)這些物價(jià)指數(shù)進(jìn)行分類(lèi)。總之,需要分類(lèi)的問(wèn)題很多,因此聚類(lèi)分析這個(gè)有用的工具越來(lái)越受到人們的重視,它在許多領(lǐng)域中都得到了廣泛的應(yīng)用。
聚類(lèi)分析內(nèi)容非常豐富,有系統(tǒng)聚類(lèi)法、有序樣品聚類(lèi)法、動(dòng)態(tài)聚類(lèi)法、模糊聚類(lèi)法、圖論聚類(lèi)法、聚類(lèi)預(yù)報(bào)法等,具體詳見(jiàn)參考文獻(xiàn)[3]。
R軟件及其相關(guān)包提供了各種聚類(lèi)方法,主要是系統(tǒng)聚類(lèi)方法、快速聚類(lèi)方法、模糊聚類(lèi)方法,常用的是系統(tǒng)聚類(lèi)方法。
R軟件實(shí)現(xiàn)系統(tǒng)聚類(lèi)的程序如下:
Hclust(d,method=“complete”)
其中d是由“dist”構(gòu)成的距離結(jié)構(gòu),具體包括絕對(duì)值距離、歐氏距離、切比雪夫距離、馬氏距離、蘭氏距離等,默認(rèn)為歐氏距離;method包括類(lèi)平均法、重心法、中間距離法最長(zhǎng)距離法最短距離法、離差平方和法等,默認(rèn)是最長(zhǎng)距離法。
例1 下表是山東省2008年各市居民家庭平均每人全年消費(fèi)性支出,利用所給數(shù)據(jù)對(duì)各市進(jìn)行系統(tǒng)聚類(lèi)。
山東各市居民家庭平均每人全年消費(fèi)性支出 元/人 |
||||||||
地區(qū) |
食品 |
衣著 |
居住 |
設(shè)備用品 |
交通通訊 |
文化教育 |
醫(yī)療保健 |
其它 |
濟(jì)南 |
1628.16 |
252.86 |
790.11 |
285.64 |
634.83 |
355.54 |
394.37 |
43.9 |
青島 |
1999.61 |
523.76 |
901.56 |
297.76 |
595.34 |
618.12 |
260.17 |
106.42 |
淄博 |
1691.6 |
372.21 |
844.44 |
300.46 |
494.67 |
580.6 |
370.84 |
102.16 |
棗莊 |
1370.59 |
272.95 |
614.3 |
227.52 |
454.73 |
245.93 |
220.88 |
84.2 |
東營(yíng) |
1580.86 |
234.17 |
813.58 |
253.12 |
532.19 |
432.05 |
275.3 |
39.1 |
煙臺(tái) |
1673.19 |
337.92 |
719.28 |
201.3 |
414.08 |
497.57 |
286.03 |
77.11 |
濰坊 |
1516.36 |
299.67 |
1327.72 |
243.72 |
583.04 |
494.65 |
269.82 |
92.95 |
濟(jì)寧 |
1375.4 |
287.17 |
722.05 |
282.16 |
380.68 |
412.42 |
218.11 |
56.94 |
泰安 |
1412.44 |
225.66 |
567.66 |
257.96 |
411.98 |
450.57 |
177.02 |
70.07 |
威海 |
1684.64 |
517.59 |
759.36 |
227.12 |
424.41 |
565.75 |
444.31 |
77.48 |
日照 |
1451.12 |
351.21 |
562.91 |
208.81 |
457.2 |
332.16 |
182.2 |
37.69 |
萊蕪 |
1516.22 |
198.94 |
624.72 |
207.03 |
464.06 |
469.35 |
256.53 |
36.33 |
臨沂 |
1339.69 |
212.36 |
625.26 |
191.34 |
409.39 |
314.9 |
156.01 |
63.31 |
德州 |
1114.47 |
173.88 |
553.14 |
169.23 |
319.41 |
220.45 |
137.97 |
42.2 |
聊城 |
1146.53 |
182.53 |
566.92 |
186.05 |
317.48 |
332.64 |
155.94 |
54.31 |
濱州 |
1177.49 |
179.96 |
979.01 |
206.88 |
451.85 |
407.49 |
298.7 |
47.51 |
菏澤 |
1265.03 |
170.85 |
550.68 |
143.11 |
329.99 |
349.41 |
193.59 |
82.31 |
數(shù)據(jù)來(lái)源:《2009年山東統(tǒng)計(jì)年鑒》
R語(yǔ)言程序如下:
>X<-read.delim("clipboard",header=T)
>row.names(X)<-c("濟(jì)南","青島","淄博","棗莊","東營(yíng)","煙臺(tái)","濰坊","濟(jì)寧","泰安","威海","日照","萊蕪","臨沂","德州","聊城","濱州","菏澤")
> d<-dist(scale(X))
>hc1<-hclust(d,"single")#最短距離法
>hc2<-hclust(d,"complete")#最長(zhǎng)距離法
>hc3<-hclust(d,"median")#中間距離法
>hc4<-hclust(d,"ward")#Ward法
>opar<-par(mfrow=c(2,2))
> plot(hc1,hang=-1);plot(hc2,hang=-1)
>plot(hc3,hang=-1);plot(hc4,hang=-1)
由上圖可以看出,不同方法的分類(lèi)不完全一樣,結(jié)合實(shí)際情況,最長(zhǎng)距離法分類(lèi)效果較好。
二 在主成分分析教學(xué)中的應(yīng)用
在實(shí)際經(jīng)濟(jì)生活中,有時(shí)需要處理的是多變量(多指標(biāo))問(wèn)題。由于變量較多,增加了分析問(wèn)題的復(fù)雜性;但在實(shí)際問(wèn)題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊核心期刊目錄。人們自然希望通過(guò)克服相關(guān)性、重疊性,用較少的變量來(lái)代替原來(lái)較多的變量,而這種代替可以反映原來(lái)多個(gè)變量的大部分信息,這實(shí)際上是一種“降維”的思想,具體理論部分詳見(jiàn)文獻(xiàn)[3][4].
R軟件實(shí)現(xiàn)主成分分析的程序如下:
Princomp(x,cor=FALSE,scores=TRUE,…)
X為數(shù)據(jù)矩陣或數(shù)據(jù)框,cor為是否用相關(guān)陣,默認(rèn)為協(xié)差陣,scores為是否輸出成分得分。
例2對(duì)例1中的數(shù)據(jù)進(jìn)行主成分分析。
R語(yǔ)言程序如下:
>X<-read.delim("clipboard",header=T)
>cs.pr<-princomp(X,cor=TRUE)
>summary(cs.pr,loadings=TRUE)
Importance ofcomponents:
Comp.1 Comp.2Comp.3 Comp.4 Comp.5
Standarddeviation 2.1781277 1.0415718 0.87216013 0.751881270.56230008
Proportion ofVariance 0.5930301 0.1356090 0.09508291 0.07066568 0.03952267
CumulativeProportion 0.5930301 0.7286390 0.82372195 0.89438763 0.93391030
Comp.6 Comp.7 Comp.8
Standarddeviation 0.54497439 0.45711204 0.150894344
Proportion ofVariance 0.03712464 0.02611893 0.002846138
CumulativeProportion 0.97103494 0.99715386 1.000000000
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
食品 -0.4170.123 0.304 0.142 0.276 -0.258 0.337 0.665
衣著 -0.3690.391 0.2500.331 -0.704 -0.203
居住 -0.303 -0.366-0.689 -0.173 -0.195 -0.3550.323
設(shè)備用品 -0.359 -0.217 0.187 0.526-0.611 0.293 -0.211
交通通訊 -0.355-0.501 0.2860.453 0.259 -0.518
文化教育 -0.3920.214 -0.259 -0.479 -0.5680.229 -0.359
醫(yī)療保健 -0.344 -0.185 0.216-0.695 0.5460.130
其它 -0.266 0.566-0.537 0.201 0.4340.288
說(shuō)明:
1)Standard deviation:表示主成分的標(biāo)準(zhǔn)差,即主成分的方差平方根,即相應(yīng)特征值的開(kāi)方;
2)Proportion of Variance:表示方差的貢獻(xiàn)率;
3)Cumulative Proportion :表示方差的累計(jì)貢獻(xiàn)率。
4)函數(shù)summary()中l(wèi)oadings=TRUE選項(xiàng)列出了主成分對(duì)應(yīng)原始變量的系數(shù)。
由于前3個(gè)主成分的累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到82.4%,所以取前3個(gè)主成分來(lái)降維。
碎石圖是一種可以幫助我們確定主成分合適個(gè)數(shù)的有用的視覺(jué)工具,將特征值從大到小排列。
> biplot(cs.pr)
>screeplot(cs.pr,type=c("barplot"))
? screeplot(cs.pr,type=c("lines"))
由上面的圖形可以看出聚類(lèi)分析,取前3個(gè)主成分來(lái)降維是比較合理的。
三 在對(duì)應(yīng)分析教學(xué)中的應(yīng)用
對(duì)應(yīng)分析(Correspondenceanalysis)也稱(chēng)關(guān)聯(lián)分析、R-Q型因子分析,是近年新發(fā)展起來(lái)的一種多元相依變量統(tǒng)計(jì)分析技術(shù),通過(guò)分析由定性變量構(gòu)成的交互匯總表來(lái)揭示變量間的聯(lián)系?梢越沂就蛔兞康母鱾(gè)類(lèi)別之間的差異,以及不同變量各個(gè)類(lèi)別之間的對(duì)應(yīng)關(guān)系。主要應(yīng)用在市場(chǎng)細(xì)分、產(chǎn)品定位、地質(zhì)研究以及計(jì)算機(jī)工程等領(lǐng)域中。原因在于,它是一種視覺(jué)化的數(shù)據(jù)分析方法,它能夠?qū)捉M看不出任何聯(lián)系的數(shù)據(jù),通過(guò)視覺(jué)上可以接受的定位圖展現(xiàn)出來(lái),詳見(jiàn)參考文獻(xiàn)[4]。
R軟件實(shí)現(xiàn)對(duì)應(yīng)分析的程序如下:
Corresp(x,nf=1,…)
X為表示進(jìn)行對(duì)應(yīng)分析的數(shù)據(jù)矩陣,nf為計(jì)算因子的個(gè)數(shù)。
例3利用例1的數(shù)據(jù),進(jìn)行相關(guān)對(duì)應(yīng)分析。
R語(yǔ)言程序如下:
>X<-read.table("clipboard",header=T)
>row.names(X)<-c("濟(jì)南","青島","淄博","棗莊","東營(yíng)","煙臺(tái)","濰坊","濟(jì)寧","泰安","威海","日照","萊蕪","臨沂","德州","聊城","濱州","菏澤")
>library(MASS)
>cal<-corresp(X,nf=3)
> cal
First canonicalcorrelation(s): 0.09498307 0.06957904 0.05853940
Row scores:
[,1][,2] [,3]
濟(jì)南 -0.47699756 -0.6885595 -2.6382557
青島 0.96741848 0.31366371.2941896
淄博 0.37264061 1.0081191-0.2128972
棗莊 0.24558092 -0.9824387 -0.2181011
東營(yíng) -0.54396185 -0.6537340 -0.7755235
煙臺(tái) 0.76059679 0.48114040.2145390
濰坊 -2.16920121 0.90766921.3126103
濟(jì)寧 0.05826518 0.10803750.5281096
泰安 0.58733529 -0.93058620.6652785
威海 1.35365553 2.3737554-0.8793518
日照 1.10047866 -0.77323670.1127328
萊蕪 0.17560188 -0.7192844 -0.9243774
臨沂 -0.08622247 -1.2358252 0.7273149
德州 -0.37580027 -1.2772223 0.4300355
聊城 -0.11688207 -0.4977757 0.7740150
濱州 -2.20651738 1.0594580 -0.5584333
菏澤 0.16551451 -0.44520240.5084064
Column scores:
[,1] [,2][,3]
食品 0.52523641-0.7675569 0.02054803
衣著1.90845510 1.6578721 0.76764420
居住 -1.748100050.5786733 0.65009264
設(shè)備用品 0.03597405 -0.8938313 -0.21425105
交通通訊 -0.52356069 -1.0863547 -0.77153434
文化教育 0.42806363 1.04009770.62909600
醫(yī)療保健 -0.02051876 1.8098398 -3.09255548
其它0.51837527 0.5603683 2.92565707
>biplot(cal);abline(v=0,h=0,lty=3)
由對(duì)應(yīng)分析圖可以看出2008年山東省各市居民消費(fèi)實(shí)際情況,并可直觀的劃分類(lèi)與層次。
本文結(jié)合實(shí)例,介紹了R軟件在多元統(tǒng)計(jì)分析教學(xué)中的具體應(yīng)用,通過(guò)R軟件的具體操作來(lái)實(shí)現(xiàn)多元數(shù)據(jù)分析,一方面可以加深學(xué)生對(duì)多元統(tǒng)計(jì)方法的理解,更好的掌握多元統(tǒng)計(jì)理論方法,同時(shí)還可以使學(xué)生擺脫繁瑣的計(jì)算,使學(xué)生能處理實(shí)際的多元數(shù)據(jù)分析。
參考文獻(xiàn)
[1]王斌會(huì).多元統(tǒng)計(jì)分析及R語(yǔ)言建模[M].廣州:暨南大學(xué)出版社,2010.
[2]湯銀才.R語(yǔ)言與統(tǒng)計(jì)分析[M].北京:高等教育出版社,2005.
[3]高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2005.
[4]李衛(wèi)東.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2008.