91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

您當(dāng)前位置:首頁(yè) > 新聞?lì)l道 > 技術(shù)動(dòng)態(tài) > 正文
淺談軟件在多元統(tǒng)計(jì)分析教學(xué)中的應(yīng)用

論文導(dǎo)讀::多元統(tǒng)計(jì)方法已被廣泛應(yīng)用于自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域,而在現(xiàn)實(shí)處理多元數(shù)據(jù)分析中,離不開(kāi)統(tǒng)計(jì)軟件的支持;R軟件由于其免費(fèi)、開(kāi)源、強(qiáng)大的統(tǒng)計(jì)分析、及其完美的做圖功能已得到越來(lái)越多人的關(guān)注與應(yīng)用;本文結(jié)合實(shí)例介紹了R軟件在多元統(tǒng)計(jì)分析中的應(yīng)用,具體內(nèi)容包括R軟件在聚類(lèi)分析、主成分分析、典型相關(guān)分析等方面的應(yīng)用。
論文關(guān)鍵詞:R軟件,聚類(lèi)分析,主成分分析,典型相關(guān)分析

  引言:多元統(tǒng)計(jì)分析是統(tǒng)計(jì)學(xué)的一個(gè)重要分支,也稱(chēng)多變量統(tǒng)計(jì)分析;在現(xiàn)實(shí)生活中,受多種指標(biāo)共同作用和影響的現(xiàn)象大量存在,多元統(tǒng)計(jì)分析就是研究多個(gè)隨機(jī)變量之間相互依賴(lài)關(guān)系及其內(nèi)在統(tǒng)計(jì)規(guī)律的重要學(xué)科,由于多元統(tǒng)計(jì)分析方法一般涉及復(fù)雜的數(shù)學(xué)理論,一般無(wú)法用手工計(jì)算,必須有計(jì)算機(jī)和統(tǒng)計(jì)軟件的支持。
  在統(tǒng)計(jì)軟件方面,常用的統(tǒng)計(jì)軟件有SPSS、SAS、STAT、R、S-PLUS等。R軟件是一個(gè)自由、免費(fèi)、開(kāi)源的軟件,是一個(gè)具有強(qiáng)大統(tǒng)計(jì)分析功能和優(yōu)秀統(tǒng)計(jì)制圖功能的統(tǒng)計(jì)軟件,現(xiàn)已是國(guó)內(nèi)外眾多統(tǒng)計(jì)學(xué)者喜愛(ài)的數(shù)據(jù)分析工具。本文結(jié)合實(shí)例介紹了R軟件在多元統(tǒng)計(jì)分析中的應(yīng)用,具體內(nèi)容包括R軟件在聚類(lèi)分析、主成分分析、對(duì)應(yīng)分析等方面的應(yīng)用。
  一 在聚類(lèi)分析教學(xué)中的應(yīng)用
  聚類(lèi)分析又稱(chēng)群分析,它是研究(樣品或指標(biāo))分類(lèi)問(wèn)題的一種多元統(tǒng)計(jì)方法,所謂類(lèi),通俗地說(shuō),就是指相似元素的集合。在社會(huì)經(jīng)濟(jì)領(lǐng)域中存在著大量分類(lèi)問(wèn)題,比如若對(duì)某些大城市的物價(jià)指數(shù)進(jìn)行考察聚類(lèi)分析,而物價(jià)指數(shù)很多,有農(nóng)用生產(chǎn)物價(jià)指數(shù)、服務(wù)項(xiàng)目?jī)r(jià)指數(shù)、食品消費(fèi)物價(jià)指數(shù)、建材零售價(jià)格指數(shù)等等。由于要考察的物價(jià)指數(shù)很多,通常先對(duì)這些物價(jià)指數(shù)進(jìn)行分類(lèi)。總之,需要分類(lèi)的問(wèn)題很多,因此聚類(lèi)分析這個(gè)有用的工具越來(lái)越受到人們的重視,它在許多領(lǐng)域中都得到了廣泛的應(yīng)用。
  聚類(lèi)分析內(nèi)容非常豐富,有系統(tǒng)聚類(lèi)法、有序樣品聚類(lèi)法、動(dòng)態(tài)聚類(lèi)法、模糊聚類(lèi)法、圖論聚類(lèi)法、聚類(lèi)預(yù)報(bào)法等,具體詳見(jiàn)參考文獻(xiàn)[3]。
  R軟件及其相關(guān)包提供了各種聚類(lèi)方法,主要是系統(tǒng)聚類(lèi)方法、快速聚類(lèi)方法、模糊聚類(lèi)方法,常用的是系統(tǒng)聚類(lèi)方法。
  R軟件實(shí)現(xiàn)系統(tǒng)聚類(lèi)的程序如下:
  Hclust(d,method=“complete”)
  其中d是由“dist”構(gòu)成的距離結(jié)構(gòu),具體包括絕對(duì)值距離、歐氏距離、切比雪夫距離、馬氏距離、蘭氏距離等,默認(rèn)為歐氏距離;method包括類(lèi)平均法、重心法、中間距離法最長(zhǎng)距離法最短距離法、離差平方和法等,默認(rèn)是最長(zhǎng)距離法。
  例1 下表是山東省2008年各市居民家庭平均每人全年消費(fèi)性支出,利用所給數(shù)據(jù)對(duì)各市進(jìn)行系統(tǒng)聚類(lèi)。
  

山東各市居民家庭平均每人全年消費(fèi)性支出 元/人

地區(qū)

食品

衣著

居住

設(shè)備用品

交通通訊

文化教育

醫(yī)療保健

其它

濟(jì)南

1628.16

252.86

790.11

285.64

634.83

355.54

394.37

43.9

青島

1999.61

523.76

901.56

297.76

595.34

618.12

260.17

106.42

淄博

1691.6

372.21

844.44

300.46

494.67

580.6

370.84

102.16

棗莊

1370.59

272.95

614.3

227.52

454.73

245.93

220.88

84.2

東營(yíng)

1580.86

234.17

813.58

253.12

532.19

432.05

275.3

39.1

煙臺(tái)

1673.19

337.92

719.28

201.3

414.08

497.57

286.03

77.11

濰坊

1516.36

299.67

1327.72

243.72

583.04

494.65

269.82

92.95

濟(jì)寧

1375.4

287.17

722.05

282.16

380.68

412.42

218.11

56.94

泰安

1412.44

225.66

567.66

257.96

411.98

450.57

177.02

70.07

威海

1684.64

517.59

759.36

227.12

424.41

565.75

444.31

77.48

日照

1451.12

351.21

562.91

208.81

457.2

332.16

182.2

37.69

萊蕪

1516.22

198.94

624.72

207.03

464.06

469.35

256.53

36.33

臨沂

1339.69

212.36

625.26

191.34

409.39

314.9

156.01

63.31

德州

1114.47

173.88

553.14

169.23

319.41

220.45

137.97

42.2

聊城

1146.53

182.53

566.92

186.05

317.48

332.64

155.94

54.31

濱州

1177.49

179.96

979.01

206.88

451.85

407.49

298.7

47.51

菏澤

1265.03

170.85

550.68

143.11

329.99

349.41

193.59

82.31

數(shù)據(jù)來(lái)源:《2009年山東統(tǒng)計(jì)年鑒》
  R語(yǔ)言程序如下:
  >X<-read.delim("clipboard",header=T)
  >row.names(X)<-c("濟(jì)南","青島","淄博","棗莊","東營(yíng)","煙臺(tái)","濰坊","濟(jì)寧","泰安","威海","日照","萊蕪","臨沂","德州","聊城","濱州","菏澤")
  > d<-dist(scale(X))
  >hc1<-hclust(d,"single")#最短距離法
  >hc2<-hclust(d,"complete")#最長(zhǎng)距離法
  >hc3<-hclust(d,"median")#中間距離法
  >hc4<-hclust(d,"ward")#Ward法
  >opar<-par(mfrow=c(2,2))
  > plot(hc1,hang=-1);plot(hc2,hang=-1)
  >plot(hc3,hang=-1);plot(hc4,hang=-1)
  
  由上圖可以看出,不同方法的分類(lèi)不完全一樣,結(jié)合實(shí)際情況,最長(zhǎng)距離法分類(lèi)效果較好。
  二 在主成分分析教學(xué)中的應(yīng)用
  在實(shí)際經(jīng)濟(jì)生活中,有時(shí)需要處理的是多變量(多指標(biāo))問(wèn)題。由于變量較多,增加了分析問(wèn)題的復(fù)雜性;但在實(shí)際問(wèn)題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊核心期刊目錄。人們自然希望通過(guò)克服相關(guān)性、重疊性,用較少的變量來(lái)代替原來(lái)較多的變量,而這種代替可以反映原來(lái)多個(gè)變量的大部分信息,這實(shí)際上是一種“降維”的思想,具體理論部分詳見(jiàn)文獻(xiàn)[3][4].
  R軟件實(shí)現(xiàn)主成分分析的程序如下:
  Princomp(x,cor=FALSE,scores=TRUE,…)
  X為數(shù)據(jù)矩陣或數(shù)據(jù)框,cor為是否用相關(guān)陣,默認(rèn)為協(xié)差陣,scores為是否輸出成分得分。
  例2對(duì)例1中的數(shù)據(jù)進(jìn)行主成分分析。
  R語(yǔ)言程序如下:
  >X<-read.delim("clipboard",header=T)
  >cs.pr<-princomp(X,cor=TRUE)
  >summary(cs.pr,loadings=TRUE)
  Importance ofcomponents:
  Comp.1 Comp.2Comp.3 Comp.4 Comp.5
  Standarddeviation 2.1781277 1.0415718 0.87216013 0.751881270.56230008
  Proportion ofVariance 0.5930301 0.1356090 0.09508291 0.07066568 0.03952267
  CumulativeProportion 0.5930301 0.7286390 0.82372195 0.89438763 0.93391030
  Comp.6 Comp.7 Comp.8
  Standarddeviation 0.54497439 0.45711204 0.150894344
  Proportion ofVariance 0.03712464 0.02611893 0.002846138
  CumulativeProportion 0.97103494 0.99715386 1.000000000
  Loadings:
  Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8
  食品 -0.4170.123 0.304 0.142 0.276 -0.258 0.337 0.665
  衣著 -0.3690.391 0.2500.331 -0.704 -0.203
  居住 -0.303 -0.366-0.689 -0.173 -0.195 -0.3550.323
  設(shè)備用品 -0.359 -0.217 0.187 0.526-0.611 0.293 -0.211
  交通通訊 -0.355-0.501 0.2860.453 0.259 -0.518
  文化教育 -0.3920.214 -0.259 -0.479 -0.5680.229 -0.359
  醫(yī)療保健 -0.344 -0.185 0.216-0.695 0.5460.130
  其它 -0.266 0.566-0.537 0.201 0.4340.288
  說(shuō)明:
  1)Standard deviation:表示主成分的標(biāo)準(zhǔn)差,即主成分的方差平方根,即相應(yīng)特征值的開(kāi)方;
  2)Proportion of Variance:表示方差的貢獻(xiàn)率;
  3)Cumulative Proportion :表示方差的累計(jì)貢獻(xiàn)率。
  4)函數(shù)summary()中l(wèi)oadings=TRUE選項(xiàng)列出了主成分對(duì)應(yīng)原始變量的系數(shù)。
  由于前3個(gè)主成分的累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到82.4%,所以取前3個(gè)主成分來(lái)降維。
  碎石圖是一種可以幫助我們確定主成分合適個(gè)數(shù)的有用的視覺(jué)工具,將特征值從大到小排列。
  > biplot(cs.pr)
  
  >screeplot(cs.pr,type=c("barplot"))
  
  ? screeplot(cs.pr,type=c("lines"))
  
  由上面的圖形可以看出聚類(lèi)分析,取前3個(gè)主成分來(lái)降維是比較合理的。
  三 在對(duì)應(yīng)分析教學(xué)中的應(yīng)用
  對(duì)應(yīng)分析(Correspondenceanalysis)也稱(chēng)關(guān)聯(lián)分析、R-Q型因子分析,是近年新發(fā)展起來(lái)的一種多元相依變量統(tǒng)計(jì)分析技術(shù),通過(guò)分析由定性變量構(gòu)成的交互匯總表來(lái)揭示變量間的聯(lián)系?梢越沂就蛔兞康母鱾(gè)類(lèi)別之間的差異,以及不同變量各個(gè)類(lèi)別之間的對(duì)應(yīng)關(guān)系。主要應(yīng)用在市場(chǎng)細(xì)分、產(chǎn)品定位、地質(zhì)研究以及計(jì)算機(jī)工程等領(lǐng)域中。原因在于,它是一種視覺(jué)化的數(shù)據(jù)分析方法,它能夠?qū)捉M看不出任何聯(lián)系的數(shù)據(jù),通過(guò)視覺(jué)上可以接受的定位圖展現(xiàn)出來(lái),詳見(jiàn)參考文獻(xiàn)[4]。
  R軟件實(shí)現(xiàn)對(duì)應(yīng)分析的程序如下:
  Corresp(x,nf=1,…)
  X為表示進(jìn)行對(duì)應(yīng)分析的數(shù)據(jù)矩陣,nf為計(jì)算因子的個(gè)數(shù)。
  例3利用例1的數(shù)據(jù),進(jìn)行相關(guān)對(duì)應(yīng)分析。
  R語(yǔ)言程序如下:
  >X<-read.table("clipboard",header=T)
  >row.names(X)<-c("濟(jì)南","青島","淄博","棗莊","東營(yíng)","煙臺(tái)","濰坊","濟(jì)寧","泰安","威海","日照","萊蕪","臨沂","德州","聊城","濱州","菏澤")
  >library(MASS)
  >cal<-corresp(X,nf=3)
  > cal
  First canonicalcorrelation(s): 0.09498307 0.06957904 0.05853940
  Row scores:
  [,1][,2] [,3]
  濟(jì)南 -0.47699756 -0.6885595 -2.6382557
  青島 0.96741848 0.31366371.2941896
  淄博 0.37264061 1.0081191-0.2128972
  棗莊 0.24558092 -0.9824387 -0.2181011
  東營(yíng) -0.54396185 -0.6537340 -0.7755235
  煙臺(tái) 0.76059679 0.48114040.2145390
  濰坊 -2.16920121 0.90766921.3126103
  濟(jì)寧 0.05826518 0.10803750.5281096
  泰安 0.58733529 -0.93058620.6652785
  威海 1.35365553 2.3737554-0.8793518
  日照 1.10047866 -0.77323670.1127328
  萊蕪 0.17560188 -0.7192844 -0.9243774
  臨沂 -0.08622247 -1.2358252 0.7273149
  德州 -0.37580027 -1.2772223 0.4300355
  聊城 -0.11688207 -0.4977757 0.7740150
  濱州 -2.20651738 1.0594580 -0.5584333
  菏澤 0.16551451 -0.44520240.5084064
  Column scores:
  [,1] [,2][,3]
  食品 0.52523641-0.7675569 0.02054803
  衣著1.90845510 1.6578721 0.76764420
  居住 -1.748100050.5786733 0.65009264
  設(shè)備用品 0.03597405 -0.8938313 -0.21425105
  交通通訊 -0.52356069 -1.0863547 -0.77153434
    文化教育 0.42806363 1.04009770.62909600
  醫(yī)療保健 -0.02051876 1.8098398 -3.09255548
  其它0.51837527 0.5603683 2.92565707
  >biplot(cal);abline(v=0,h=0,lty=3)
  
  由對(duì)應(yīng)分析圖可以看出2008年山東省各市居民消費(fèi)實(shí)際情況,并可直觀的劃分類(lèi)與層次。
  本文結(jié)合實(shí)例,介紹了R軟件在多元統(tǒng)計(jì)分析教學(xué)中的具體應(yīng)用,通過(guò)R軟件的具體操作來(lái)實(shí)現(xiàn)多元數(shù)據(jù)分析,一方面可以加深學(xué)生對(duì)多元統(tǒng)計(jì)方法的理解,更好的掌握多元統(tǒng)計(jì)理論方法,同時(shí)還可以使學(xué)生擺脫繁瑣的計(jì)算,使學(xué)生能處理實(shí)際的多元數(shù)據(jù)分析。

參考文獻(xiàn)
[1]王斌會(huì).多元統(tǒng)計(jì)分析及R語(yǔ)言建模[M].廣州:暨南大學(xué)出版社,2010.
[2]湯銀才.R語(yǔ)言與統(tǒng)計(jì)分析[M].北京:高等教育出版社,2005.
[3]高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2005.
[4]李衛(wèi)東.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2008.
 

關(guān)鍵字:教育,北京
About Us - 關(guān)于我們 - 服務(wù)列表 - 付費(fèi)指導(dǎo) - 媒體合作 - 廣告服務(wù) - 版權(quán)聲明 - 聯(lián)系我們 - 網(wǎng)站地圖 - 常見(jiàn)問(wèn)題 - 友情鏈接
Copyright©2014安裝信息網(wǎng) www.78375555.com. All rights reserved.
服務(wù)熱線(xiàn):4000-293-296 聯(lián)系電話(huà):0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號(hào)-4
未經(jīng)過(guò)本站允許,請(qǐng)勿將本站內(nèi)容傳播或復(fù)制
安全聯(lián)盟認(rèn)證