相關(guān)鏈接: 中國安全網(wǎng) 中國質(zhì)量網(wǎng) 中國論文網(wǎng) 中國資訊網(wǎng)
論文導讀::數(shù)字化的乳腺X光片仍然是乳腺癌檢測的可靠工具,X光片中出現(xiàn)的微鈣化點是癌癥的主要標志。本文提出了一個基于自適應的學習矢量量化神經(jīng)網(wǎng)路(LVQ)的乳腺癌良惡性分類方法,該方法在提取特征向量的基礎上對CC和MLO兩種視圖的良性和惡性數(shù)字化乳腺X光片圖像進行訓練和測試,分類結(jié)果使用最佳分類率和平均分類率來說明。實驗結(jié)果表明本文方法對CC視圖的圖象的平均測試分類率為92.6%,而對MLO視圖是93.18%。在微鈣化分類系統(tǒng)中采用邏輯或的方式用于合并兩種不同的視圖下的網(wǎng)絡,合并后的網(wǎng)絡可以獲得的最佳分類性能是94.8%。
論文關(guān)鍵詞:微鈣化點良惡性分類,腫瘤模式識別,學習矢量量化神經(jīng)網(wǎng)絡,敏感度,特異度
1 引言
隨著早期檢測的重視,近年來乳腺癌的死亡率有降低的趨勢,但僅是在歐美國家,比如美國癌癥協(xié)會ACS建議40-50歲之間的婦女每隔一年就做一次X光片的早期檢查,而對50歲以上的則要求一年一次[1]。在過去的十年里中國的乳腺癌診斷病例以每年3%的比例在增長,這個比例已高于西方國家[2],并且呈年輕化的趨勢,這可能歸結(jié)于環(huán)境的變化、飲食結(jié)構(gòu)等改變。
本文的主要工作是提出將微鈣化簇分類為良性或惡性的分類算法。分類算法包括4個步驟:(1)從DDSM數(shù)據(jù)庫中獲取研究對象,并修改圖像格式和尺寸;(2)從數(shù)據(jù)庫相關(guān)說明文件中提取病灶區(qū)域;(3)提取有效的特征向量;(4)對CC和MLO兩種視圖的圖像使用LVQ神經(jīng)網(wǎng)絡分別訓練和測試獲得最佳的分類率;(5)使用邏輯或操作計算最后的分類結(jié)果,即如果認為任何一個視圖下的圖像是惡性的,那該病人的病灶性質(zhì)就是惡性的。
2 圖像預處理及特征提取
2.1 圖像數(shù)據(jù)庫和預處理
本文采用的試驗數(shù)據(jù)庫是南佛羅里達州立大學提供的乳腺癌診斷圖DDSM數(shù)據(jù)庫,該數(shù)據(jù)庫可以在該大學的網(wǎng)站上免費下載[3],該數(shù)據(jù)庫中每個病人有四張圖像,分別是cc和mlo視圖下的左右乳腺組織圖像,所有的圖像都是使用LJPEG格式進行壓縮,這樣保證了不丟失任何圖像細節(jié)敏感度,但因此圖像尺寸也非常大,而CAD系統(tǒng)要能快速檢測并具備高準確度,對一個模式識別系統(tǒng)來說,低分辨率圖像是高效和可行的[4]。所以,要對圖像的尺寸進行修改,同時盡可能地保留圖像的細節(jié)。下面是圖像預處理的步驟:(1)先將LJPEG格式圖像進行解壓縮,將DDSM中的LJPEG格式的圖像轉(zhuǎn)換成12位的TIFF格式的圖像,使得其可以在MATLAB中進行后續(xù)處理[5];(2)將它轉(zhuǎn)換成8位格式圖像;(3)人工去除黑色背景,提取乳腺區(qū)域;(4)選擇在使用雙線性插值算法進行圖像映射,修改圖像尺寸為300*200像素,這樣在減小圖像的尺寸的同時避免圖像失真。
使用雙線性插值算法,修改圖像尺寸為300*200像素大小 |
圖1 圖像預處理與分割流程
2.2 提取病灶區(qū)域
DDSM數(shù)據(jù)庫的每個病人案例都附帶了相關(guān)信息,用于標注可疑的病灶區(qū)域,這些病灶區(qū)域的信息標注是基于像素級的“地表實況”,每個可疑區(qū)域的邊界通過在每個圖像案例中的.overlay文件中的聯(lián)結(jié)點值來標注。使用這些邊界信息,就可以獲取了每個可疑區(qū)域的邊界坐標,從而提取出病灶區(qū)域。
2.3 特征提取
有效的特征提取可以大大簡化分類系統(tǒng)的設計,好的特征的選取是處理過程中一個關(guān)鍵的步驟,因為接下來的步驟只是關(guān)注這些特征并在這些特征上進行運算。我們采用統(tǒng)計學方法計算病灶區(qū)域的第一類特征,即以下17個灰度特征:平均灰度、平均邊界灰度、平均強度、平均對比度、差分、能量、修正能量、熵、修正熵、標準差、修正標準差、傾斜、修正傾斜、微鈣化簇的半徑、團簇中微鈣化的數(shù)目、團簇中微鈣化的分布、團簇的面積。本文取的第二類特征即四個bi-rads特征是密度,腫塊形狀、腫塊邊緣和異常風險評估。最后一個特征是病人的年齡特征。后面兩類特征在數(shù)據(jù)庫說明文件中都可以獲得具體的值論文開題報告范例。這樣就組成了22維的特征向量,使用這些特征向量對神經(jīng)網(wǎng)絡進行訓練和測試。
3 LVQ神經(jīng)網(wǎng)絡的分類算法
本文在LVQ 改進算法的基礎上采用自適應學習速率調(diào)整的技術(shù),來提高競爭神經(jīng)元的利用率、微鈣化識別率和縮短訓練速度。
基于LVQ神經(jīng)網(wǎng)絡方法的微鈣化分類算法過程如圖2所示:
圖2 基于LVQ神經(jīng)網(wǎng)絡方法的微鈣化分類算法過程
接下來在DDSM數(shù)據(jù)庫中選擇240個良惡性案例進行訓練和測試,先前面提到的算法將圖像預處理成300*200像素。
假定LVQ網(wǎng)絡輸入層的輸入向量為,其中,M為輸入神經(jīng)元的數(shù)目;輸入層和競爭層之間的連接權(quán)值矩陣為
。
中,i=1,2,…,P;j=1,2,…,M表示輸入層第i個神經(jīng)元和第j個神經(jīng)元之間的連接權(quán)值,P為競爭神經(jīng)元的數(shù)目,競爭層的輸出向量為
,競爭層與輸出層神經(jīng)元之間的連接權(quán)值矩陣為
,其中
。
中敏感度,k=1,2,…,N;r=1,2,…,p,表示競爭層第k個神經(jīng)元與輸出層第r個神經(jīng)元之間的鏈接權(quán)值,N為輸出層神經(jīng)元的數(shù)目。競爭層的每個神經(jīng)元通過學習原型向量,并對輸入空間進行分類。將競爭層學習得到的類稱為子類,將輸出層學習得到的類稱為目標類[6]。
LVQ學習算法步驟如下:
第一步:設置變量和參量。
。1)輸入向量和目標向量的設計。每幅圖像的原始尺寸為300*200,參與訓練的有X=240幅圖像,提取的輸入特征向量是22個。240張腫瘤圖像分為2類(良性和惡性),所以目標向量為240×2的向量,其中每一列中只有一個“1”,其余均為“0”。
為輸入向量,或稱訓練樣本。
。2)設置權(quán)值向量和學習速率。為權(quán)值向量,i=1,2,…,M。t為迭代次數(shù),T為迭代總次數(shù),N是輸入層節(jié)點數(shù),M是輸出層節(jié)點數(shù)。選擇學習速率的函數(shù)
。
第二步:初始化權(quán)值向量及學習速率。在初始狀態(tài)下,所有神經(jīng)元都擁有相同的權(quán)值,即為這些向量的中間值。學習速率反映了學習過程中連接權(quán)調(diào)整量的大小,初值
設為0. 1,閾值
。
第三步:輸入訓練樣本,計算輸入向量與權(quán)值向量之間的距離,找到與輸入向量距離最小的權(quán)值向量,這里使用歐氏距離最小的標準,如公式(1),從而尋找獲勝神經(jīng)元c,從而實現(xiàn)了神經(jīng)元的競爭過程。
, i=1,2,…M(1)
第四步:期望誤差的選取和網(wǎng)絡結(jié)構(gòu)的確定。期望誤差初始值設為0.1,學習函數(shù)用LVQ1,最大訓練步數(shù)設為1000,開始對網(wǎng)絡進行訓練。訓練經(jīng)過20次迭代就可達到誤差要求,為了進一步降低訓練誤差,要通過增加隱含層的節(jié)點,以及訓練時間來獲得。訓練好的網(wǎng)絡在選定的圖像集(選取良惡性圖像各50張,總共100張)上測試的結(jié)果是:當競爭層節(jié)點數(shù)小于10時敏感度,不能進行有效分類;當競爭層節(jié)點數(shù)為10-20時,分類率為80-86%左右;當競爭層節(jié)點數(shù)為20-30時,分類率為90%左右。競爭層節(jié)點數(shù)再增加,對識別結(jié)果影響不大。所以,根據(jù)實驗結(jié)果,我們采用隱藏層節(jié)點數(shù)為30的網(wǎng)絡結(jié)構(gòu)進行最終的測試和分類。
第五步:判斷分類是否正確,根據(jù)如下規(guī)則調(diào)整獲勝神經(jīng)元的權(quán)值向量:
如果,則
(2)
否則,當,有
(3)
對于其他神經(jīng)元,保持權(quán)值不變論文開題報告范例。
第六步:調(diào)整學習速率,LVQ 算法中學習速率
是個很重要的參數(shù),它影響算法的穩(wěn)定性和權(quán)值收斂的速度,是LVQ 神經(jīng)網(wǎng)絡訓練過程中需要重點考慮的參數(shù)。在定義學習速率的時候要貫徹快速穩(wěn)定的原則,這里我們采用自適應學習速率定義方法:一般來說,學習速率的選擇需要考慮的是,在迭代的初始時刻選擇較大的值,然后,隨著迭代的進行,線性或非線性地降到0。
在初始階段,通常取較大的值,表示算法迅速修正較大的誤分類權(quán)值,隨著時間的進行,
越來越小,表明使用較小的學習系數(shù)(緩慢的自適應)來修正較小的誤分類權(quán)值,以至在學習完成后,誤分類的樣本數(shù)得到最少。使用自適應學習速率,神經(jīng)網(wǎng)絡的權(quán)值在剛開始快些收斂,結(jié)束時保證權(quán)值相對穩(wěn)定,因此它比定學習速率有較快的收斂速率和更高的穩(wěn)定性。
第七步:判斷迭代次數(shù)是否超過T,如果就轉(zhuǎn)到第三步,否則就結(jié)束迭代過程。
對40張cc和mlo視圖上的圖像(其中CC和MLO視圖上的圖像各20張敏感度,包括10張惡性,10張良性,并且左右視圖各對半即5張)進行訓練,獲得了最佳的學習模式。對另外200個案例(良惡性各100張),對不同兩種視圖分開來進行良惡性組織的分類的測試。為了降低漏掉真陽性案例的可能性,對兩種視圖下的神經(jīng)網(wǎng)絡分類效果使用邏輯或的方式進行處理,就是如果任何一種視圖(cc或mlo)網(wǎng)絡分類器將圖像病灶分類成是惡性的,那么就認為該病例是惡性的,否則,就認為是正常或良性的圖像。
4 實驗結(jié)果
使用MATLAB進行仿真計算,實驗結(jié)果表明完成的測試集在cc和mlo視圖上各自平均分類性能是92.6%和93.18%。整合的系統(tǒng)的平均分類性能略微的降低到91.84%(如表1),而最佳分類性能是94.8%。
表1 240個DDSM案例的神經(jīng)網(wǎng)絡訓練和測試結(jié)果
CC視圖 |
MLO視圖 |
整合兩個視圖的網(wǎng)絡 |
||||
訓練圖像數(shù)=20 |
訓練圖像數(shù)=100 |
訓練圖像數(shù)=20 |
訓練圖像數(shù)=100 |
訓練圖像數(shù)=40 |
訓練圖像數(shù)=100 |
|
測試圖像數(shù)=100 |
測試圖像數(shù)=20 |
測試圖像數(shù)=100 |
測試圖像數(shù)=20 |
測試圖像數(shù)=200 |
測試圖像數(shù)=20 |
|
訓練集的分類率 |
||||||
最佳分類率 |
100 |
100 |
100 |
100 |
||
平均分類率 |
97.13 |
98.63 |
95.8 |
96.68 |
||
標準偏差 |
1.93 |
1.36 |
3.42 |
2.60 |
||
測試集的分類率 |
||||||
最佳分類率 |
93 |
100 |
94 |
100 |
94.8 |
100 |
平均分類率 |
92.6 |
92.38 |
93.18 |
94.75 |
91.84 |
93.75 |
標準偏差 |
0.46 |
2.16 |
0.447 |
1.82 |
1.3865 |
2.1826 |
4 結(jié)束語
本文提出了一個學習向量量化神經(jīng)網(wǎng)絡整合系統(tǒng)用于區(qū)分乳腺癌的良惡性病灶的方法。整合的神經(jīng)網(wǎng)絡擁有更強的學習技能,可以改善神經(jīng)系統(tǒng)學習的泛化能力。本文整合的神經(jīng)網(wǎng)絡分類系統(tǒng)使用了低分辨率的圖像,微鈣化使用自適應的學習向量量化網(wǎng)絡提取,這個網(wǎng)絡在cc和mlo視圖下使用良性和惡性的圖像進行訓練,整合的系統(tǒng)完成的最佳分類性能是94.8%。盡管如此,但整合后的系統(tǒng)的平均分類率有所下降,這是以后需要研究和改進的方向。
參考文獻
[1]McLelland, R.Screening for breast cancer: opportunities, status and challenges. In: Brunner,S., Langfeldt, B. (eds.) Advances in Breast Cancer Detection: Recent Results inCancer Research, vol. 119, Springer, pp 29-38, 1990.
[2]Li, S. L. Oncology of breast. Beijing: Science Technique LiteraturePublishing House, 2000. pp 210, 218-220.
[3]美國南佛羅里達大學.數(shù)字乳腺圖像數(shù)據(jù)庫(DDSM)[EB/OL].http://marathon.csee.usf. edu/Mammography/Database.html/
[4]LJPEG格式轉(zhuǎn)換到TIFF格式的詳細說明. http://hi.baidu.com/xs64/blog/item/ 656858034ea603eb08fa938e.html, 2009-1-4.
[5]Khuwaja, G. A. An adaptive combined classifier system for invariantface recognition. Digital Signal Processing, 2002, 12: 21-46.
[6]SANO K, MOMOSE S, TAKIZAWA H,et al.Efficient parallel processing ofcompetitive learning algorithms[J]. Parallel Computing, 2004, 30(12):1361-1383.