一、正態(tài)假設(shè)的第一原則:
這種假設(shè)通常不適用于未經(jīng)處理的原始數(shù)據(jù),而是用于模型的殘差項或誤差項。例如,根據(jù)公司的總資產(chǎn)(x1)和攤銷年限(x2),您可以使用此標(biāo)準(zhǔn)回歸模型來預(yù)測收購的商譽(Y):
Y=b0+β1X1+β2X2+ε,其中ε代表殘差或預(yù)測誤差(模型預(yù)測與你實際觀測的差異);B0代表常數(shù)項;β1,β2代表預(yù)測變量X1,X2的系數(shù)。在這個模型中,商譽(Y)不是正常假設(shè)的,而是殘值ε。所以,在這種情況下,衡量正態(tài)性假設(shè)的有效性不是衡量商譽的正態(tài)性,而是通過回歸分析計算殘差,衡量殘差的正態(tài)性。在這種情況下,我們應(yīng)該尋求近似正態(tài),而不是完全正態(tài)。原始數(shù)據(jù)商譽的極端非正態(tài)性是殘差很可能是極端非正態(tài)性的指標(biāo),是成立的。但在很多情況下,原始數(shù)據(jù)并不是近似正態(tài)的,殘差才是。這是因為原始數(shù)據(jù)包含了X變量的影響,在本例中是總資產(chǎn)和攤銷。
第二,關(guān)于正態(tài)分布和正態(tài)假設(shè)的第二個重要原理是中心極限定理:
極限定理指出,無論原始數(shù)據(jù)的分布是什么,隨機樣本中計算出的平均值都趨向于服從正態(tài)分布。換句話說,即使商譽極度偏斜,我們也可以通過分析五次不同收購的平均值,發(fā)現(xiàn)它是一個近似的正態(tài)分布。這個理論的實際影響是,當(dāng)我們用統(tǒng)計分析工具分析均值不是單一值的時候,可以不那么關(guān)注正態(tài)性。例如,標(biāo)準(zhǔn)t檢驗和方差分析均值檢驗。所以均值分析的統(tǒng)計分析工具對正態(tài)假設(shè)都不敏感,即在原始數(shù)據(jù)不正態(tài)時也非常有效。所以我建議在講授T檢驗和方差分析之前,不必過于強調(diào)正態(tài)性檢驗。
對于非正態(tài)數(shù)據(jù)(或偏態(tài)分布),我通常會采取以下策略處理,供讀者參考。
1.什么都不做:也就是說,像數(shù)據(jù)正態(tài)分布一樣繼續(xù)做。當(dāng)滿足以下三個標(biāo)準(zhǔn)中的任何一個時,這個方法是理想的:
A.數(shù)據(jù)大致正常;
B.統(tǒng)計分析工具的使用是基于均值的;
C.使用的統(tǒng)計分析工具對正態(tài)假設(shè)不敏感。
對于超常數(shù)據(jù),經(jīng)過正態(tài)檢驗分析,一般不是正態(tài)分布。因為現(xiàn)實中的數(shù)據(jù)并不是完全正態(tài)的,同時,上萬甚至十萬的大容量樣本提供了足夠的統(tǒng)計能力,可以檢測出與完全正態(tài)分布的微小差異。在許多這樣的情況下,數(shù)據(jù)圖表揭示了一個近似的正態(tài)分布,這對于實際應(yīng)用是足夠的。如果用T檢驗或方差分析等技術(shù)來比較平均值,中心極限定理會降低正態(tài)假設(shè)的重要性。所以有了這個方法,你很少需要考慮常態(tài)。即使只有五個樣本,不管是否正常,都可以繼續(xù)使用這些建議。此外,回歸分析中的系數(shù)估計是另一個對正態(tài)假設(shè)不敏感的技術(shù)例子。
2.使用適當(dāng)?shù)姆植甲R別技術(shù):在某些情況下,您可以確定數(shù)據(jù)服從哪種特殊的非正態(tài)分布。例如,一些周期性時間數(shù)據(jù)往往服從威布爾分布。幸運的是,一些統(tǒng)計分析工具有處理威布爾分布數(shù)據(jù)的特殊菜單。類似于廣義線性模型的回歸分析方法可以使用戶恰當(dāng)?shù)胤治龃罅糠牟煌植嫉臄?shù)據(jù),包括指數(shù)分布甚至離散分布。
3.使用非參數(shù)統(tǒng)計分析工具:這個方法特別適用于你不知道數(shù)據(jù)會滿足什么分布的時候。這些方法沒有特殊的概率分布假設(shè),因此適用于大量的潛在問題和數(shù)據(jù);但有一點要記住,一般的非參數(shù)建議不如基于特定分布的檢驗有效。
4.使用變換:當(dāng)變換是一個非線性函數(shù)時,至少在某些情況下,可以將偏斜的數(shù)據(jù)歸一化為近似正態(tài)。常用的有對數(shù),平方根,(特別是對于離散數(shù)據(jù))和倒數(shù)。為了找到合適的變換,可以使用Box-Cox方法。但是分享成果的時候,記得把換的單位轉(zhuǎn)回原單位,不然別人看不懂。
總之,制造領(lǐng)域之外的六西格瑪中的很多數(shù)據(jù)都不是正態(tài)分布或者接近正態(tài)分布。盡管正態(tài)假設(shè)在統(tǒng)計學(xué)中可能很重要,但在許多情況下并非如此。即使這個假設(shè)很重要,六西格瑪黑帶應(yīng)該能夠使用有效的分析工具來分析這些數(shù)據(jù)。所以,正規(guī)性不足是一個值得考慮的技術(shù)問題,但并不是恰當(dāng)應(yīng)用六西格瑪 方法的障礙。