回歸分析是確定兩個或多個變量之間數量關系的統計分析方法。它被廣泛使用。回歸分析根據涉及的自變量數量分為回歸分析和多元回歸分析。根據自變量的數量,可分為單變量回歸分析和多變量回歸分析;根據自變量和因變量之間的關系類型,可以分為線性回歸分析和非線性回歸分析。如果回歸分析中只包含壹個自變量和壹個因變量,並且它們之間的關系可以用直線近似表示,這種回歸分析稱為壹元線性回歸分析。如果回歸分析包括兩個或兩個以上的自變量,並且因變量和自變量之間存在線性關系,則稱為多元線性回歸分析。
定義
回歸分析是應用最廣泛的數據分析方法之壹。它基於觀察到的數據,在變量之間建立適當的依賴關系來分析數據的內在規律,並可用於預測、控制等問題。
方差的同質性
線性關系
效應累積
無測量誤差的變量
變量服從多元正態分布。
觀察獨立性
模型是完整的(沒有不應該輸入的變量,也沒有應該輸入的變量)。
誤差項是獨立的,並且服從(0,1)正態分布。
真實數據往往不能完全滿足上述假設。因此,統計學家開發了許多回歸模型來解決線性回歸模型的假設過程的約束。
研究壹個或多個隨機變量Y1、Y2、…、Yi與其他變量X1、…、Xk之間關系的統計方法,也稱為多元回歸分析。通常,Y1,Y2,…,Yi為因變量,X1,,…,Xk為自變量。回歸分析是壹種數學模型,特別是當因變量和自變量是線性時,它是壹種特殊的線性模型。最簡單的情況是自變量和因變量,它們壹般是線性的,這種情況稱為壹元線性回歸,即模型為Y=a+bX+ε,其中x為自變量,Y為因變量,ε為隨機誤差。壹般假設隨機誤差的平均值為0,方差為σ2(σ2大於0)。σ 2與x的值無關。如果我們進壹步假設隨機誤差遵循正態分布,則稱為正態線性模型。壹般來說,它有k個自變量和壹個因變量,因變量的值可分為兩部分:壹部分是由於自變量的影響,即表示為自變量的函數,其中函數的形式是已知的,但它包含壹些未知參數;另壹部分是由於其他因素而產生的隨機性,即隨機誤差。當函數形式為參數未知的線性函數時,稱為線性回歸分析模型;當函數是具有未知參數的非線性函數時,稱為非線性回歸分析模型。當自變量的數量大於1時,稱為多元回歸,當因變量的數量大於1時,稱為多元回歸。
回歸分析的主要內容有:
①以壹組數據為基礎,確定某些變量之間的定量關系,即建立數學模型並估計未知參數。估計參數的常用方法是最小二乘法。
②檢驗這些關系的可信度。
(3)在多個自變量共同影響壹個因變量的關系中,通常用於判斷哪些(或哪些)自變量影響顯著,哪些自變量影響不顯著,將影響顯著的自變量放入模型中,剔除影響不顯著的變量,如逐步回歸、前向回歸和後向回歸。
④利用所需關系預測或控制生產過程。回歸分析應用廣泛,統計軟件包使計算各種回歸方法非常方便。
在回歸分析中,變量分為兩類。壹類是因變量,通常是實際問題中關心的壹類指標,通常用y表示;另壹種影響因變量的值的變量稱為自變量,用x表示。
回歸分析研究的主要問題有:
(1)確定Y與X之間數量關系的表達式,稱為回歸方程;
②檢驗所得回歸方程的可靠性;
(3)判斷自變量X是否對因變量Y有影響;
(4)利用所得回歸方程進行預測和控制。
回歸分析可以說是統計學中內容最豐富、應用最廣泛的壹個分支。這並不誇張。包括最簡單的T檢驗和方差分析,也可以歸入線性回歸的範疇。卡方檢驗也可以用邏輯回歸代替。
回歸的名字有很多,比如線性回歸、logistic回歸、cox回歸、poission回歸、probit回歸等等,總能讓妳暈頭轉向。為了讓大家對眾多回報有壹個清晰的了解,這裏簡單總結壹下:
1,線性回歸,這是我們學習統計學時接觸到的最早的回歸。即使妳不懂別的,至少妳必須知道線性回歸的因變量是連續變量,自變量可以是連續變量,也可以是分類變量。如果只有壹個自變量,只有兩種類型,那麽這種回歸相當於t檢驗。如果只有壹個自變量,而有三個或更多類別,那麽這種回歸相當於方差分析。如果有兩個自變量,壹個是連續變量,另壹個是分類變量,那麽這種回歸相當於協方差分析。因此,線性回歸必須準確,因變量必須連續。
2.logistic回歸與線性回歸壹起成為兩大回歸,其應用範圍不亞於線性回歸,甚至有大放異彩之勢。因為邏輯回歸非常容易使用和實用。可以直接解釋為,如果存在壹定的危險因素,發病風險將增加2.3倍,聽起來很容易理解。與線性回歸相比,其實際意義較弱。邏輯回歸與線性回歸正好相反,因變量必須是分類變量,而不是連續變量。分類變量可以是二元或多分類,多分類可以是有序或無序的。二元logistic回歸有時根據研究目的分為條件logistic回歸和無條件logistic回歸。條件logistic回歸用於分析成對數據,無條件logistic回歸用於分析不成對數據,即直接隨機抽樣數據。無序多分類邏輯回歸有時成為多項式logit模型,有序邏輯回歸有時稱為累積比logit模型。
3、cox回歸,cox回歸的因變量有些特殊,因為他的因變量必須同時有兩個,壹個代表狀態,另壹個代表時間,而且它應該是壹個連續變量。只有當這兩個變量同時可用時,才能使用Cox回歸分析。Cox回歸主要用於生存數據的分析,其中至少有兩個結果變量,壹個是死亡,是活著還是死了?第二是死亡時間。如果死亡發生,會在什麽時候發生?如果活著,從觀察開始到結束有多久了?所以有了這兩個變量,我們可以考慮使用cox回歸分析。
4、泊松回歸,泊松回歸不如前三種應用廣泛。但實際上,如果可以使用邏輯回歸,通常可以使用泊松回歸。泊松回歸的因變量是數字,即觀察壹段時間後,有多少人患病?或者死了多少人?等壹下。其實和logistic回歸差不多,因為logistic回歸的結果是發病還是死亡,也需要用病例數和死亡數。仔細想想,其實和多少人生病多少人死亡是壹樣的。只是poission的回歸沒有logistic的出名,所以使用它的人沒有logistic的多。但是不要認為泊松回歸是無用的。
5.概率回歸在醫學上真的沒用。關鍵問題是probit這個詞太難理解了,通常被翻譯成概率單位。Probit函數實際上與logistic函數非常接近,它們的分析結果也非常接近。遺憾的是,probit回歸的實際含義確實不像logistic回歸那樣容易理解,這導致了它的晦澀難懂,但它似乎更多地用於社會學領域。
6.負二項式回歸。所謂負二項式是指壹種分布,它實際上類似於泊松回歸和邏輯回歸。泊松回歸用於服從泊松分布的數據,邏輯回歸用於服從二項分布的數據,負二項回歸用於服從負二項分布的數據。說到這些分配,人們不想聽。好抽象的名詞,我也頭疼。如果簡單理解的話,二項式分布可以看作是二進制分類數據,泊松分布可以看作是計數數據,也就是數字,而不是身高,身高可能有小數點,而數字不可能有小數點。負二項分布也是壹個數字,但它比泊松分布要求更高。如果您的結尾是壹個數字,並且結尾可能是聚合的,則它可能是負二項分布。舉個簡單的例子,如果調查流感的影響因素,結果當然是流感病例數。如果調查中的壹些人在同壹個家庭中,因為流感具有傳染性,那麽如果同壹個家庭中的壹個人感染了流感,其他人也可能感染流感,所以這就是聚集性。雖然這種數據的結果是壹個數字,但由於其聚類性,使用泊松回歸不壹定合適,因此可以考慮負二項式回歸。既然提到了這個例子,用於邏輯回歸的數據通常可以由poission返回。就像上面的案例壹樣,我們可以將結局分為兩類。每個人都有兩種狀態,流感或不流感。這是壹個二元結局,因此可以使用邏輯回歸。但是如果這裏的數據是集群的呢?幸運的是,除了邏輯回歸還有更多擴展。妳可以使用多層邏輯回歸模型或考慮廣義估計方程。這兩種方法都可以處理具有分層或重復測量數據的二元因變量。
7、威布爾回歸,有時中文音譯就是威布爾回歸。也許妳還沒有聽說威布爾回歸的消息。其實這個名字只是嚇唬人的噱頭。上壹篇文章中提到,cox回歸常用於生存數據的分析,它幾乎主導了整個生存分析。但實際上,夾縫中仍有幾種方法,它們很頑強,有很大的生命力,但大多數不願意在中國使用。威布爾回歸就是其中之壹。考克斯回歸為什麽受歡迎?因為它很簡單,並且可以在不考慮條件(比例條件除外)的情況下使用,所以可以使用大多數生存數據。威布爾回歸是有條件的,使用時數據必須符合威布爾分布。什麽,又是分銷?!估計大家的頭又變大了。妳想停止向下看並使用cox回歸嗎?但我還是建議讀壹讀。為什麽?我相信每個人都知道參數檢驗和非參數檢驗,並且可能更喜歡參數檢驗,例如T檢驗,而不是非參數檢驗,例如秩和檢驗。那麽這裏的威布爾回歸和cox回歸基本上可以說分別對應參數檢驗和非參數檢驗。我在上壹篇文章中也介紹了參數檢驗和非參數檢驗的優缺點。如果數據符合威布爾分布,那麽直接應用威布爾回歸當然是最理想的選擇,它可以給妳最合理的估計。如果數據不符合威布爾分布,那麽如果使用威布爾回歸,將應用錯誤,結果肯定不會是真實的。所以,如果妳能判斷妳的數據是否符合威布爾分布,那麽使用參數回歸當然是最好的,也就是威布爾回歸。但如果妳真的沒有信心判斷數據分布,也可以老老實實用cox回歸。Cox回歸可以視為非參數回歸,無論數據分布如何都可以使用,但由於它可以用於任何數據,因此它不可避免地具有壹個缺點,即每個數據都沒有得到正確使用。威布爾回歸就像裁縫,以體型為數據,以衣服為模型。威布爾回歸就是根據妳的體型做衣服,肯定適合妳,但不適合別人。考辛斯的回歸就像去商場買衣服壹樣。衣服適合很多人,但不適合所有人。只能說他們大體合適。至於是選擇麻煩的量體裁衣方式還是幹脆去商場買現成的,這取決於妳的喜好和妳對自己身材的了解。如果妳對它非常熟悉,妳當然會量身定制妳的衣服。如果妳不太了解它,就去商場買流行的衣服。
8.主成分回歸。主成分回歸是壹種合成方法,相當於主成分分析和線性回歸的合成。主要用於解決自變量之間相關性較高的情況。這在現實中並不少見。比如妳要分析的自變量中既有血壓又有血糖,這兩個指標可能有壹定的相關性。如果將它們同時放入模型中,會影響模型的穩定性,有時會造成嚴重的後果,如結果與實際情況嚴重不符。當然解決辦法有很多,最簡單的就是剔除其中壹個,但如果真的舍不得,畢竟是嘔心瀝血的調查,刪了就可惜了。如果不能承受,可以考慮使用主成分回歸,相當於用壹個變量表達這兩個變量所包含的信息。這個變量稱為主成分,因此稱為主成分回歸。當然,如果壹個變量代替兩個變量,肯定不可能完全包含它們的信息,包含80%或90%就不錯了。但有時我們必須做出選擇。妳想要壹個有100%信息但有很多變量的模型嗎?還是壹個擁有90%信息但只有1或2個變量的模型?例如,如果您要診斷感冒,是否必須完成所有與感冒相關的癥狀和測試結果?還是單純根據幾個癥狀來判斷?我覺得根據幾個癥狀,可以大致確定90%是感冒。不壹定是100%的信息吧?模型也是如此,它是用於現實的,而不是空中樓閣。既然要在實踐中使用,那就壹定要簡單。對於壹種疾病,如果30個指標可以診斷100%,3個指標可以診斷80%,我想每個人都會選擇3個指標的模型。這是主成分回歸存在的基礎。用幾個簡單變量綜合多個指標的信息,使幾個簡單主成分可能包含許多原始自變量的大部分信息。這就是主成分回歸的原理。
9.裏奇回來了。我沒有查過《山脊歸來》名字的由來,可能是因為它的圖形有點像山脊。不要糾結於名字。嶺回歸還用於處理自變量之間高度相關的情況。只是與主成分回歸的具體估計方法不同。線性回歸的計算使用最小二乘估計方法。當自變量高度相關時,最小二乘回歸估計的參數估計值將是不穩定的。這時,如果在公式中加入壹些東西使其穩定,這個問題就會得到解決。嶺回歸的思想是,在最小二乘估計中增加壹個k,改變其估計值,使估計結果穩定。K應該有多大?從嶺跡圖判斷,估計這就是嶺回歸名稱的由來。妳可以選擇很多K值,妳可以做壹個嶺圖,看看這個圖在哪個值變得穩定,然後妳就可以確定K值,然後整個參數估計不穩定的問題就解決了。
10,偏最小二乘回歸。偏最小二乘回歸也可以用來解決自變量之間高度相關的問題。但比主成分回歸和嶺回歸更好的壹個優點是,偏最小二乘回歸可以用於案例很少的情況,甚至當案例數量少於自變量數量時。這聽起來不可思議,難道不是說實例的數量比自變量數量的10倍要好嗎?案例數怎麽可能小於自變量?這怎麽算?不幸的是,偏最小二乘回歸真的有如此令人發指的優勢。因此,如果妳的自變量高度相關,案例數量特別少,自變量很多(那麽多無奈的問題),那麽妳現在不必擔心,只需使用偏最小二乘回歸即可。其實它的原理有點像主成分回歸,也是提取自變量的壹些信息,損失了壹定的準確性,但保證了模型更符合實際。因此,這種方法不是直接通過因變量和自變量進行分析,而是通過反映因變量和自變量部分信息的新的綜合變量進行分析,因此它不需要比自變量有更多的情況。偏最小二乘回歸還有壹個很大的優點,那就是它可以用在多個因變量的情況下。普通線性回歸只有壹個因變量,而偏最小二乘回歸可用於多個因變量和多個自變量之間的分析。因為它的原理是同時提取多個因變量和多個自變量的信息形成新的變量進行再分析,所以多個因變量對它來說無所謂。
看完上面的解釋,希望對妳理解回歸分析的應用有所幫助。
以上就是邊肖為大家分享的回歸分析的理解和簡單應用。更多資訊可以關註環球常春藤分享更多幹貨。