當前位置:菜譜大全網 - 素菜食譜大全 - 決策樹-案例1-Iris數據分類和卡方檢驗

決策樹-案例1-Iris數據分類和卡方檢驗

這種情況下仍然使用虹膜數據分類數據。

數據路徑:/data/iris.data。

數據格式:

數據解釋:

1,介紹頭文件

Feature_selection是壹個用於特征選擇的包。

feature_selection中的方法SelectKBest,幫助我們選擇k個最優特征。

feature_selection中的Chi _ 2-Chi _ 2-square test是指使用Chi _ 2幫助我們在SelectKBest中選擇最好的k個最佳特征。

2、防止中文亂碼、警告、讀取數據。

樣本總數:150;特征屬性的數量:4

x =數據[列表(範圍(4))]

獲取前四列特殊數據'花萼長度','花萼寬度','花瓣長度'和'花瓣寬度'樣本。

iris_class = 'Iris-setosa ',' Iris-versicolor ',' Iris-virginica '

Y = PD。分類(數據[4])。代碼#將Y轉換為類型的0,1,2。

將目標的三個分類轉換為0,1,2。

PS:在前面的例子:04分類算法-Logistic回歸-授信審批案例中,我們已經編寫了壹個分類算法,對壹些特征進行啞編碼操作:parseRecord(記錄)。事實上,熊貓也集成了這種轉換算法:pd。分類(數據[4])。碼,可以直接把Y轉換成0,1,2。

這些是數據預處理的步驟,和前面的例子類似。

3.數據分段(訓練數據和測試數據)

訓練數據集樣本數:120,測試數據集樣本數:30。

註意:本演示中的案例在這壹步還沒有經過KFold-K fold的交叉驗證。當前步驟的主要內容是劃分數據。K-fold將生成k個互斥子集。KFold的工作就是幫我們劃分子集,然後我們就可以把子集扔進建模了。02分類算法——Logistic案例提到的K重交叉驗證的內容。

4、數據標準化和數據規範化的區別

思考:行數據和列數據哪個服從正態分布?顯然,列數據是特征,它們都像樣本壹樣服從正態分布。所以數據標準化和規範化的對象是列。

數據標準化:

StandardScaler(基於特征矩陣的列,將屬性值轉換為服從正態分布)

標準化就是根據特征矩陣的列來處理數據,通過求z-score將樣本的特征值轉化為相同的維數:z-score=(x-μ)/σ。Z-score是N(0,1)正態分布,即標準正態分布。

常用的還有基於正態分布的算法,比如回歸。

PS:以04回歸算法——最小二乘線性回歸為例,深入分析ss = StandardScaler()的數據標準化操作。

數據標準化:

MinMaxScaler(區間縮放,根據最大值和最小值將數據轉換為0,1的區間)

提高模型的收斂速度,提高模型精度。

常用於神經網絡。

規格化器(基於矩陣的行,將樣本向量轉換成單位向量)

其目的是在用點乘或其他核函數計算樣本向量的相似度時有壹個統壹的標準。

邏輯回歸常用於文本分類和聚類,也將用於有效防止過擬合。

原始數據各特征屬性的最小調整值:

[-1.19444444 -0.83333333 -0.18965517 -0.04166667]

對原始數據的每個特征屬性的數據值進行縮放:

[ 0.27777778 0.41666667 0.17241379 0.41666667]

5、特征選擇:

特征選擇:從現有特征中選擇對目標值影響最大的特征屬性。

特征選擇是壹個轉換過程。

常用方法:

{分類:F統計量,卡方系數,互信息mutual_info_classif。

{Continuous: Pearson相關系數f統計互信息mutual_info_classif

介紹了壹種特征選擇方法:k-平方檢驗選擇測試

補充知識:K平方檢驗

/item/% E5 % 8D % a 1% E6 % 96% B9 % E6 % A3 % 80% E9 % AA % 8C/2591853?fr =阿拉丁

Ch2 = SelectKBest(chi2,k=3)這壹步本質上是壹個轉換步驟。Transformer的概念參考了05回歸算法——多項式展開和流水線。

K-square檢驗的本質是判斷兩個特征之間的相關程度。

看下面兩個例子:

1,性別和能不能化妝有很強的相關性:

2.性別與外出是否戴口罩沒有很強的相關性;

但是我們很難用常識判斷大部分屬性與結果的相關性,所以可以先假設樣本的特征與目標無關。

假設性別和能不能化妝無關。所以我們假設化妝的男性比例為55%,不化妝的男性比例為45%。

根據實際情況計算:(列聯表)

(20-55) 2 /55 + (90-55) 2 /55 + (80-45) 2 /45 + (10-45) 2 /45

結果越大,性別和是否化妝的相關性越大。當數值較大時,我們可以說原來的假設是錯誤的,性別和是否化妝在現實情境中影響很大。(越大越拒絕)

如果結果更小,假設是正確的,我們稱之為不排斥原假設。

註意:K平方統計用於離散特征,但不用於連續特征。

對類別判斷影響最大的三個特征屬性分布是:

[真假真假真假]

[0 2 3]

這裏False的屬性是k-square檢驗得分最小的屬性。如果只取三個特征,則對應於False的特征將被丟棄。

6.模型構建、訓練和預測:

準確率:96.67%

得分:0.966666666667

類別:[0 1 2]

7、圖紙: