Minitab Statistical Software 中的預(yù)測分析模塊在所有行業(yè)中都是非常寶貴的資產(chǎn)。業(yè)務(wù)價(jià)值可以通過預(yù)測措施產(chǎn)生,例如客戶流失、患者住院時(shí)間、成本、風(fēng)險(xiǎn)、利潤和許多其他因素。


在本文中,我們將研究銀行業(yè)中的一個(gè)應(yīng)用程序。對于銀行來說,向錯(cuò)誤的人提供抵押貸款可能是一個(gè)損失數(shù)十萬美元的錯(cuò)誤。鑒于這些風(fēng)險(xiǎn),銀行在決定批準(zhǔn)或拒絕他們的抵押貸款申請之前了解他們的客戶并對其做出預(yù)測是極其重要的。讓我們看看 Minitab 的預(yù)測分析模塊如何通過準(zhǔn)確預(yù)測客戶未來可能違約的情況來最大限度地減少抵押貸款違約的數(shù)量。


了解貸款數(shù)據(jù)

以下是分析中使用的觀察數(shù)據(jù)的一部分。對以前的客戶抵押貸款有1,645 項(xiàng)觀察結(jié)果。C1 列顯示響應(yīng)變量或目標(biāo),如果該人拖欠抵押貸款,則是,如果沒有,則否。 其他 9 列包含我們將評估為潛在預(yù)測因子的特征。


抵押貸款違約的現(xiàn)狀

下面的餅圖幫助我們更好地了解借款人的抵押貸款違約率。 我們看到 10% 的抵押貸款被拖欠。降低這個(gè)百分比可以大大增加利潤。


比較預(yù)測模型

為了應(yīng)對這一挑戰(zhàn),我們使用 Minitab 預(yù)測分析模塊。


由于響應(yīng)為是或否,我們將使用分類模型。如果對連續(xù)響應(yīng)感興趣,將使用基于樹的回歸模型。預(yù)測分析模塊包含三種分類建模類型:


1. CART? 分類


2. 隨機(jī)森林分類


3. TreeNet 分類


對于分類,評估模型擬合優(yōu)度的主要指標(biāo)之一是 ROC 曲線下的面積。該指標(biāo)越接近 1 越好。模塊中的三個(gè)建模引擎中的每一個(gè)都被利用,并比較了各自的 ROC 曲線下面積值。


TreeNet 分類產(chǎn)生的 ROC 曲線下面積為 0.9695。對于來自其他兩個(gè)建模引擎的模型,該值優(yōu)于 ROC 曲線下的區(qū)域,這意味著生成的 TreeNet 分類模型是抵押貸款違約的最佳預(yù)測模型。 TreeNet Gradient Boosting 是 Minitab 中最靈活、屢獲殊榮且功能最強(qiáng)大的機(jī)器學(xué)習(xí)工具,它能夠始終如一地生成極其準(zhǔn)確的模型。在三個(gè)建模引擎中,TreeNet 通常傾向于產(chǎn)生最好的結(jié)果。


可視化重要變量

我們首先將相對變量重要性圖作為我們模型輸出的一部分。相對變量重要性值的范圍從 0% 到 100%,最重要的變量始終為 100%。 債務(wù)對信用是預(yù)測抵押貸款違約最重要的變量,其次是債務(wù)對收入,是第二重要的變量。九個(gè)特征中的八個(gè)在某些方面對模型很重要。


預(yù)測違約概率

既然我們在 Minitab 中已有模型,我們可以進(jìn)行預(yù)測。我們可以將單個(gè)值輸入 Minitab 以進(jìn)行預(yù)測,如果一次進(jìn)行大量預(yù)測很有價(jià)值,我們可以將值列輸入到 Minitab 中。


以下為申請 485,000 美元抵押貸款的個(gè)人數(shù)據(jù):


? 43 歲


? 81,000 美元的收入


? 9 個(gè)信用來源


? 0.68 的債務(wù)信貸比率


? 0.73 的債務(wù)收入比


? 住宅抵押貸款


? 來自西北地區(qū)


? 無家屬


我們將這些值輸入到預(yù)測模型中以獲得單個(gè)默認(rèn)值的概率,如下面的預(yù)測輸出所示。此人拖欠抵押貸款的可能性超過 97%。一旦做出預(yù)測,那么您,擁有行業(yè)知識的人,就可以解釋預(yù)測并采取行動(dòng)。我認(rèn)為違約概率為 97% 的個(gè)人很可能會被拒絕抵押貸款。


在所有預(yù)測變量的值都可用時(shí)進(jìn)行預(yù)測總是最好的情況,但實(shí)際上很多時(shí)候預(yù)測變量的某些值丟失。Minitab 中的預(yù)測分析使我們在發(fā)生這種情況時(shí)仍然可以輕松地進(jìn)行預(yù)測。在下面的示例中,有幾個(gè)缺失值。即使有缺失值,我們?nèi)匀豢梢灶A(yù)測該客戶拖欠抵押貸款的概率。


我們還有另一個(gè)潛在客戶申請了 375,000 美元的抵押貸款。我們沒有關(guān)于該申請人的收入、債務(wù)與收入比率、地區(qū)和受撫養(yǎng)人數(shù)量的數(shù)據(jù)。但我們確實(shí)有以下信息:


? 49 歲


? 4 個(gè)信用來源


? 0.31 的債務(wù)信貸比率


? 住宅抵押貸款


盡管有缺失值,我們?nèi)匀荒軌蜃龀鲱A(yù)測,并看到該客戶拖欠抵押貸款的可能性不到 1%,如下所示。


根據(jù)分析,此人似乎是抵押貸款的理想人選,因?yàn)楦鶕?jù)預(yù)測模型,他們違約的可能性不到 1%。這只是 Minitab 基于樹的機(jī)器學(xué)習(xí)算法如何幫助您解決復(fù)雜問題并獲得寶貴見解的一個(gè)示例。


了解如何在您的行業(yè)中應(yīng)用 Minitab 預(yù)測分析模塊的強(qiáng)大功能