靜網PWA視頻評論

基於XGBoost的信用風險分析的研究

2023年10月29日

- txt下載

趙天傲 鄭山紅 李萬龍 劉凱
摘 要:在大數據時代如何利用數據挖掘處理海量數據從而對信用風險進行預測分析成為了當下非常重要的問題,本文運用XGBoost算法建立信用風險分析模型,運用柵格搜索等方法調優XGBoost參數,基於以AUC、準確率、ROC曲線等評價指標,與決策樹、GBDT、支持向量機等模型進行對比分析,基於德國信用數據集驗證了該模型的有效性及高效性。
關鍵詞:信用風險分析;XGBoost;數據挖掘;柵格搜索
中圖分類號:TP39 文獻標識碼:A
1 引言(Introduction)
銀行信用風險的大小和質量決定著銀行盈利水平的高低,對銀行穩定、長遠的發展有著至關重要的影響[1],銀行使用數據挖掘方法建立目的明確、層次分明的信用風險分析模型有著重要價值。
早期的信用風險研究尋求數學解決方法,Z分數模型等都是比較具有代表性的方法[2,3]。隨著銀行信貸的大規模增長及客戶信用信息的迅速變化,形成了複雜的數據資源,信用風險的形式與日俱增。因此,Hashemi and Blanc、Guilherme Barreto Fernandes、謝宇等分別採用神經網絡和粗糙集成分集合[4]、logistic模型作為解釋變量[5]、改進BP人工神經網絡模型[6]對銀行信用風險進行預測得到了較好改進。但以上的方法在預測精度和準確性上還有待提高。
本文引入XGBoost(eXtreme Gradient Boosting)[7]算法建立信用風險分析優化模型,基於UCI上德國信用數據集與決策樹、GBDT、支持向量機等模型進行對比分析,驗證了XGBoost模型應用於信用風險分析具有更好的性能。
2 XGBoost介紹(Introduction to XGBoost)
XGBoost由陳天奇博士提出的boosting型樹類算法,能進行多線程並行計算,通過一次次疊代生成一代代新的樹,實際上是把很多分類性能較低的弱學習器組合成一個準確率高的強學習器,每個決策樹可能沒有良好的分類效果,但是多個分類的結果肯定會得到更準確的預測。XGBoost加入正則項到目標函數尋求最優解,平衡目標函數的下降和模型的複雜度,避免出現過擬合現象,具有運行速度快、分類效果好、支持自定義損失函數等優點。我們希望建立K棵使樹群的預測值儘量真實且泛化能力強的回歸樹。
XGBoost最根本就是由決策樹集成而來,我們把樹模型寫成:
式(1)中,,其中F對應所有回歸樹的集合,xi表示第i個特徵向量,每個f是樹空間F的一棵樹,每一棵樹fk對應一個獨立的葉子權重w和樹結構q。此時需要引入目標函數:
L部分為誤差函數,表示模型擬合數據的程度,Ω表示正則項,是所有正則化項累加和,用來處理複雜模型,對複雜模型進行簡單化處理。對於模型誤差部分用additive training訓練,通過對平方誤差泰勒展開二次項,帶入正則化項,得到最終目標函數為:
其中的和是XGBoost自定義的,顯然、越大,表示希望獲得更簡單的樹,這樣處理能很清楚的理解這個目標,Obj分數越小表示生成的樹的結構越好。至此樹的類型已經能夠確定,接下來需要進行樹的分裂,採用貪心生長樹的方法,遍歷所有特徵,從而找到最優的特徵分裂,到達一定深度或不能再分裂時停止,基於目標函數值比較分裂前後的最小目標函數值,增益最大的點為最優點,對應特徵為最優特徵。
3 基於XGBoost的預測方法(The prediction method
based on XGBoost)
3.1 數據預處理
本文使用的數據來自UCI上公開的德國信用數據集,包括24個變量。獲得該數據集後,首先標準化處理數據,清理數據集中的異常值,糾正錯誤數據,通過平滑噪聲、數據規約等方式使得數據更加適用於本模型,同時添加ID屬性,對每個屬性添加屬性名並做規範化。
3.2 XGBoost的參數優化
本文對於XGBoost涉及優化的參數有:max_depth、min_child_weight、gamma、seed、objective。
max_depth表示樹的最大深度,能夠避免過擬合,限制樹分裂的程度,值越大,模型越容易產生局部最優情況,典型值3-10;min_child_weight確定最小葉節點樣本權重和,值較大能夠避免局部特殊樣本的學習,但是值過高會導致欠擬合。由於以上三種參數值都為整數值,且值的範圍較小,所以運用柵格搜索法進行調整尋求最優參數值,柵格搜索法是一種窮舉搜索方法,它指定參數值,排列每個參數的可能值,列出所有可能的組合,並生成「網格」,然後訓練每個組合,進行交叉驗證評估性能。
gamma指所需的最小損失函數下降值,滿足該值節點才會分裂,值越大,算法越保守;seed是隨機種子個數,用於調整參數、顯示隨機數據結果。因為兩組參數的值為隨機值或者連續值,所以隨機選取幾個合理的數值分別進行調整,選取最優的數值作為參數值。
objective定義需要最小化的損失函數,常用值有:二分類邏輯回歸—binary:logistic;多分類器—multi:softmax。本文為二分類數據,根據經驗值來確定參數。
3.3 XGBoost模型描述
XGBoost最根本的就是希望建立K棵回歸樹,使得準確率高、泛化性好、預測誤差儘量小,葉子節點儘量少的目標函數才能訓練出更好的模型,利用貪心策略及二次最優化確定最優節點及最小的損失函數,以此為依據進行樹分裂,得到小樹苗,接下來按照上述方式繼續分裂,並繼續形成新樹,根據之前的預測每次都會建立最優的樹,當達到max_depth時停止疊代;此時我們得到了最基本的模型,之後使用柵格搜索等方法對幾種參數進行優化,從而分析數據。
優化後的XGBoost模型如下,模型圖如圖1所示:
(1)初始化回歸樹,損失函數集合,此時模型為常數值
(2)While k on 1,2,3,...,T do
(3)do
(4)計算損失函數L的最小值m
(5)把m加到中
(6)While t on 1,2,3,...,T
(7)中選取m最小時t對應的開始建樹
(8)採用貪心法尋找最優分裂節點疊代生成新的樹
(9)If deep>max deep break
(10)得到最終模型
(11)利用Raster search等方法調優參數
(12)優化模型分析數據
4 實驗分析(Experimental analysis)
本文所使用的德國信用數據集如表1所示。
使用python語言和Pycharm軟體來實現模型,用到了pandas、itertools、numpy等包,分別使用決策樹、GBDT、SVM及XGBoost進行分析比較,採用K折交叉驗證的方式(5折、10折交叉驗證)分別處理數據集,對比幾種算法的精密度Precision(Precision=TP/(TP+FP))、召回率Recall(Recall=TP/(TP+FN))、準確度AUC值、F1值(F1 Score=P*R/2(P+R)、Accuracy(Accuracy=(TP+TN)/(TP+FP+TN+FN))、真假陽性率False Positive Rate—True Positive Rate折線圖;P和R分別為Precisionl和Recal)等指標,其中TP為真陽性,FP為假陽性,TN為真陰性,FN為假陰性。
從表2和表3可以看出,XGBoost比決策樹、GBDT、SVM在各項指標上的值均有不同程度的提高;同時,優化後的XGBoost在各項指標上都有所提升;優化後的XGBoost的平均Accuracy和AUC值比決策樹、GBDT、支持向量機分別高出4.19%、3.3%、3.34%;優化後的XGBoost平均F1值比決策樹、GBDT、支持向量機分別高出7.5%、3.5%、5%;相比較其他幾種算法,準確性、召回率均有提高。
圖2為XGBoost、決策樹、GBDT、SVM的ROC曲線圖(受試者工作特徵曲線)。曲線下方的面積即為AUC,當AUC越接近1時,分類器越完美;由圖可知,XGBoost的ROC曲線最優,這說明XGBoost的分類效果最好。
5 結論(Couclusion)
本文研究基於XGBoost算法對信用風險進行分析,以德國信用公開數據集作為數據源,採用K折交叉驗證法,通過柵格搜索、經驗值調參等方法對參數進行調整,基於AUC、準確率、ROC曲線等評價指標,與決策樹、GBDT、支持向量機等模型進行對比分析。實驗表明調優後的XGBoost算法應用於數據集上比調參前在各方面均有明顯調整,同時XGBoost算法相對於常用的決策樹、GBDT和支持向量機算法,無論是準確性還是分類效果等方向都有更加明顯的優勢,驗證了XGBoost模型的有效性和精確度。
參考文獻(References)
[1] Cheng-Lung Huang,Mu-Chen Chen,Chieh-Jen Wang.Credit scoring with a data mining approach based on support vector machines[J].Expert Systems with Applications,2007,33(4):847-856.
[2] Edward I Altman,Anthony Saunders.Credit risk measurement: Developments over the last 20 years[J].Journal of Banking and Finance,1997,21(11):1721-1742.
[3] Michel Crouhy,Dan Galai,Robert Mark.A comparative analysis of current credit risk models[J].Journal of Banking and Finance,2000,24(1):59-117.
[4] R.R.Hashemi,L.A.Le Blanc,C.T.Rucks,A.Rajaratnam.A hybrid intelligent system for predicting bank holding structures[J].European Journal of Operational Research,1998,109(2):390-402.
[5] Guilherme Barreto Fernandes,Rinaldo Artes.Spatial dependence in credit risk and its improvement in credit scoring[J].European Journal of Operational Research,2016,249(2):517-524.
[6] 謝宇.基於人工神經網絡的商業銀行信貸風險預警研究[D].暨南大學,2010.
[7] Chen T,Guestrin C.XGBoost:A Scalable Tree Boosting System[J].KDD '16 Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2016:785-794.
作者簡介:
趙天傲(1993-),男,碩士生.研究領域:數據挖掘.
鄭山紅(1970-),女,博士,教授.研究領域:軟體工程.
李萬龍(1963-),男,教授.研究領域:軟體工程.
劉 凱(1991-),女,碩士生.研究領域:人工智慧.

收藏

相關推薦

清純唯美圖片大全

字典網 - 試題庫 - 元問答 - 简体 - 頂部

Copyright © cnj8 All Rights Reserved.