期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒(méi)有后顧之憂
來(lái)源:期刊VIP網(wǎng)所屬分類:軟件開(kāi)發(fā)時(shí)間:瀏覽:次
摘要:本文首先對(duì)近年來(lái)我國(guó)信用債違約風(fēng)險(xiǎn)事件進(jìn)行了統(tǒng)計(jì)分析,歸納出造成違約的四類風(fēng)險(xiǎn),利用隨機(jī)森林算法抽取了債券違約的重要特征;然后基于XGBoost算法建立了債券違約風(fēng)險(xiǎn)預(yù)測(cè)模型,利用主成分分析方法,再結(jié)合經(jīng)濟(jì)邏輯分析,提取出6個(gè)債券違約風(fēng)險(xiǎn)因子,并闡釋了違約風(fēng)險(xiǎn)因子的作用機(jī)制。實(shí)證結(jié)果表明,本文所構(gòu)建的違約預(yù)測(cè)模型對(duì)信用債違約的預(yù)測(cè)具有較高的準(zhǔn)確性。
關(guān)鍵詞:XGBoost算法 信用債 違約風(fēng)險(xiǎn) 預(yù)測(cè)
隨著我國(guó)債券市場(chǎng)不斷發(fā)展,債券違約等風(fēng)險(xiǎn)事件也有所增多。如何找出債券違約的潛在誘發(fā)因素,據(jù)此防范誘發(fā)系統(tǒng)性風(fēng)險(xiǎn)顯得至關(guān)重要。
關(guān)于債券違約的主要研究成果及本文研究思路
近年來(lái),國(guó)外學(xué)者在債券違約相關(guān)方面進(jìn)行了一定的理論與實(shí)證研究。Kay等(2014)用美國(guó)1866—2010年公司債券違約數(shù)據(jù)研究了債券市場(chǎng)危機(jī)的宏觀經(jīng)濟(jì)影響因素;Azizpour、Giesecke和Schwenkler(2018)研究了美國(guó)公司債違約聚集的原因,發(fā)現(xiàn)違約傳染是其中很重要的一個(gè)原因。隨著2014年我國(guó)債券剛性兌付的打破,國(guó)內(nèi)學(xué)者也開(kāi)始研究債券違約問(wèn)題。如曹萍(2015)基于經(jīng)典的KMV模型研究了地方政府債券違約風(fēng)險(xiǎn);黃小琳、朱松和陳關(guān)亭(2017)研究了債券違約對(duì)涉事信用評(píng)級(jí)機(jī)構(gòu)的影響。然而,上述研究重點(diǎn)關(guān)注債券違約的事后分析,缺乏前瞻性。
與此同時(shí),國(guó)內(nèi)外學(xué)者也運(yùn)用多種模型進(jìn)行信用債違約預(yù)測(cè)。如Ohlson(1980)首次提出邏輯回歸預(yù)測(cè)違約概率;Lombardoa(2018)采用“多觀測(cè)”和“多維”數(shù)據(jù)清理方法,將真實(shí)點(diǎn)對(duì)點(diǎn)交易數(shù)據(jù)輸入現(xiàn)代機(jī)器學(xué)習(xí)算法LightGBM中進(jìn)行計(jì)算,得到的結(jié)果對(duì)實(shí)際情況具有較好的擬合效果;胡蝶(2018)運(yùn)用隨機(jī)森林模型對(duì)債券違約進(jìn)行分析,找出了6個(gè)重要特征(即篩選出來(lái)的變量)。吳世農(nóng)和盧賢義(2001)選取21個(gè)財(cái)務(wù)指標(biāo)為變量,進(jìn)行判別分析、多元回歸分析、Logistic回歸分析,建立了三種財(cái)務(wù)困境模型;張雙長(zhǎng)和張旭(2017)研究了違約因素如何分解,發(fā)現(xiàn)按資金償付來(lái)源劃分,可分為內(nèi)源性資金、外源性資金、協(xié)調(diào)性資金,債券能否按期兌付受經(jīng)營(yíng)狀況、融資環(huán)境及非經(jīng)濟(jì)因子共同影響。
現(xiàn)有研究對(duì)我國(guó)債券違約預(yù)測(cè)的成果不多,主要是因?yàn)閭`約事件近幾年才相對(duì)較多出現(xiàn),現(xiàn)有研究所采用的預(yù)測(cè)方法也相對(duì)簡(jiǎn)單。
本文將按以下結(jié)構(gòu)進(jìn)行研究。一是簡(jiǎn)述債券違約現(xiàn)狀,并對(duì)造成債券違約的風(fēng)險(xiǎn)源進(jìn)行劃分,基于這些風(fēng)險(xiǎn)源收集原始數(shù)據(jù)。二是介紹研究過(guò)程中將應(yīng)用到的隨機(jī)森林算法和XGBoost+LR1模型。三是報(bào)告實(shí)證過(guò)程及結(jié)果。實(shí)證過(guò)程為先用隨機(jī)森林算法篩選出重要的變量,對(duì)其中的離散型變量運(yùn)用頻率表進(jìn)行分析,對(duì)其中的連續(xù)型變量進(jìn)行主成分分析。繼而將這些重要變量輸入到XGBoost算法中完成特征變換,再將特征變換后得到的新特征輸入到LR模型中進(jìn)行預(yù)測(cè)。然后對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)(見(jiàn)圖1)。四是得出結(jié)論、提出建議。
我國(guó)信用債違約現(xiàn)狀與風(fēng)險(xiǎn)因素
(一)債券違約現(xiàn)狀
根據(jù)數(shù)據(jù)庫(kù)Wind的劃分標(biāo)準(zhǔn),本文所指違約事件包括信用債的本息展期、交叉違約、擔(dān)保違約、技術(shù)性違約、提前到期未兌付、未按時(shí)兌付本金等情況。自2014年以來(lái)的統(tǒng)計(jì)數(shù)據(jù)顯示,2018年違約事件相對(duì)較多(見(jiàn)圖2)。
筆者認(rèn)為,受融資環(huán)境惡化、中美貿(mào)易戰(zhàn)及金融監(jiān)管趨嚴(yán)等因素疊加影響,國(guó)內(nèi)外經(jīng)濟(jì)環(huán)境日益趨緊,融資渠道收窄,因此2018年信用債違約風(fēng)險(xiǎn)集中顯現(xiàn)。
(二)債券違約風(fēng)險(xiǎn)因素分析
本文將從內(nèi)外兩個(gè)方面考慮債券違約原因。其中,內(nèi)部原因主要與企業(yè)自身經(jīng)營(yíng)相關(guān),包括公司治理、相關(guān)方支持、經(jīng)營(yíng)多元化等;外部原因與融資環(huán)境和政策相關(guān),主要與公司增發(fā)債券的難易程度及公司再融資周轉(zhuǎn)狀況相關(guān)。
根據(jù)光大證券關(guān)于信用債違約的研究報(bào)告(2018),發(fā)行主體經(jīng)營(yíng)狀況表現(xiàn)不佳是債券違約的主要誘因,即在2018年之前,內(nèi)因?qū)π庞脗`約事件的解釋力度較強(qiáng)。因此本文重點(diǎn)考慮違約的內(nèi)部原因,梳理出四類主要內(nèi)部風(fēng)險(xiǎn)因素:民企治理風(fēng)險(xiǎn)、國(guó)企治理風(fēng)險(xiǎn)、相關(guān)方支持風(fēng)險(xiǎn)和公司經(jīng)營(yíng)風(fēng)險(xiǎn)。
表1中的風(fēng)險(xiǎn)因素均會(huì)對(duì)公司內(nèi)部經(jīng)營(yíng)狀況及財(cái)務(wù)狀況產(chǎn)生影響,并進(jìn)而影響外部因素,如銀行授信額度、第三方擔(dān)保額度,從而對(duì)發(fā)行主體外部籌資能力產(chǎn)生影響。同時(shí),外部融資環(huán)境等因素也會(huì)對(duì)公司再融資難度產(chǎn)生影響,表現(xiàn)為銀根縮緊時(shí)銀行惜貸,進(jìn)而對(duì)債券本息兌付產(chǎn)生影響。由此可知,導(dǎo)致債券違約的因素環(huán)環(huán)相扣。
算法與模型介紹
(一)利用隨機(jī)森林算法進(jìn)行降維
原始數(shù)據(jù)所含變量多、維度高,為了去除冗余信息、提高效率,本文采用隨機(jī)森林算法對(duì)數(shù)據(jù)集進(jìn)行降維,過(guò)濾掉那些對(duì)債券違約幾乎沒(méi)有影響的變量。
隨機(jī)森林算法是一種基于Bagging算法的決策樹(shù)集成學(xué)習(xí)算法,該算法基于信息增益2計(jì)算變量重要性程度,并進(jìn)行排序,可以從原始特征中篩選出重要性排名靠前的變量。
(二)利用XGBoost算法進(jìn)行特征變換
特征變換即通過(guò)線性或非線性的方式,將原變量變換成更加合適的新變量,變換后得到的新變量稱為特征。特征變換的目的在于從原始變量中獲取潛在的獨(dú)立成分,從而提取隱含信息。
本文利用XGBoost算法進(jìn)行特征變換。該算法是一種基于Boosting算法的回歸決策樹(shù)集成學(xué)習(xí)算法,其預(yù)測(cè)精度高、穩(wěn)定性好,對(duì)數(shù)據(jù)中的噪聲、多重共線性等問(wèn)題敏感度較低。該算法在目標(biāo)函數(shù)中引入正則化(regularization)項(xiàng),有著較好的泛化能力與擬合能力。通常,運(yùn)用XGBoost算法進(jìn)行特征變換的步驟如下。
第一步,利用分布向前算法訓(xùn)練XGBoost。
先構(gòu)造 函數(shù)列,其中:
通過(guò)優(yōu)化目標(biāo)函數(shù)來(lái)求解參數(shù) :
其中, 代表單棵決策樹(shù)。
在目標(biāo)函數(shù) 中, 為一常數(shù)懲罰項(xiàng)。 為損失函數(shù),代表預(yù)測(cè)的精確度。 為正則化項(xiàng),式中前一項(xiàng)反映了樹(shù)結(jié)構(gòu)的復(fù)雜度, 為樹(shù)結(jié)點(diǎn)數(shù);后一項(xiàng)反映了權(quán)重整體的平滑程度, 為結(jié)點(diǎn)權(quán)重;J為常數(shù), 、 為參數(shù),體現(xiàn)了兩項(xiàng)間的權(quán)衡。
需要通過(guò)反復(fù)迭代構(gòu)造函數(shù) ,訓(xùn)練參數(shù) ,直至訓(xùn)練好 。
第二步,將數(shù)據(jù)集代入訓(xùn)練好的模型中。對(duì)每一個(gè)樣本 ,XGBoost算法可以生成一系列葉子結(jié)點(diǎn)的值,以這一列值(向量)作為特征變換后的數(shù)據(jù)。如此得到特征變換后的數(shù)據(jù)集。
(三)利用XGBoost+LR模型進(jìn)行預(yù)測(cè)
將特征變換后的數(shù)據(jù)集代入LR模型中,得到最終預(yù)測(cè)結(jié)果。
LR數(shù)學(xué)模型為:
其中,w、x分別表示系數(shù)和變量,P(Y=1︱x)表示違約率。
XGBoost+LR嵌套結(jié)構(gòu)如圖3所示。將原數(shù)據(jù)輸入到XGBoost算法,通過(guò)特征變換后產(chǎn)生一系列新的變量 ,即特征變換后的數(shù)據(jù)。再將這一系列新的變量輸入到LR中,完成最終的預(yù)測(cè)。
以上操作過(guò)程相當(dāng)于對(duì)原信息進(jìn)行分解再組合。這既彌補(bǔ)了XGBoost這類提升樹(shù)算法低估類別型變量重要性的弱點(diǎn),也實(shí)現(xiàn)了自動(dòng)提取特征的功能。
實(shí)證研究過(guò)程
(一)數(shù)據(jù)描述與預(yù)處理
根據(jù)風(fēng)險(xiǎn)因素分析結(jié)果,本文篩選出43個(gè)或有潛在影響變量,部分變量如表2所示。同時(shí),選擇在2013年到2018年10月22日期間到期的債券,共25907個(gè)樣本,其中90個(gè)樣本違約,占總樣本的比例為0.347%。每個(gè)樣本均有43個(gè)變量。
為緩解樣本中違約與非違約數(shù)據(jù)極度不平衡的問(wèn)題,對(duì)原始數(shù)據(jù)集中非違約債券進(jìn)行欠采樣,對(duì)違約債券進(jìn)行重復(fù)采樣,并按均值填補(bǔ)數(shù)值型變量中的缺失值,按原概率填補(bǔ)類別型變量中的缺失值,對(duì)類別型變量進(jìn)行one-hot編碼。
(二)利用隨機(jī)森林算法抽取重要特征,并提取債券違約因子
利用隨機(jī)森林算法計(jì)算各變量的重要性得分。以0.0075為標(biāo)準(zhǔn),去掉低于該標(biāo)準(zhǔn)的變量——這意味著該變量對(duì)判斷債券是否違約所能提供的信息甚微,將其余變量選入重要特征集中。將隨機(jī)森林算法輸出的重要特征集分成兩部分——數(shù)值型和類別型,分別進(jìn)行債券違約因子挖掘。
1.對(duì)數(shù)值型特征的處理
對(duì)數(shù)值型特征進(jìn)行主成分分析,生成碎石圖(見(jiàn)圖4)及主成分結(jié)構(gòu)表(見(jiàn)表2)。圖表數(shù)據(jù)顯示,所選取的前4個(gè)主成分加總幾乎能夠解釋100%的信息。
主成分結(jié)構(gòu)表顯示了變量對(duì)于主要因子的解釋力度。表2顯示,第一主成分受應(yīng)收賬款周轉(zhuǎn)天數(shù)和營(yíng)業(yè)周期影響較大。應(yīng)收賬款周轉(zhuǎn)天數(shù)和營(yíng)業(yè)周期體現(xiàn)了公司獲取現(xiàn)金流的能力,因此本文將第一主成分命名為“周轉(zhuǎn)能力因子”。第二、第三主成分相結(jié)合,衡量公司的籌資能力、投資盈利能力,因此本文將第二、第三主成分分別命名為“籌資活動(dòng)現(xiàn)金流量因子”與“投資活動(dòng)現(xiàn)金流量因子”。第四主成分受經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量影響大,因此將其命名為“經(jīng)營(yíng)活動(dòng)現(xiàn)金流量因子”。
整體來(lái)看,可以認(rèn)為在公司層面上,現(xiàn)金周轉(zhuǎn)能力、投資盈利能力、籌資能力、公司主營(yíng)業(yè)務(wù)盈利能力這幾項(xiàng),都與債券是否違約有很強(qiáng)的關(guān)系,其分別對(duì)應(yīng)周轉(zhuǎn)能力因子、投資活動(dòng)現(xiàn)金流量因子、籌資活動(dòng)現(xiàn)金流量因子和經(jīng)營(yíng)活動(dòng)現(xiàn)金流量因子。
2.對(duì)類別型特征的處理
關(guān)于類別型特征,主要考察6個(gè)特征重要性得分大于0.0075的變量,如圖5所示。繼而通過(guò)頻數(shù)統(tǒng)計(jì),結(jié)合其經(jīng)濟(jì)金融邏輯進(jìn)行分析。
圖5 特征重要性得分
(編輯注:橫坐標(biāo)下的文字“債券年份”“評(píng)級(jí)機(jī)構(gòu)”“大股東類型”“是否含權(quán)債券”分別改為“債券存續(xù)期間”“債項(xiàng)評(píng)級(jí)”“第一大股東類型”“是否為含權(quán)債券”)
從圖5可見(jiàn),省份、債券存續(xù)期間、所屬行業(yè)這三個(gè)特征對(duì)債券違約的影響較大。其背后邏輯在于省份、債券存續(xù)期間、所屬行業(yè)等因素體現(xiàn)了宏觀經(jīng)濟(jì)形勢(shì)與行業(yè)景氣度,這些變量作為外部因素或宏觀因素,直接影響公司的經(jīng)營(yíng)情況。
債項(xiàng)評(píng)級(jí)也有著重要的影響。總體上而言,機(jī)構(gòu)對(duì)債券的評(píng)級(jí)能夠較為有效地區(qū)分出違約風(fēng)險(xiǎn)較大的債券。
從Wind的中債債券一級(jí)分類、第一大股東類型來(lái)看,這兩項(xiàng)對(duì)債券是否違約也有顯著影響,具體如表3、表4所示。從違約概率來(lái)看,第一大股東為外資企業(yè)、個(gè)人的債券出現(xiàn)了更多的違約案例,或許是因?yàn)檫@兩類債券在政府救助方面得到的支持較少。