金融视线

基于生存分析的商业银行信用风险预警研究

2026-03-27 15:47 来源：www.xdsyzzs.com 发布：现代商业阅读：次

雷浩

（国家开放大学，北京 100039）

摘要：本文基于2012-2020年全国151家商业银行数据，从宏观经济、盈利能力、规模增速、资本结构以及风险专项五个维度选取指标，将随机生存森林算法应用于商业银行信用风险预警工作中，并对可能的影响因素进行重要性评分及排序。实证结果显示，商业银行的信用风险状况与银行类型紧密相关，其次是宏观经济环境、银行的盈利能力和拨备计提水平；与基于不同变量选择方法的时间相依 Cox回归模型比较发现，随机生存森林的预测效果最好。

关键词：商业银行；信用风险；生存分析

一、引言

金融安全是国家安全的重要组成部分。随着全球经济增速放缓，国际环境日趋复杂，银行业整体资产质量承压，积聚了一定信用风险。自2017年起，金融行业进入“强监管”时代，银行业处置不良贷款力度大幅提升。目前，我国银行业风险整体收敛，信贷质量基本可控，但城商行、农商行等中小银行的不良贷款率依然较高且存在反复性。因此，建立完备的商业银行信用风险预警机制，对潜在风险早预测、早防范，在当前阶段显得尤为重要。

从二十世纪中叶起，信用风险计量技术经历了长足发展。早期的信用风险预警模型以线性判别为主，Altman（1968）^[1]率先在信用评级中引入多变量分析，构建了Z-score模型和在此基础上改进的ZETA模型。90年代以后，银行内部模型逐步兴起，VaR模型、违约概率模型的提出开启了风险度量技术的新阶段。1992年，Narain创新性地利用乘积限法研究银行贷款客户的违约情况^[2]，自此生存分析理论的应用拓展至信用风险评估领域。Stepanova、Thomas（2002）^[3]以及Noh等（2004）^[4]分别构建Cox模型预测个人借款者的违约概率，对影响信用风险的因素进行动态跟踪。宋雪枫等（2006）^[5]在杜邦分析法的基础上，构建生存分析模型探究我国上市公司的信用风险状况。贾慧（2019）^[6]针对中小企业构建Lasso-Cox模型，利用企业T-1期的数据进行债务风险预警。Djeundje、Crook（2019）^[7]为研究信用卡用户的动态违约水平，将时间依赖系数引入生存分析模型中，而后又将广义加性模型与生存分析结合^[8]。Frydman、Matuszyk（2020）^[9]将随机生存森林模型运用于违约与提前还款两种竞争风险同时存在的金融数据集中。李鸿禧等（2020）^[10]以中小企业为样本，同时考虑财务因素与非财务因素的影响，构建了基于时间相依 Cox 回归的动态预警模型。肖叶宇等（2021）^[11]以制造业上市公司为样本，将随机生存森林模型引入企业财务危机研究中。李淑锦等（2021）^[12]运用Lasso-Cox模型评估个人借款者的信用风险，发现纳入宏观变量的模型预测精度显著提升。

本文在传统生存分析理论的基础上，利用机器学习算法能够高效处理多维特征的优势建模，并对不同模型的预测性能进行比较，具有一定学术价值。同时，从银行自身数据出发，构建了较为全面的风险预警体系，为识别和控制风险提供了全新视角，具有一定的现实意义。

二、理论机制

生存分析起源于人口寿命表，早期研究主要集中在参数方法上。与传统回归分析不同的是，生存分析能够充分利用删失数据所提供的不完全信息对生存时间的分布特征进行描述。20世纪六七十年代，为了满足临床医学试验的需要，生存分析开始转向非参数领域。1972年，英国生物统计学家D.R.Cox提出著名的半参数回归模型——Cox比例风险模型^[13]，该模型以比例风险（Proportional hazards，PH）假定为前提，既保留了一定的可解释性，又能得到对违约概率更为稳健的估计。由此，Cox模型凭借其独特的优势，从最初的生物医学研究，逐渐渗透到经济学、金融学领域。

2008年，Ishwaran等在传统生存分析方法的基础上，融入随机森林算法的核心思想，构建了随机生存森林模型^[14]。作为一种集成树方法，随机生存森林泛化能力强，并且无需满足特定的前提性假设。当样本量足够大时，随机生存森林训练集中大约36.8%的样本不会被采样，可直接作为袋外(OOB)数据。在选取样本特征作为分裂节点的过程中，通过高维变量筛选，可以有效评估各变量的重要性，常用的筛选方法包括VIMP法、最小深度法等^[15]。

三、研究设计

（一）数据来源

本文以我国151家商业银行为初始样本，包括6家大型国有商业银行、12家股份制商业银行和133家城市商业银行，数据来源于银监会年报、wind数据库和《中国统计年鉴》。美国“次贷危机”从2006年开始显现，2008年危机达到顶峰，直至2012年，房利美、房贷美才逐步恢复元气，全球经济基本复苏。2020年以来，受新冠肺炎疫情影响，国内中小银行经营难度加大，城商行、农商行开启了新一轮兼并重组的大潮。因此，考虑到极端事件的影响及数据缺失情况，本文选择2012年至2020年作为观察周期。

（二）变量说明

1.因变量

不良贷款是商业银行信用风险的直接体现，多数银行将不良贷款率警戒线设为2%，即不良贷款率等于或超过2%，就可能存在安全隐患。因此，本文将不良贷款率达到2%作为感兴趣的事件，若某银行在观测结束时不良贷款率仍未达到阈值便视为删失个体，其生存时间为右删失数据，若超过阈值则为失效个体，其生存时间为完全数据。

2.自变量

为了更全面地刻画风险，本文从内外部两个角度选取预警指标，综合考虑信用风险可能的影响因素以及指标可量化、数据可得性等实际情况后，选取了2个宏观经济指标和18个财务指标。由于量纲差异可能会影响后续的建模及指标筛选，本文基于比率指标进行预测。此外，由于样本数据中包含3个银行类别，所以引入2个虚拟变量，将“大型国有商业银行”作为基准类别。

（1）外部预警指标选择。外部环境通过多渠道对银行信贷业务产生影响，本文选择GDP增速和按CPI计通胀年增率衡量宏观经济运行状况。GDP增速是反映经济实力和市场规模的综合性指标，而通胀率主要影响企业及个人还款者的实际购买力。

（2）内部预警指标选择。本文从银行类型、盈利能力、规模增速、资本结构和风险专项指标等方面出发，共选取20个变量进行建模，指标体系详见表1。

表1 商业银行信用风险预警指标体系

部分商业银行信息披露不完整，若缺失指标超过4个，则予以剔除，最终得到样本142个。前人针对信用风险问题构建的生存分析模型大多采用固定协变量的形式，但宏观经济因素、财务指标均为动态变量，若仅用一期的截面数据进行分析，很难真实反映出商业银行陷入信用危机的过程。为充分利用历史信息，本文选取2012年至2020年间的986条面板数据，采用K-近邻算法对缺失数据进行补全。

四、实证结果分析

（一）描述性统计

首先，对样本的基本信息进行统计，如表2所示。初始样本中共有70个删失个体，72家商业银行在观察期内发生感兴趣事件。此外，不同类型的商业银行生存状况呈现出明显的异质性，城市商业银行中不良贷款率超过阈值的比例达到56%，明显高于其他两类银行。

表2 样本的描述性统计

本文采用乘积极限法计算商业银行的生存率，并以生存时间为横坐标，生存率为纵坐标，绘制K-M生存曲线。

图1 商业银行生存曲线图

如图1所示，在观察期内，商业银行生存率由100%逐渐下降至49%左右。2018年，发生感兴趣事件的银行数量明显增多。事实上，从2012年起，我国商业银行不良贷款余额呈上升趋势，不良贷款率由最初的0.95%上升至2018 年的1.89%，达到十年来的最高水平，而后随着我国宏观经济呈现回升向好态势，不良资产处置力度不断加大，银行信贷资产质量有显著改善。

（二）随机生存森林

1.模型构建

本文按照7：3的比例将原始数据分为训练集与测试集，训练集包含690个样本，测试集包含296个样本，总变量数为22。随机生存森林通过集成生存树来提高预测精度与稳定性，训练过程中采用自助法随机抽取样本用于OOB估计，图2展示了不同生存树数量下OOB样本的预测错误率。

图2 不同生存树数量的模型预测错误率

由图可知，随着生存树数量的增加，随机生存森林的预测错误率明显降低，最终曲线趋于平稳。通过比较各参数选择下的连续分级概率评分（CRPS）和预测误差（Requested performance error），最终的模型参数配置如下：生成1000棵生存树，每棵树的终端节点最小规模设为10，每次分裂尝试10个随机分割点，每个节点随机尝试5个变量。随机生存森林在训练集和测试集上的输出结果见表3，模型在测试集上的预测准确率达到93.95%，展现出良好的预测性能。

表3 随机生存森林模型的预测结果

2.变量筛选

在此基础上，分别计算变量的最小深度和VIMP，结果见下表。两种度量方法下重要性排名前六的变量保持一致，都包含宏观经济因素、商业银行类型、盈利能力以及风险专项指标，但前后顺序略有不同。

表4 VIMP法度量下的变量重要性得分

表5 最小深度法度量下的变量重要性得分

为了更直观地展现变量重要性，将最小深度和 VIMP得分进行可视化，排名结果如下图。

图3 VIMP法计算的变量重要性排名

图4 最小深度法计算的变量重要性排名

在所有重要变量中，银行类型的影响程度明显高于其他指标，这是由于不同类商业银行所占市场份额、业务范围以及目标客户群体有所差异。其中，国有银行对于维护国家金融秩序起到关键作用，具有较高的稳定性。股份制商业银行揽储能力强，经营业务更加多元，金融创新方面在行业内处于领先地位。城市商业银行主要服务于中小客户，地域依赖性强，在风险防范处置环节相对薄弱。

宏观经济因素对信用风险的影响与信贷活动具有明显的亲周期性有关。宏观经济向好意味着债务人具有良好的偿还能力，总体违约率降低。受经济周期性因素和结构性因素作用，若市场环境恶化，企业运行呈疲软态势，部分贷款客户可能无法及时足额还款，以致信用风险陡增。

作为特殊的金融机构，商业银行的盈利情况与利差密切相关。净利差越高，说明银行的盈利能力越强，而净息差更侧重于资金运用的效率。我国银行业目前的负债结构以存款为主，负债成本相对刚性，而过度追求资产的高收益率会牺牲资产质量，抬高信用风险。

不良贷款拨备覆盖率反映出商业银行的拨备计提水平，是抵御非预期损失的第一道防线。一般而言，对贷款损失的覆盖程度越高，表明银行准备金计提越充分，在经济环境不佳或贷款质量下降时，受到的外部冲击越小，从而实现自身的跨周期稳健运营。

3.模型对比

为比较不同模型的预测效果，本文分别构建了基于Boosting算法、逐步回归和Lasso惩罚的时依Cox回归模型，模型均通过Schoenfeld残差法检验，满足比例风险假定。此外，采用一致性指数（Concordance Index，C-index）衡量模型的预测精度，该指标越接近于1，说明预测效果越好。随机生存森林模型与基于三种不同变量筛选方法的时依Cox回归模型在测试集上的一致性指数如表6所示。

表6 不同模型预测准确率比较

可见，随机生存森林的 C-index明显高于其他三个模型，预测效果最好。在时依 Cox 回归模型中，Lasso-Cox与CoxBoost的预测精度较低，Step-Cox模型的预测性能有所提升，但仍与随机生存森林有一定差距。

更进一步，本文采用Brier score度量模型预测出的存活概率与真实生存状态之间的差异。Brier score计算结果依赖于时间节点的选取，取值在之间，值越小代表预测越准确，一般认为时，预测缺乏参考价值。将随机生存森林模型的Brier score可视化，结果如图5所示。

图5 随机生存森林模型的Brier分数

在观察周期内，随机生存森林模型的Brier score均小于0.1，能够对信用风险状况做出较为精准的预测。为了直观展现模型的预测效果，从样本中随机抽取10家商业银行绘制生存曲线。

图6 随机样本生存曲线图

如图6所示，红色曲线代表样本真实存活率，绿色曲线代表Nelson-Aalen估计值。可见，生存率估计曲线与实际曲线的走势基本一致，描绘出各时点风险的动态变化过程。

五、结论与建议

本文基于生存分析理论，对商业银行信用风险进行预警，并利用随机生存森林筛选出重要变量，研究发现风险水平与银行类型、净利差、净息差、不良贷款拨备覆盖率等指标息息相关，此外，宏观经济环境也具有重要影响。结合我国银行业现状，现提出以下建议：

（一）落实银行主体责任，持续优化信贷结构。在利率市场化改革的推动下，我国商业银行业务多元化程度不断上升，盈利来源日趋复杂。伴随着信贷规模的扩大和信贷品种的增多，商业银行要全面贯彻新发展理念，坚守合规经营的底线，警惕盲目扩张所带来的危害。

（二）深化金融体制改革，提升精细化管理能力。不同体量的商业银行要充分发挥自身优势，找准独特的功能与定位。城市商业银行作为地方金融发展的重要力量，在聚焦主责主业的同时，要密切关注政策变化，深耕细分市场，以数字化转型发展为契机，全面提升抗风险能力。

（三）强化分类指导，完善风险监测预警工作框架。随着金融创新的发展和金融市场的融合，有关部门要强化科技赋能，建立更加紧密的协同监管机制。同时，加强对宏观经济形势的把控，注重对外部冲击的精准研判与及时响应，有力有序防范化解系统性金融风险。

参考文献：

[1]Altman, Edward I. The Prediction of Corporate Bankruptcy: A Discriminant Analysis[J].The Journal of Finance,1968,23(1).

[2]Narain, Thomas. Survival Analysis and the Credit Granting Decision[J].Credit scoring and credit control,1992:109-121.

[3]Stepanova M, Thomas L. Survival Analysis Methods for Personal Loan Data[J]. Operations Research,2002,50(2).

[4]Noh JH, Roh HT, Han I. Prognostic personal credit risk model considering censored information[J].Expert Systems With Applications, 2004,28(4).

[5]宋雪枫,杨朝军,徐任重.商业银行信用风险评估的生存分析模型及实证研究[J].金融论坛,2006(11):42-47.

[6]贾慧.基于Lasso-Cox模型的中小企业债务预警分析[J].中国集体经济,2019(35):55-57.

[7]Djeundje BV, Crook J. Dynamic survival models with varying coefficients for credit risks[J]. European Journal of Operational Research,2019, 275(1).

[8]Djeundje BV, Crook J. Identifying hidden patterns in credit risk survival data using Generalised Additive Models[J].European Journal of Operational Research,2019,277(1).

[9]Frydman H, Matuszyk A. Random survival forest for competing credit risks[J]. Journal of the Operational Research Society,2020,73(1).

[10]李鸿禧,宋宇.基于时间相依Cox回归的动态财务预警模型及实证[J].运筹与管理,2020,29(8):177-185.

[11]肖叶宇,张闪.基于随机生存森林的企业财务危机研究[J].南京师大学报(自然科学版),2021,44(4):1-6.

[12]李淑锦,嵇晓佳.Lasso-Cox模型在个人信用风险评估中的应用[J].资源开发与市场,2021,37(2):129-135.

[13]Cox DR. Regression Models and Life Tables[J].Journal of the Royal Statistical Society, Series B,1972.

[14]Ishwaran H, Kogalur UB, Blackstone EH, et al. Random survival forests[J]. Ann Appl Stat, 2008, 2(3): 841-860.

[15]Ishwaran H, Kogalur UB, Gorodeski EZ, et al. High-Dimensional Variable Selection for Survival Data[J].Journal of the American Statistical Association, 2010,105(489):205-217.

上一篇：数字化平台在ABS融资效率提升中的应用探索
下一篇：税收优惠政策对绿色企业融资约束缓解效应分析

栏目设置