?
目录
一、 单因素分析法 2
1. 正确率的绝对值>5% 2
2. 回归系数的方向(正负)如果与理论推导不一致,舍弃该变量 3
3. logistic回归系数的P值<0.1 3
4. 异常值占比< 10% 4
5. 空值占比< 10% 4
二、 违约区分度检验 5
三、 附录:多维度验证结果展示 8
?
单因素分析法
变量转换之后,风险因子就可以被用于构建计分卡,接下来就可以开始筛选风险因子以用于下一步的模型构建。我们给予下文所述的单因子分析方法,来减少备选的风险信号。
首先,对每个因子依次进行单因子分析,初步减少变量数量,为之后的分析做准备。当一个因子符合以下所有条件时,保留该因子进入下一步筛选:
正确率的绝对值>5%
回归系数的方向(正负)如果与理论推导不一致,那就不使用该变量
logistic回归的系数的P值<0.1
异常值占比< 10%
空值占比< 10%
下面对以上五条标准进行详细的解释:
正确率的绝对值>5%
正确率已在上文进行定义,是一种衡量风险因子对风险的区分能力的统计学指标。正确率的值在-1~1之间。当正确率=0时,说明该风险因子对风险没有区分能力,无法区分好坏,这样根据该因子做出的判断与随机猜测无异;当正确率>0时,说明该风险因子值与风险标的风险大小之间呈反比关系(某公司该风险指标越高,表明该公司越不容易发生风险)。当正确率<0时,风险因子值与风险标的大小之间呈正比关系(某公司该风险指标越高,表明该公司越容易发生风险)。
为了确保风险因子对于好坏公司具有足够高的区分能力,正确率必须在分布的两端都足够大(即正确率比较接近1或者比较接近-1的区域)。根据以往的行业经验,我们设定正确率的绝对值必须大于10%。
回归系数的方向(正负)如果与理论推导不一致,舍弃该变量
除了限定正确率的绝对值大于10%以外,我们还需要检查logistic回归得到的回归系数以及正确率的正负性是否与经济学以及金融理论推导得到的推论结果相一致。例如,根据商业理论和常识,当杠杆类的财务指标增大时,该公司有更大可能违约,因此,杠杆类财务指标较大的公司中好公司出现的概率较低,从理论推导来说,该因子的正确率应该为负;当一家公司的流动性风险财务指标增加时,这家公司更不容易违约,因此流动性指标值较大的公司有更高概率为好公司,因此,理论推导的得到的正确率应该为正。
出了正确率之外,我们还要用同样的方法检查logistic回归得到的回归系数beta是否与理论推导的方向一致。当beta<0时意味着风险因子值越小对应的客户为坏的可能性越大,当beta>0时,意味着风险因子值越大客户为坏的可
能性越大,用如正确率中所举例子,当杠杆类财务指标增大公司更有可能违约,因此,减少了公司为好公司的可能性,理论上来说beta应为正;当流动性类财务指标增大时,该公司更不容易违约,因此为好公司的概率比较大,理论上来说,beta应为负
因此,需要尤其注意的是,我们发现正确率的理论正负性应与beta的理论正负性相反。
当观察到的正确率的正负性或所观察到的beta的正负性是不一致时,可认为这个风险因子会在记分卡上产生误导性的结论,危害到最终的商业部署。
logistic回归系数的P值<0.1
除了正确率以外,我们还要测试logistic回归中,违约概率p(因变量)与风险因子(自变量)之间的线性关系的显著程度,例如给定风险因子x、违约概率p,logistic回归模型可以用如下等式表示:
log?(p/(1-p))= β_0+β_1 x
然后我们检验如下的统计学假设是否成立:
H_0:β_1=0
H_1:β_1≠0
对回归得到的β_1的估计,我们使用Wald卡方检验:
W_1=[(β_1 ) ?/se((β_1 ) ? ) ]^2~χ_1^2
对以上检验结果设定0.9的置信水平。
异常值占比< 10%
尽管我们在模型中也有对于异常值的处理,但是从一个含有大量异常值的风险因子中得到的结果会比从一个不含异常值的风险因子中得到的结果更准确。因此,我们应该避免使用这些含有大量异常值的风险因子,因为它们会影响计分卡在实践中的质量。在这一步骤中,我们将会让那些含有异常值比例占全体少于10%的风险因子进入之后阶段的分析。
空值占比< 10%
除了异常值,缺失值也是影响记分卡质量的一个问题。对缺失值的填补将一方面影响模型在开发阶段的拟合度和准确性,另一方面在评分实施阶段,错过的机会太高会使数据的可用性和估算值影响预测准确度的得分,至少有10%个缺失值的风险因素将因此被排除在候选名单。
以下为各个维度的信号验证结果
违约区分度检验
在变量变换阶段我们已经计算过IV值,进行了风险因子的初步筛选。
因此,我们希望对结果进行进一步的检验,查看这些信号对违约事件是否有区分能力。好的预警信号对违约有很强的区分能力,即出现信号的客户的平均违约率会高于没出信号的客户,如果情况相反则信号无效。
际银行业监管的统一标准——《巴塞尔新资本协议》在2004年6月正式定稿。与1998年的协议相比,新协议的最大创新之处是提出IRB法。
IRB方法根据违约概率(PD),给定违约概率下的损失率(LGD),违约的总敞口头寸,以及期限(M)等因素来决定一笔授信的风险权重,IRB按照复杂程度可以分为初级法和高级法。
使用内部评级方法计算资本金需要输入4个指标:债务人
违约概率、违约损失率、违约风险暴露以及债项到期时间。
违约概率(PD)。违约概率是指未来一段时间内借款人发生违约的可能性。巴塞尔委员会定义违约概率为债项所在信用等级1年内的平均违约率,违约概率的确定必须是通过对这个级别的历史数据进行统计分析和实证研究得到,而且是保守的和前瞻性的估计。
在我们的筛选过程中,考虑到分析样本中好坏客户数量的局限,违约客户占比并不能代表总体的违约概率。所以我们引入调整系数k将样本的违约客户占比校准至总体的违约概率,计算出调整后的PD,从而进行判断。
在调整系数k的计算公式中,CT(central tendency)——总体的长期平均违约概率。〖bads〗_sanple和〖goods〗_sample分别为分析样本中坏客户和好客户的总量。
为了更好地理解,我们给出一个范例:
以预警信号R_00066为例,该信号有值的客户总数为2707,其中好客户2685个,坏客户22个。没出信号的客户共2045个,违约客户占0.44%。出现信号的客户共662个,违约客户占1.96%。此例中,计算得出的k为0.226。
K值得计算公式如下:
K=(1-CT)/CT*〖bads〗_sanple/〖goods〗_sample
在得到K值之后,根据出信号和不出信号的违约客户占比校准至总体的PD,具体的计算公式如下:
调整后 PD=1/((1+k*goods/bads))
以不出信号为例,调整后PD=1/(1+0.226*2036/9)=1.92%。同理可得出现信号的调整后PD为8.14%。
在此,我们引入指标pd_diff:
pd_diff=〖pd〗_出信号-〖pd〗_不出信号
最终得出调整后PD的差异为6.23%,即出现信号的客户比不出信号的客户的违约率高6.23%。
对于所有的备选信号,我们都会使用上述方法来检查信号对违约的区分能力。根据调整后PD差异的值来判断信号是否有效以及区分度的强弱。具体规则如下:
如果出现信号的客户的违约率低于没出信号客户的违约率则视该信号为无效。对于其他的有效信号,我们会根据具体的违约率差值把信号划分为强区分度、中区分度和弱区分度。
?
附录:多维度验证结果展示
财务一级信号验证结果
在财务一级信号验证结果中
CFO/总负债(间接法)、CFO/总债务(间接法)、留存现金流/净债务、自由现金流/总债务、自由现金流/净债务、去化指标(间接法)这些信号的P值>0.1,不符合筛选标准,所以被删除;
财务二级信号验证结果
在财务二级信号验证结果中
现金比率最近一年25分位数、现金比率同比、净债务率同比、CFO/总负债(间接法)最近一年25分位数、CFO/总负债(间接法)同比、CFO/总负债(间接法)环比的同比、现金和有价证券/债务最近一年25分位数、FFO/总债务同比、FFO/总债务环比的同
比、营业收入现金率同比、CFO/流动负债(间接法)同比、CFO/流动负债(间接法)环比的同比、存货周转率同比、应付账款周转率最近一年75分位数、固定资产周转率同比、总资产周转率同比、去化指标(间接法)同比、去化指标(间接法)环比的同比、流动资产周转率(年化)同比、流动资产周转率(年化)环比的同比、资产现金回收率(间接法)同比、资产现金回收率(间接法)环比的同比、经营活动现金流(间接法)同比、主营业务毛利率环比的同比、营业利润率同比、营业利润率环比的同比、净利润同比、净资产报酬率同比、净资产利润率同比、EBIT/总资产同比、EBIT/净资产同比这些信号的P值>0.1,不符合筛选标准,所以被删除;
主营业务毛利率环比的同比信号的AR值<0.05,不符合筛选标准,所以被删除。
法律诉讼预警信号验证结果
在法律诉讼预警信号验证结果中
管理层能力不足或构成缺乏代表性信号的AR值<0.05,不符合筛选标准,所以被删除。
招聘信号验证结果
在招聘信号验证结果中
职位职能信号的AR值<0.05,不符合筛选标准,所以被删除。
舆情信号验证结果
在舆情信号验证结果中
与违约公司相似性(均值)信号的AR值<0.05,不符合筛选标准,所以被删除。
董监高信号验证结果
在董监高信号验证结果中
企业董监高的庭审记录、企业董监高六个月前的人行违约次数、企业董监高借贷违约次数这些信号的P值>0.1,不符合筛选标准,所以被删除;
企业董监高六个月前的常贷客查询次数、企业董监高车险保单数这些信号的AR值<0.05,不符合筛选标准,所以被删除。
行业地区信号验证结果
在行业地区信号验证结果中
注册地的行业地区高风险信号的P值>0.1,不符合筛选标准,所以被删除;
贷款投向行业地区中风险、贷款投向行业地区低风险、注册地的行业地区中风险、注册地的行业地区低风险这些信号的AR值<0.05,不符合筛选标准,所以被删除。
图关系网信号验证结果
在图关系网信号验证结果中
关联刚性信号、关联弱信号这些信号的AR值<0.05,不符合筛选标准,所以被删除。