当前,大型金融机构已被监管机构批准使用内部模型来计量风险和监管资本;中小金融机构的积极性也很高,力求借鉴资本管理高级法,调整资产组合,提高资本使用效率,推进管理流程再造,由“干了再算”向“算了再干”转变。
以上趋势令人鼓舞。我们看到,强化风险量化管理的理念正在对中国金融业提高识别、计量和控制风险的能力产生重要的影响,中国金融业风险量化管理水平正在迅速提升。
如何更好地“算了再干”?为了回答这一问题,本文谈一谈金融机构的风险量化模型。为保证风险量化模型的开发质量和实施效果,金融机构所有的风险量化模型都应该参考模型建设和管理技术行业标准进行开发、评估和文档归档。下文总结了国内外信用风险量化模型建设和管理的先进经验,全面遵循这些要求有利于模型的建设、使用、监控、审批、上线。
模型的设计
模型的设计对模型最终是否能实现其目标起着举足轻重的作用。为了保证模型的设计可以满足模型的目标,审批人员应需要关注的是从哪些方面对模型的设计进行评估。总结来说,以下方面要特别留意。
要解决的业务问题
建模人员应该用简单易懂的语言对模型要解决的业务问题进行描述。这些描述应该包括一个或多个已达成共识的业务原则或核心价值,如客户的行为、银行员工的参与度、竞争对手的动作、经济形势的变动、合规的需要、公司战略的考虑等。例如,信用卡部门要设计一个申请评分模型来测算新客户出现不良贷款的风险。这个模型在新客户审批过程的应用中,需要审批人员和客户进行沟通,手动输入一些关键的模型变量数值,在很多情况下还需要对模型的评分结果进行覆盖。这种模型在业务中的应用方式就需要在模型设计开发的过程中,考虑如何解决验证客户提供信息的真实性、员工手动输入数据的可靠性、对模型评分结果覆盖的审批案例如何进行表现监控等问题。
目标变量的定义
建模人员应该对目标变量的定义进行如下描述:明确描述目标变量的定义,并说明为何这样的定义与要解决的任务问题是相关的;明确定义目标变量的表现时间窗(performance window)和观察时间窗:例如,目标变量可以定义为未来12个月贷款出现至少一次60天或60天以上逾期的概率。在这个定义里,“未来12个月”为表现时间窗,“贷款出现至少一次60天或60天以上逾期”为观察时间窗。如果模型需要满足监管部门的要求,此定义是否满足监管部门的要求;为何选择这样的定义而不是其他定义;对定义可能产生的误解进行澄清,如定义是在客户层面还是账号层面的,定义是在观察期之间的表现还是在观察期结束的时间点的表现等。
样本的选择
建模人员应该对建模样本的选择进行如下描述:样本选择的方法,如有随机抽样和非随机抽样(有目的抽样),其中随机抽样方法包括简单随机抽样、等距抽样、分层随机抽样、整群抽样几种常用类型;非随机抽样也称为有目的抽样,包括全面抽样、最大差异抽样、极端个案抽样、典型个案抽样几种常用类型;样本的大小,为了增强可测性和检验的准确性,应该尽量增大样本容量,但同时还应考虑可行性和经济成本;建模样本、保留样本、验证样本的划分;样本可能有的偏差,如必须通过审批的条件限制、经过客户自然流失后的样本、外部因素的变化对样本的影响如产品特征、竞争对手的策略、经济周期、季节性因素等。
分析的方法
分析方法的描述应该包括以下内容:数据获取渠道的描述,主要分为直接渠道和间接渠道:直接渠道主要指通过统计调查获得的第一手统计数据,如办理信用卡业务时客户填写的个人信息资料、当下十分流行的大数据方法等;间接渠道通常指通过查阅资料或者通过其他网站、平台获取的二手数据,如通过WIND或Bloomberg获得数据;模型的结构,根据所作的假设分析对象的因果关系,利用对象的内在规律和适当的数学工具,构建各个变量间的等式关系或其他的数学结构。同时,在建模过程中还应注意细节问题,如客户的分群、子模型的架构等;建模技术,在建模过程中常用到的数学方法和计算机技术,如logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等;变量的处理,如变量的剔除、转换、最大最小值的设置、缺失值的处理、变量相关性的处理等。
模型验证过程
验证模型是否有效的描述应包括:随机保留样本的描述,如选取记录集中的一部分(通常是2/3)作为训练集,保留剩余的部分用作测试集。选取随机保留样本的标准、比例、特征等方面的描述;Bootstrap验证,是非参数统计中的一种重要的统计方法,在执行上常需借助计算机技术得以实现。举例来说,当总体可用正态分布描述时,其sampling distribution服从正态分布或服从t分布;但当总体不服从正态分布或未知时,我们采用计算机模拟或用渐进分析的方法更加有效;交叉验证,基本思想是在某种意义下将原始数据进行分组,一部分作为训练集,另一部分作为验证集,首先用训练集进行测试,再利用验证集来测试得到的模型,以此作为评价模型的性能指标。常见方法有Hold-Out Method,K-fold Cross Validation,Leave-One-Out Cross Validation;外来样本的验证,通过外部获取的样本对已有的模型进行检验,判断模型的有效性。
模型的局限性
一般来说,模型的局限性可以分为客观的、不能加以修正的局限性和可以通过人为修正的局限性。验证客观局限性的描述主要包括:系统的局限性;模型的局限性等;验证主观局限性的描述主要包括:建模时间的规划;建模人员的配置、人员水平等;业务和数据的理解上的局限性;样本的局限性;外部因素对模型的影响,如竞争对手的压力、合规时限的压力等。
模型的进度
主要包括有限资源的有效配置,在可以利用的资源数量一定的条件下,通过调配进度使项目工期尽可能短;建模时间的规划,几个有效时间节点的把控,如是否有外部竞争或合规方面的压力而需要在短时间内完成建模等。
数据处理
如何进行数据处理,是一个非常关键的环节。对于该环节,综观国内外经验,可以从以下八个方面给予关注。
建模原数据源的描述分析
建模数据的评估主要包括:数据的获取渠道,如内部数据集市、历史数据存档、第三方公司提供的数据等;数据的样本记录数及每一条记录所代表的含义;数据的变量的个数;数据的收集时间。
模型变量的描述
模型变量的描述应该包括对每一个变量定义的准确描述及变量的值所对应的含义。定义和使用变量时,通常要把变量名定义为容易使用阅读和能够描述所含数据用处的名称,而不要使用一些难懂的缩写如A或B2等。例如:编写一个销售苹果的软件时,我们需要两个变量来存储苹果的价格和销量。此时,可以定义两个名为Apple_Price和Apple_Sold的变量。每次运行程序时,用户就这两个变量提供具体值,这样看起来就非常直观。
建模样本的大小和目标变量的分布
对此部分的描述应该包括:建模样本的大小是如何决定的;如何获得各个细度的数据记录并有效的控制成本;目标变量的分布,包括异常值、多峰性分布、负值的处理等。
数据时间窗定义
对此部分的描述应该包括:目标变量表现的观察时间:采用滚动时间窗或固定时间窗的方法;模型独立变量的观察时间;模型目标变量和独立变量数据是否有时间不足的情况,如有些样本的目标变量表现观察期不足,模型变量的观察时间不足等。
数据源有效数据的频率和缺失值处理
对此部分的描述应该包括:样本变量数据的有效频率;样本记录中有效记录的频率;某些变量或记录数据缺失的原因,这些缺失原因是否会对模型产生影响或偏差;在建模过程中,如何对数据源的各种数据缺失原因进行考虑。
建模人员应该用简单易懂的语言对模型要解决的业务问题进行描述。这些描述应该包括一个或多个已达成共识的业务原则或核心价值,如客户的行为、银行员工的参与度、竞争对手的动作、经济形势的变动、合规的需要、公司战略的考虑等
每个模型独立变量的缺失值频率;模型独立变量的缺失值是否有具体的含义;缺失值出现的频率是否稳定;有缺失值的变量在模型中的重要性及表现的稳定性;每一个变量对缺失值的处理方法,包括采用中位数、平均数、最大或最小值、最好或最坏值替代,单变量处理,多变量处理,以变量减少、建模或评分、或拒绝原因算法为目标的处理等。
变量最大、最小值处理
对此部分的描述应该包括:每个变量的最大或最小值;对最大或最小值的处理方法;处理后对这些变量取值范围的影响以及数据记录表现的影响;以变量减少、建模或评分、或拒绝原因算法为目标的最大或最小值设置;这些设置是否能防止所有可能出现的取值错误。
变量转换
对此部分的描述应该包括:单变量转换,如反正弦、对数、开方、Box-Cox等;多变量转换,如变量之间相除、相减、相加、相乘等;变量取值的划分或归成大类;变量转换的处理程序及编程方法;这些设置是否能防止所有可能出现的取值;采用Weight of Evidence(WoE)方法(该方法在生态风险评估ERA领域使用多年,能结合多方面数据给出总体风险评估)进行分栏并计算Information Value来验证。
数据的外部因素
可能影响目标变量表现的外部因素主要有:国家或区域的经济环境;宏观经济指标;产品特征;获客渠道;主要竞争对手的策略;天气因素;季节性周期因素等。
模型的选择
模型审批人员应该对建模的方法及模型的表现是否能够到达预期的目标进行诊断和评估,这是一个至关重要的步骤。从具体实施的角度而言,评估应该至少包含以下九个方面内容。
子模型分割方法
模型分割(子模型)的方法应该包括以下内容:分割优化的标准及目的:如对无数据记录的处理、模型表现的连续性考虑、变量相关性的区格、变量预测能力的区格等;选择分割的手段,如历史数据分析、CART分析、贝叶斯树等;采用分割后对模型的表现所带来的提升的数据支持,尤其要说明表现的提升足以覆盖由于分割所带来的模型复杂度增加的负担。
变量剔除
模型独立变量剔除或合并的考虑因素包括:变量缺失的频率;变量的波动性;变量组合;变量聚类,将集合分成由类似的对象组成的多个类;变量之间的相关性检验,如采用相关系数矩阵,Pearson 相关系数或者Spearman 相关系数方法;不同分割模型(子模型)变量的同质性检验,用卡方统计量验证不同子模型是否来自同一总体;变量选择的方式:如向前选择、向后选择、逐步选择等;变量的交叉验证。
模型优化的标准
对此部分的描述应该明确定义模型优化的标准,进而说明为何候选模型是最佳的选择。如果选择多个指标,应说明多个指标的选择标准,例如:KS值, 决策边际变现等。对于需要满足监管要求的模型,要将监管要求融入到选择模型优化的过程中。
模型参数的确定
对此部分的描述应该明确模型选择的方法,包括:如何确定模型的参数;如何从众多的候选模型中选择最终的模型;VIF(Variance Inflation Factor)检验,判断模型是否存在多重共线性问题,经验判断方法表明:当0<VIF<10,不存在多重共线性;当10≤VIF<100,存在较强的多重共线性;当VIF≥100,存在严重多重共线性,此时模型效率低;如何对模型的参数进行平滑处理;如何确定模型的变量及结构是简单适用的;如何防止拟合不足或拟合过度。
建模程序的结构
对此部分的描述应该说明建模使用的程序的结构,包括:处理原始数据的所有的程序,从开始到结束;程序是否具有恰当的标注和结构说明,如数据处理部分,变量选择部分,候选模型比较部分等;程序是否被妥善统一存档,存档是否可以被访问,程序是否可以被其他人运行这些具体备注说明。
建模程序细节
对此部分的描述应该选择一段建模程序进行评估,评估内容包括:程序的标注是否充分,程序的结构是否容易理解;变量的名称、标识是否简单易懂;容易误解或复杂的部分是否有特殊标注;程序引用的模块是否有相应的文档;程序格式是否恰当使用缩进和空格;程序的作者是否标注;在程序的开发、运行和程序的重复使用之间是否保持恰当的平衡。
模型的表现
对此部分的描述应该评价模型对目标行为预测的能力,主要包括:建模样本的表现;非建模样本的表现:如果和建模样本表现不同,要解释表现不同的原因;对未来样本表现的预期;对所有未来可能影响模型表现的不确定性因素是如何考虑的。
模型是否拟合不足或拟合过度
任何模型都可能会有拟合不足或拟合过度的问题,对拟合度的评估可以在几个不同的层面展开,如使用可决系数对模型进行拟合优度检验,使用模拟数据或其他历史数据对模型进行再次验证,是否有以往的经验或数据来验证模型等。
残差分析
残差分析主要是:用残差证实模型的假定,如用残差图判断模型效果与样本数据的质量,检验模型是否满足基本假定,以便对模型作进一步的修改;用残差检测异常值和有影响的观测值,如果异常值是一个错误数据,如是由记录错误造成,应该修正数据,以便改善模型效果;如果是由于模型的假定不合理,使得标准化残差偏大,应该考虑修正模型;如果完全是由于随机因素造成的,则应该将该数据视为有效观测值,予以保留。同时应注意的问题有:残差是否是随机分布的;一个或几个记录的变化是否会对整个模型有较大的影响;不同的取样方法是否会产生不同的模型或不同的残差分布。
模型的最终审批
模型审批人员在最终批准模型之前,应对以下三个方面进行评估。
1、模型替换分析
任何模型都会有几个不同的版本,如原有模型,简单的业务逻辑替代的模型,和第三方公司的模型。模型审批人员应该就最终的模型版本和其他版本进行比较,进行优劣分析,包括:如果不用这个模型,业务模式会如何展开?对原来被否决,新模型会批准的样本进行分析并评估对业务的影响;待审批的模型和其他模型相比,有哪些优势?这些优势是如何获得的,它们是否符合基本的业务逻辑;模型在应用的目标客户群内的主要的独立变量的分布是否符合业务逻辑?和其他模型的版本相比,它们是否和上述的新版本的模型优势相吻合?应用测试技术对现有模型进行挑战,模型上线的版本策略如过度阶段和原模型或其他规则共用等。
2、监控策略
模型的监控策略应包括以下内容:监控的主要指标,频率;监控报告的审阅人员及存档流程;对于监控的指标来讲,稳定性指标和准确性指标通常只是最低标准;稳定性指标应该包括模型目标变量和独立变量的稳定性监控;模型指标的参考客群是如何定义的;模型的目标应用客群如果发生变化,如何能够识别目标客群的变化?如何对模型的表现进行有效的跟踪?监控程序是否经过调试和验证;如果数据导入出错,如何对错误信息进行识别和报警?如果模型运行失败,业务开展的备用方案是什么?识别模型失败的流程和重新启动模型运行的流程各是什么?在什么情况下,建模人员需要对模型进行重新评估或重新建模?明确定义这些情况下主要表现指标的临界值。
3、未来规划
模型的未来规划应描述模型如何进一步提高,具体包括:如何获得更客观全面的样本?客观全面的样本应该包括正常业务运营之外的样本,例如申请审批的样本应包括所有申请客户的表现而不仅仅是通过审批的客户的表现;对于审批模型的临界值附近的样本,业务是否需要加大样本收集的力度为未来的建模做准备;样本收集的经济成本和流程成本各有多大?投入是否值得?未来的业务规划的大方向是什么?模型的样本采集策略应如何配合业务发展的需要?是否有其他数据源或建模技术能够进一步提升模型的表现?