安庆大理运城常德铜陵江西
投稿投诉
江西南阳
嘉兴昆明
铜陵滨州
广东西昌
常德梅州
兰州阳江
运城金华
广西萍乡
大理重庆
诸暨泉州
安庆南充
武汉辽宁

风控模型应聘,80会被问到的面试题

12月28日 不星湖投稿
  模型过拟合,对经常建模的小伙伴来说是非常熟悉的,稍不留神,模型就出现过拟合了,这让我们在解决模型过拟合问题上花费了不少功夫。同样这个也是在面试中最高频会被Q到的问题。因此,在平日里建立模型的过程中,虽然模型过拟合问题很难避免,但在处理时为了避免少走弯路,我们有必要熟悉下模型过拟合的原因,以及常见的处理方法,这对我们提高建模的工作效率是非常有帮助的。
  1、模型拟合介绍
  在了解模型过拟合问题之前,我们先整体熟悉下机器学习模型训练的本质,以及模型拟合结果的表现形式。机器学习的核心思路是采用相关模型算法(常见如线性回归、逻辑回归、决策树、K近邻、朴素贝叶斯等)对建模样本数据进行拟合训练,从而实现对未知新样本数据的有效预测。在这个过程中,我们可以把模型的预测数据结果与样本真实数据结果之间的差异程度称为误差。其中,算法模型在训练数据集上的误差称为训练误差,而在新的测试样本数据上的误差称为泛化误差。
  机器学习算法模型对训练样本数据集以外样本数据(包括验证数据集、测试数据集)的预测能力,也可以称为泛化能力,是机器学习提高模型性能的量化目标。在模型泛化能力表现不佳的原因中,过拟合与欠拟合问题是最常见的两种现象,下面简单介绍下二者的原理与区别。
  (1)模型过拟合
  模型过拟合,指算法模型的学习能力太强,使模型在训练拟合过程中,将样本数据中的个别特征当成了一般规律,更形象地说,就是把训练数据特征分布的个性作为所有潜在样本的共性来处理,从而导致模型的泛化能力很弱。过拟合问题通过模型指标可以直接反映,即模型在训练数据集上表现优异,但在测试数据集上表现较差。
  (2)模型欠拟合
  模型欠拟合,指算法模型的学习能力较弱,使模型在训练拟合过程中,难以学习到样本数据中的一般规律信息,直接导致模型的泛化能力较弱。从模型指标上体现,欠拟合问题在训练数据集和测试数据集的性能表现都比较差。
  从过拟合与欠拟合的原理可以了解到,二者都会导致模型的泛化能力较弱,只是在训练拟合阶段的学习能力差异较大,可理解为正好相反。无论怎样,这两类问题都是我们在实际建模过程中不愿意看到的,都需要做出相关处理,以保证模型的学习能力与泛化能力都表现较好。
  对于欠拟合问题来说,是相对容易解决的,情况本身在模型训练环节表现较差,也没有必要去进行建模样本外的性能测试,只需要对模型算法提高学习器的能力就可以解决,常见的方式是直接调整模型训练参数,比如增加模型迭代的次数等。
  对于过拟合问题,是我们建模过程中需要重点关注和解决的,因为这种情况需要将训练数据和测试数据的模型表现进行对比才能发现。而且,从机器学习角度来讲,模型过拟合问题是难以避免的,测试数据的模型表现总会与训练数据的模型表现存在一定差异。我们需要尽可能做到的是,在模型指标可以满足业务需求的情况下,将模型在训练数据的学习能力与测试数据的泛化能力之间的差异缩放到一定合理的范围内,这是我们最终实现模型上线使用前的目标。
  通过前边内容熟悉了模型过拟合与欠拟合的原理逻辑与业务背景之后,接下来我们结合实际场景情况,重点来分析下造成模型过拟合情况的相关原因。我们先从常用模型类型的角度,来看下回归模型与分类模型的拟合情况,具体示意图分别如图1、图2所示。
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  图1回归模型的拟合情况
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  图2分类模型的拟合情况
  由以上示意图可知,可以很形象地理解模型拟合的不同情况及其特点:
  (1)对于回归模型,通过可视化结果来反映(图1)。正常拟合的模型结果是一条坡度较缓的抛物线(optimum),样本点与拟合曲线存在的训练误差也是在合理范围内。过拟合的模型结果是存在很多拐点的抛物线(overfitting),虽然对样本数据特征学习很精准,但显然是对特征分布过于敏感,包括局部样本特征的个性化规律,并没有正确表达出数据分布的大众化规律。欠拟合的模型结果则是只拟合出一条直线(underfitting),显然没有真正学习到样本特征数据的真实规律。
  (2)对于分类模型,通过可视化结果来反映(图2)。正常拟合的模型结果是一条半圆形曲线(normal),存在轻微的训练误差也是完全合理的。过拟合的模型结果曲线是一条非常扭曲的形状(overfit),虽然对样本点做出了较准确的分类,但其中样本点必然会存在个别特征,不能代表整体样本的普遍规律,难以表达出样本主要且真实的分布规律。欠拟合的模型结果是类似直线作为分类边界(underfit),很显然存在误差较大,没有将样本特征进行合理区分。
  2、模型过拟合原因
  通过前边内容熟悉了模型过拟合与欠拟合的原理特点与业务背景之后,接下来我们结合实际业务场景,来重点分析下造成模型过拟合情况的原因,主要有以下几种可能情况:
  (1)模型训练数据的样本量不足
  在建模前的样本准备环节,样本量是明显的特征表现,理论上讲,建模数据的样本量越多越好,有利于模型的训练学习,但是也需要适当,如果样本量超过一定范围,一方面由于样本特征类似没有过多训练的必要,另一方面也会加大服务器的承载能力也会降低建模效率。但是,模型训练数据的样本量过少,比如只有几百条样本,难以代表实际业务数据的客观规律,这样使模型训练时仅能学习到当前样本可能存在较大区分度的数据规律,而反映在测试数据上的模型性能表现会直接变差。一般情况下,建模样本的训练数据量至少可以达到几千,比如逻辑回归等算法,但最合理的情况是能满足几万条,这对常用的决策数集成学习算法(如随机森林、XGBoost、LightGBM等)也是非常合适的。
  (2)建模样本的噪音数据干扰过大
  在训练样本数据中,如果存在的噪音数据(异常值)数量过多或者特征明显,会直接影响模型训练的效果,因为模型在训练拟合时,会较大程度学习到噪音数据的特征分布特点,忽略样本客观数据的整体规律,也就是实际业务数据输入与输出的真实关系。
  (3)模型训练拟合的迭代次数过多
  在常见算法模型中,我们都可以指定模型训练的迭代次数,一般情况下可以选择默认参数,但是为了提升模型效果,我们往往会重新定义迭代次数。在这种情况下,如果模型的迭代次数太少,模型并没有得到较好的学习,会直接产生模型欠拟合的情况。如果模型的迭代次数过多,模型会将学习到很多噪音数据的分布规律,以及少量没有较好区分能力特征属性,这样虽然可以保证模型训练后的性能指标较好,但很容易造成模型过拟合现象。
  (4)算法模型的参数复杂度过高
  在采用某模型算法进行训练时,我们会经常通过定义多个参数来调整模型性能,比如常见的随机森林、XGBoost、LightGBM等算法,算法内置的超参数较多,例如决策树数量、树的深度、树叶子节点数、学习率等。虽然这些参数对模型性能影响较大,有助于我们优化模型效果,但是如果对模型参数组合设置的太多,会导致模型的复杂度增加,例如决策树的数量太多、树的深度太大、树叶子节点过多等。在这种情况下,最终得到决策树集成学习模型,由于在训练过程按照入参超量要求进行过度学习,使得模型出现过拟合的问题。
  (5)测试样本与训练样本的特征分布差异较大
  为了保证模型的效果,我们在建模过程中,必然会采用测试数据来检验模型训练的效果。对于常提到的验证数据集与测试数据集,可以理解为样本内测试与样本外测试。其中,样本内测试数据和训练样本数据来源于同一个建模宽表,数据拆分过程经常采用的是随机抽样。对于样本外测试数据,是从时间窗口角度,在训练数据时窗后的样本。但是,我们在提取测试样本时,比如针对样本内的验证数据集,如果没有采用随机抽样方法,或者在随机抽样的基础上又限定了某个前提条件,很可能导致验证样本数据集与训练样本数据集的特征分布存在较大差异。同理,针对样本外的测试数据集,如果选取的时间窗口不合理,也很可能导致测试样本数据集与训练样本数据集的特征差异较大。在这种情况下,虽然模型在训练样本数据上得到了合理的训练学习,但是反映在测试数据集上模型性能会下降很多。当然,这种过拟合现象本质上可以称为伪过拟合,但同样是我们建模过程中需要避免的。
  3、过拟合解决方法
  根据以上介绍的模型过拟合现象常见的几种原因,我们在实际的建模过程中,只要重点关注以上情况,可以很大程度的避免模型过拟合问题。在具体实施解决方面,我们针对以上场景,来简要描述下具体的解决思路与方法。
  (1)增加训练数据集的样本量
  训练数据样本量的选取,具体需要结合模型采用的算法,例如逻辑回归算法对样本量相对较少,随机森林、XGBoost、LightGBM等决策树集成学习相对较多,而神经网络算法需要样本量更多。
  (2)减少模型拟合的特征数量
  通过特征相关指标进行变量筛选,常见特征分析指标有信息值IV、相关性pearson、共线性vif、贡献度importance等,同时可以采用特征聚类、特征降维等方法缩小变量池范围。
  (3)建模样本的数据清洗
  在模型训练前,要对建模样本的噪音数据进行处理,包括异常值处理、缺失值处理、重复值处理等,这样可以有效避免噪音数据在模型拟合阶段的干扰。
  (4)减少模型的迭代次数
  在合理的范围内,适当减少模型的迭代次数,可以有效保证模型较低程度地学习区分能力弱或分布异常的特征规律。
  (5)调低模型参数的复杂度
  模型算法默认参数情况下,适当降低某些重要参数的取值,以决策树学习算法为例,可以降低树的深度、树的叶子节点数等。
  (6)增加正则化约束条件
  对于逻辑回归、线性回归等传统机器学习算法,常见的有L1正则化与L2正则化,也就是在模型训练的损失函数中加入个正则化项;对于神经网络深度学习算法,增加Dropout层约束条件,本质也是正则化约束。
  以上内容便是根据建模过程中常出现的过拟合与欠拟合现象,分别描述了各种拟合情况的概念原理和分布特点。同时,围绕实际场景中需重点关注的模型过拟合问题,详细介绍了模型过拟合问题的主要原因,并具体分析了解决模型过拟合问题的思路与方法。在数据建模工作中,可以结合样本数据的实际情况,以及建模过程的分析步骤,合理选用数据处理方法,有效避免模型过拟合现象的出现,从而获得一个训练样本学习能力与测试样本泛化能力都表现较优的模型。
  另外在模型调参上,之前陈老师在星球上也发过一个详细的帖子,提到过如何增加模型的鲁棒性,避免过拟合的情况,具体请参考星球上的帖子:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  关于代码调参的内容,有兴趣的童鞋可继续关注
  《第94期会员课程:风控炼丹炉模型调参课》:
  编辑切换为居中
  添加图片注释,不超过140字(可选)
  。。。
  原创文章
投诉 评论 转载

孙准浩预计12日重返中国能赶上与海港国安比赛在卡塔尔世界杯18决赛被巴西队淘汰出局后,韩国队于12月7日回国。8日晚,所有韩国队成员应邀与韩国总统尹锡悦夫妇共进晚餐。效力于山东泰山的韩国国脚孙准浩由于要补办来华的签证手续……地产新闻联播丨银保监会坚决压降影子银行风险突出的融资类信托业01hr银保监会:坚决压降影子银行风险突出的融资类信托业务12月30日,银保监会发布《关于规范信托公司信托业务分类有关事项的通知(征求意见稿)》。通知强调,信托公司应当立……火箭首位想离队前锋出炉,拉文迎好消息,马刺将102后卫摆上货北京时间12月16日,NBA常规赛已经开启第五十七天左右,其中道格里弗斯表示,詹姆斯哈登、第一中锋恩比德的低位挡拆,在比赛末段是一种很好的打法,哈登透露,我会在进攻端帮塞布尔和……机械手监控与预测性维护解决方案堪称生产制造者的福音一、方案背景随着经济的飞速发展,科学的不断进步,人工生产,人工制造已经越来越满足不了生产需求。所以制造企业开始引进具有高效、持久及高精的机器人应用,在金属、化工、塑料、汽……中国队再夺4金!19岁天才少年闪耀世锦赛,赛制对中国选手不公北京时间10月16日,2022年射击世锦赛在埃及开罗继续进行。中国射击队掀起了夺金狂潮,在竞争激烈的男子10米气手枪决赛中,中国队双子星刘锦尧和张益梵成功包揽冠亚军,为队伍拿下……上海自驾3h,溧阳山湖竹海间庭院民宿丨南山竹海DateOne放眼全国,浙江的民宿表现太过抢眼。不管是老牌的莫干山、松阳,还是因为高铁、综艺带火的新秀桐庐,哪怕早已过了民宿热潮,光每年新开的民宿就已经目不暇接。相比而言,隔壁江……陈萌提出生娃条件?大衣哥无奈应允,网友又要人财两空了引子:陈萌和朱小伟已经订婚,并且两人的婚期也越来越近,朱家正在紧锣密鼓的准备朱小伟的二婚。朱小伟虽然是二婚,但陈萌是一婚,不能亏待了女方。大衣哥一家虽然人傻钱多,但心眼是好的,……风控模型应聘,80会被问到的面试题模型过拟合,对经常建模的小伙伴来说是非常熟悉的,稍不留神,模型就出现过拟合了,这让我们在解决模型过拟合问题上花费了不少功夫。同样这个也是在面试中最高频会被Q到的问题。因此,在平……生死面前,一切都是小事用一句话描述一下,疫情之下的人生感悟?疫情三年,恍如昨日。太难了成了我们的口头禅。这病毒不仅带走了多少鲜活的生命,也带走了多少家庭的希望与幸福,人有悲观离合,但似乎……荣耀X50Max曝光,16G512G5500mAh对于手机厂商而言,品质是荣耀三大战略控制点之一,荣耀把质量控制融入进每一道流程,把品质视为产品的生命线。这种近乎偏执的品质追求在荣耀X系列上体现得尤为明显,也是荣耀X系列用户破……7分险胜!八连胜代表不了什么,但是哈登的心声却说明了一切今天76人再次以7分优势战胜了强敌尼克斯,比赛过程也是大开大合,第一节76人就迎来了巨大的劣势12分,第二节76人重整旗鼓扭转战局,第三节双方一时间难分胜负,末节尼克斯球员开始……你早餐喝粥吗?早餐喝粥饮食健康吗?怎样喝粥才健康?早餐喝粥一向是中国的传统饮食,很多人都喜欢早餐喝粥,现在随着医学的发展进步,我们的一些习惯也正在被慢慢的被推翻。为什么早餐不建议喝粥?1。喝粥升血糖快又高粥的……
到底是心态决定了决定成败,还是成败决定了心态?大数据!NBA明星球员的场均得分,哪些让你吃惊?再见西蒙斯,再见张宁,杨学增化腐朽为神奇,期待新赛季晚上18点!韩国媒体再现争议报道中国足球遭质疑,球迷骂声一片李冰冰10万月薪请保姆,3年辞退50个人21万提了辆比亚迪唐DMi,开了3500公里,车主一肚子话要广东省养老金调整临近,7000元和2400元,调整金额预计会冬奥会最后一日看点中国代表团有望锁定第三,创造历史最佳战绩如何了解人类历史?假如有一个只有一立方厘米的微型黑洞靠近地球,会发生什么?生活随感二孩三孩补贴政策好,高龄备孕事项要记牢!识字教学设计优秀范文打美白针前要准备哪些二胎生还是不生?这确实是个问题和老婆在电话中吵架非诚勿扰女选手站了5年,只爆灯不牵手!难怪节目口碑差想要解决职业困惑,首先你得了解自己求职必读出色的面试技巧让面试官刮目相我的成长经历中学生作文配方奶粉喂养标准你惨了同学看老师怎么收拾你吧肾脏保健男人养肾护肾的小妙招轻松学如果没有外面人进来,王宝泉还会执教吗?

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利