96SEO 2026-02-19 16:17 10
该项目是很早期的一个工作属于互联网信贷风控场景研究并应用信贷中的拒绝推断任务处理方式也许对于目前的一些业务还有参考意义因此这里做下分享。

拒绝推断是指在信贷业务中利用已知的接受客户即通过信贷审批的客户的信息来推断被拒绝客户未通过信贷审批的客户的表现以更准确地评估信贷风险和建立更有效的信用评估模型。
因此业务的总目标是构建有效的用户评分模型评估贷款申请者是否有能力如期偿还贷款。
具体要做的事情是从已建立的审批体系中拒绝的用户中捞回好用户更好的管理资产打标资产。
任务的初始想法我们往往只能观察到部分用户的贷后行为无法获取被拒绝的申请者的贷后表现。
仅使用部分有贷后的数据为估计总体而建立的评分模型存在参数估计的偏差导致好的用户被拒绝造成损失。
也就是我们通常说的二八20%用户被通过80%的用户被拒绝这80%中可能蕴含着数量可观的好用户。
在我们当前的场景下通过的用户比例更少平均只有5%左右95%都被拒绝了。
因此造成了很大的资源浪费。
在实际信贷业务中通常只有接受客户的完整数据包括他们的信用特征和还款表现等。
而被拒绝客户只有申请时的部分信息没有后续的还款表现数据。
拒绝推断可以弥补被拒绝客户数据的缺失使样本更具完整性从而提高信用评估模型的准确性和可靠性。
仅基于接受客户的数据建立的信用评估模型可能存在偏差因为它没有考虑到被拒绝客户的潜在风险。
通过拒绝推断可以将被拒绝客户的特征纳入分析更全面地了解不同风险水平的客户群体从而提高风险评估的准确性。
1如何利用被拒绝的用户样本信息使得能够对总体数据建立较完备的模型。
可以看出当有足够更丰富的数据来描述数据分布Px时我们可以获得更加可靠的模型对于真是数据的分布估计。
用户基础信息年龄、学历、身份证所属身份等信用卡/消费信息持卡、信用卡账单、线下消费分期等通讯录及通信行为手机号归属城市、通讯录亲属信息、注册时长、近期呼入呼出行为及时长等Applist信息高危app安装、母婴等各类型app安装情况、APP风险分类情况等设备指纹设备号相关风险信息、手机型号、设备GPS信息等申请行为风险总拒绝次数、同邮箱/号码等关联多idno、短期频繁申请行为、申请时段信息等案件平台信息基于关系网络的黑名单、设备共用、几度邻居的逾期情况等三方分反欺诈、多头、借款逾期信息、征信、电商等
其中pyi是这个组中响应客户风险模型中对应的是违约客户总之指的是模型中预测变量取值为“是”或者说1的个体占所有样本中所有响应客户的比例pni是这个组中未响应客户占样本中所有未响应客户的比例#yi是这个组中响应客户的数量#ni是这个组中未响应客户的数量#yT是样本中所有响应客户的数量#nT是样本中所有未响应客户的数量。
从这个公式中我们可以体会到WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。
看每个特征在随机森林中的每棵树上做了多大的贡献然后取平均值最后比较不同特征之间的贡献大小。
贡献度的衡量指标包括基尼指数gini、袋外数据OOB错误率作为评价指标来衡量。
存在大量被拒绝的用户“拒绝(未知贷后表现)的用户”是“有贷后表现用户”的约20倍
Lable{(xi,yi)},Unlabled{(xi)}.并且数量上,LU.
3.两者都使用,在1中加入无标记样本,增强有监督分类的效果;同样的,在2中加入有标记样本,增强无监督聚类的效果。
在我们的实践中半监督分类学习侧重于在有监督的分类算法中加入无标记样本/信息来实现半监督分类。
也就是在无类标签的样例的帮助下训练有类标签的样本获得比只用有类标签的样本训练得到的分类器性能更优的分类器弥补有类标签的样本不足的缺陷其中类标签yi取有限离散值yi∈{c1,c2,···,cc},cj∈N。
SSL的成立依赖于模型假设当模型假设正确时无类标签的样例能够帮助改进学习性能。
SSL依赖的两种主要假设
当两个样例位于同一聚类簇时它们在很大的概率下有相同的类标签这个假设的等价定义为低密度分离假设Low
据区域的样例分到决策边界两侧平滑假设有点类似聚类假设位于稠密数据区域的两个距离很近的样例的类标签相似。
将高维数据嵌入到低维流形中当两个样例位于低维流形中的一个小局部邻域内时它们具有相似的类标签。
许多实验研究表明当SSL不满足这些假设或模型假设不正确时无类标签的样例不仅不能对学习性能起到改进作用反而会恶化学习性能导致
变分自编码器VAEs是学习低维数据表示的强大模型将高维的数据映射到低维
使该低维的数据能够反映原高维数据的某些本质结构特征。
关于VAE的算法原理可以参考我们之前的文章《生成式模型与判别式模型对比(涉及VAE、CRF的数学原理详述)》。
标签扩散模型基于图的结构将已知标签信息从已标记的节点传播到未标记的节点。
其核心思想是利用节点之间的相似性或连接关系通过扩散的方式推断未标记节点的标签。
在一个图中节点代表数据对象边表示节点之间的关系。
如果两个节点之间存在较强的连接或相似性那么它们更有可能具有相同的标签。
标签扩散模型通过在图上进行迭代传播逐渐将标签信息从已标记的节点传播到未标记的节点直到达到一定的收敛条件。
在仅有部分数据有标签的情况下标签扩散模型可以利用已标记数据的信息来推断未标记数据的标签从而提高学习效果。
从某种角度看标签扩散过程中如果节点之间的连接紧密且具有相似的标签传播趋势可能会在一定程度上形成类似聚类的效果。
即具有相似标签的节点在传播过程中会逐渐聚集在一起。
事实上基于共同特征、向量相似度等都可以建立图结构。
过程类似朴素贝叶斯模型假设特征相互独立对每个特征作直方图连乘样例特征在各个直方图中的频率得到生成概率。
优点速度快适合大数据情形。
缺点特征相互独立条件强现实中可能不符合不适合异常数据过多的情形。
个近邻的平均局部可达密度分母是该数据点的局部可达密度。
可达密度中分子是
negative时需要学习训练数据的边界。
假设最好的边界要远离特征空间中的原点目标转换到特征空间就是找一个离原点比较远的边界。
适用于异常点较少的情况采用构造多个决策树的方式进行异常检测。
对数据集有放回抽样构建二叉树时随机选取一个特征和分割点将数据分类直至达到一定深度或叶子节点只包含一个数据点。
数据点在多个二叉树上的平均深度越浅越可能是异常值。
只适合检测全局异常点不适合检测局部异常点。
LR属于线性模型易处理离散特征容易并行化可以轻松处理上亿条数据但是学习能力十分有限需要大量的特征工程来增加模型的学习能力。
GBDT也是一种经常用来发现特征组合的有效思路。
将训练完GBDT的叶子节点对应为LR的每一维特征由于GBDT从根节点到叶子节点的路径每个分割节点都是选择使得平方损失误差达到最小的节点和分割点所以该条路径上特征的组合具有一定的区分性。
目标尽可能识别出逾期风险大的用户进行排除特别强调对坏人的识别能力。
order优化的AdaXgboost能够基于错分的数据进行采样权重的动态调整。
的基本思想是利用已有的源域数据和少量的目标域数据进行学习从而提升目标域任务的性能。
它通过调整源域样本的权重使得那些对目标域任务更有帮助的源域样本在后续的学习中起到更大的作用。
在每一轮迭代中TrAdaBoost
会根据当前分类器在目标域数据上的错误率来调整源域和目标域样本的权重。
如果一个源域样本被错误分类那么它的权重会降低如果一个目标域样本被错误分类那么它的权重会增加。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback