当前位置：首页 > SEO教程 >

汽车网站源码购买指南：如何获取专业图书网站的建设代码？

96SEO 2026-02-19 10:38 19

。

卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心#xff0c;让分箱具有统计学意义#xff08;单调性#xff09;。

卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别。

但很多建模人员搞不清楚…统计学风控建模经常遇到卡方分箱算法ChiMerge。

卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心让分箱具有统计学意义单调性。

卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别。

但很多建模人员搞不清楚卡方分箱原理。

先给大家介绍一下经常被提到的卡方分布和卡方检验是什么。

欢迎各位同学学习更多相关知识python金融风控评分卡模型和数据分析https://edu.csdn.net/combo/detail/1927

一、卡方分布

χ2-distribution)是概率统计里常用的一种概率分布也是统计推断里应用最广泛的概率分布之一在假设检验与置信区间的计算中经常能见到卡方分布的身影。

Z2,...,

χ2检验是以χ2分布为基础的一种假设检验方法主要用于分类变量之间的独立性检验。

其基本思想是根据样本数据推断总体的分布与期望分布是否有显著性差异或者推断两个分类变量是否相关或者独立。

实际应用中我们先假设原假设成立计算出卡方的值卡方表示观察值与理论值间的偏离程度。

其中A为实际频数E为期望频数。

卡方值用于衡量实际值与理论值的差异程度这也是卡方检验的核心思想。

1.实际值与理论值偏差的绝对大小。

2.差异程度与理论值的相对大小。

上述计算的卡方值服从卡方分布。

根据卡方分布卡方统计量以及自由度可以确定在原假设成立的情况下获得当前统计量以及更极端情况的概率p。

如果p很小说明观察值与理论值的偏离程度大应该拒绝原假设。

否则不能拒绝原假设。

三、卡方检验实例

某医院对某种病症的患者使用了AB两种不同的疗法结果如表1问两种疗法有无差别

第1行1列43×53/8726.2

得到卡方值以后接下来需要查询卡方分布表来判断p值从而做出接受或拒绝原假设的决定。

首先我们明确自由度的概念自由度k(行数-1)*(列数-1)。

这里k1.然后看卡方分布的临界概率表我们可以用如下代码生成

#python金融风控评分卡模型和数据分析https://edu.csdn.net/combo/detail/1927

#讲师csdn学院教学主页https://edu.csdn.net/lecturer/5602

from

pd.DataFrame(np.array([chi2.isf(percents,

dfi)

查表自由度为1,p0.05的卡方值为3.841而此例卡方值10.013.841因此

0.05说明原假设在0.05的显著性水平下是可以拒绝的。

也就是说原假设不成立。

四、ChiMerge分箱算法

首先按照属性值的大小进行排序对于非连续特征需要先做数值转换比如转为坏人率然后排序然后每个属性值单独作为一组。

2.合并阶段

3不断重复12直到计算出的卡方值都不低于事先设定的阈值或者分组数达到一定的条件如最小分组数5最大分组数8。

值得注意的是小编之前发现有的实现方法在合并阶段计算的并非相邻组的卡方值只考虑在此两组内的样本并计算期望频数因为他们用整体样本来计算此相邻两组的期望频数。

下图是著名的鸢尾花数据集sepal-length属性值的分组及相邻组的卡方值。

最左侧是属性值中间3列是class的频数最右是卡方值。

这个分箱是以卡方阈值1.4的结果。

可以看出最小的组为[6.77.0它的卡方值是1.5。

如果进一步提高阈值如设置为4.6那么以上分箱还将继续合并最终的分箱如下图

卡方分箱除了用阈值来做约束条件还可以进一步的加入分箱数约束以及最小箱占比坏人率约束等。

卡方分箱之python代码实

在上篇文章中介绍了卡方分箱的基本思想和方法都是概念性的东西也没有给出具体的代码实现。

这篇文章就来介绍下小编写的ChiMerge算法的实现。

卡方值计算

计算卡方值的函数需要输入numpy格式的频数表。

对于pandas数据集只需使用pd.crosstab计算即可例如变量“总账户数”

目标变量

Ei,j有可能是0此时上一步计算出来的结果无意义需要清除不计入最终结果。

代码如下

卡方分箱函数可以根据最大分组数目和卡方阈值来控制最终的分箱数。

如果调用时既没有设置最大分组数也没有指定阈值那么函数会自动使用95%的置信度设置阈值。

如果当前计算出的卡方值小于已观察到的最小卡方值则标记当前坐标并更新已观察最小卡方值为当前值。

3扫描一遍后如果当前分组数大于最大分组数或者最小卡方值小于阈值就将最小卡方值对应的两组频数合并区间也合并。

并回第2步执行。

否则停止合并。

输出当前各组的区间切分点。

代码如下

卡方分箱完成后得到了各个分组的区间起始值。

对于任给的一个变量值x可以使用如下的函数获得分组值。

代码如下

需要注意的是如果需要转换的值x不在分箱区间之内很有可能是异常值不应该期望上面的函数来处理这种情况而应采用专门的异常值处理程序。

除了y变量外还有3个变量贷款额度loan_amnt数值型总账户数total_acc数值型地址州addr_state类别型。

对总账户数total_acc进行分箱:

#python金融风控评分卡模型和数据分析https://edu.csdn.net/combo/detail/1927#讲师csdn学院教学主页https://edu.csdn.net/lecturer/5602data

sep\t,

定义一个卡方分箱可设置参数置信度水平与箱的个数停止条件为大于置信水平且小于bin的数目def

ChiMerge(df,

npdf:传入一个数据框仅包含一个需要卡方分箱的变量与正负样本标识正样本为1负样本为0variable:需要卡方分箱的变量名称字符串confidenceVal置信度水平默认是不进行抽样95%sample:

df.groupby([variable])[flag].count()

total_num})

df.groupby([variable])[flag].sum()

positive_class})

组合total_num与positive_classregroup.reset_index(inplaceTrue)regroup[negative_class]

regroup[total_num]

把数据框转化为numpy提高运行效率print(已完成数据读入,正在计算数据初处理)#处理连续没有正样本或负样本的区间并进行区间的合并以免卡方值计算报错while

np_regroup.shape[0]

chi)print(已完成数据初处理正在进行卡方分箱核心操作)if

(len(chi_table)

找出卡方值最小的位置索引np_regroup[chi_min_index,

0]np_regroup

计算合并后当前区间与前一个区间的卡方值并替换chi_table[chi_min_index

1])

计算合并后当前区间与前一个区间的卡方值并替换chi_table[chi_min_index

1])

计算合并后当前区间与后一个区间的卡方值并替换chi_table[chi_min_index]

1])

axis0)print(已完成卡方分箱核心操作正在保存结果)result_data

pd.DataFrame()

创建一个保存结果的数据框result_data[variable]

[variable]

np.arange(np_regroup.shape[0]):x

str(np_regroup[i,

0])list_temp.append(x)result_data[interval]

list_temp

欢迎访问讲师csdn学院教学主页https://edu.csdn.net/lecturer/5602学习更多python金融模型实战。

遵循CC

4.0

标签： 广告营销公司做网站需要准备哪些东西汽车网站源码

为您推荐

SEO优化服务概述

作为专业的SEO优化服务提供商，我们致力于通过科学、系统的搜索引擎优化策略，帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。

百度官方合作伙伴白帽SEO技术数据驱动优化效果长期稳定

SEO优化核心服务

网站技术SEO

网站结构优化 - 提升网站爬虫可访问性
页面速度优化 - 缩短加载时间，提高用户体验
移动端适配 - 确保移动设备友好性
HTTPS安全协议 - 提升网站安全性与信任度
结构化数据标记 - 增强搜索结果显示效果

内容优化服务

关键词研究与布局 - 精准定位目标关键词
高质量内容创作 - 原创、专业、有价值的内容
Meta标签优化 - 提升点击率和相关性
内容更新策略 - 保持网站内容新鲜度
多媒体内容优化 - 图片、视频SEO优化

外链建设策略

高质量外链获取 - 权威网站链接建设
品牌提及监控 - 追踪品牌在线曝光
行业目录提交 - 提升网站基础权威
社交媒体整合 - 增强内容传播力
链接质量分析 - 避免低质量链接风险

SEO服务方案对比

服务项目	基础套餐	标准套餐	高级定制
关键词优化数量	10-20个核心词	30-50个核心词+长尾词	80-150个全方位覆盖
内容优化	基础页面优化	全站内容优化+每月5篇原创	个性化内容策略+每月15篇原创
技术SEO	基本技术检查	全面技术优化+移动适配	深度技术重构+性能优化
外链建设	每月5-10条	每月20-30条高质量外链	每月50+条多渠道外链
数据报告	月度基础报告	双周详细报告+分析	每周深度报告+策略调整
效果保障	3-6个月见效	2-4个月见效	1-3个月快速见效

SEO优化实施流程

我们的SEO优化服务遵循科学严谨的流程，确保每一步都基于数据分析和行业最佳实践：

网站诊断分析

全面检测网站技术问题、内容质量、竞争对手情况，制定个性化优化方案。

关键词策略制定

基于用户搜索意图和商业目标，制定全面的关键词矩阵和布局策略。

技术优化实施

解决网站技术问题，优化网站结构，提升页面速度和移动端体验。

内容优化建设

创作高质量原创内容，优化现有页面，建立内容更新机制。

外链建设推广

获取高质量外部链接，建立品牌在线影响力，提升网站权威度。

数据监控调整

持续监控排名、流量和转化数据，根据效果调整优化策略。

SEO优化常见问题

SEO优化一般需要多长时间才能看到效果？

SEO是一个渐进的过程，通常需要3-6个月才能看到明显效果。具体时间取决于网站现状、竞争程度和优化强度。我们的标准套餐一般在2-4个月内开始显现效果，高级定制方案可能在1-3个月内就能看到初步成果。

你们使用白帽SEO技术还是黑帽技术？

我们始终坚持使用白帽SEO技术，遵循搜索引擎的官方指南。我们的优化策略注重长期效果和可持续性，绝不使用任何可能导致网站被惩罚的违规手段。作为百度官方合作伙伴，我们承诺提供安全、合规的SEO服务。

SEO优化后效果能持续多久？

通过我们的白帽SEO策略获得的排名和流量具有长期稳定性。一旦网站达到理想排名，只需适当的维护和更新，效果可以持续数年。我们提供优化后维护服务，确保您的网站长期保持竞争优势。

你们提供SEO优化效果保障吗？

我们提供基于数据的SEO效果承诺。根据服务套餐不同，我们承诺在约定时间内将核心关键词优化到指定排名位置，或实现约定的自然流量增长目标。所有承诺都会在服务合同中明确约定，并提供详细的KPI衡量标准。

SEO优化效果数据

基于我们服务的客户数据统计，平均优化效果如下：

+85%

自然搜索流量提升

+120%

关键词排名数量

+60%

网站转化率提升

3-6月

平均见效周期

行业案例 - 制造业

优化前：日均自然流量120，核心词无排名
优化6个月后：日均自然流量950，15个核心词首页排名
效果提升：流量增长692%，询盘量增加320%

行业案例 - 电商

优化前：月均自然订单50单，转化率1.2%
优化4个月后：月均自然订单210单，转化率2.8%
效果提升：订单增长320%，转化率提升133%

行业案例 - 教育

优化前：月均咨询量35个，主要依赖付费广告
优化5个月后：月均咨询量180个，自然流量占比65%
效果提升：咨询量增长414%，营销成本降低57%

为什么选择我们的SEO服务

专业团队

10年以上SEO经验专家带队
百度、Google认证工程师
内容创作、技术开发、数据分析多领域团队
持续培训保持技术领先

数据驱动

自主研发SEO分析工具
实时排名监控系统
竞争对手深度分析
效果可视化报告

透明合作

清晰的服务内容和价格
定期进展汇报和沟通
效果数据实时可查
灵活的合同条款

我们的SEO服务理念

我们坚信，真正的SEO优化不仅仅是追求排名，而是通过提供优质内容、优化用户体验、建立网站权威，最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系，共同成长。

SEO教程

汽车网站源码购买指南：如何获取专业图书网站的建设代码？

一、卡方分布

Z2,...,

三、卡方检验实例

第1行1列43×53/8726.2

from

dfi)

四、ChiMerge分箱算法

2.合并阶段

卡方分箱之python代码实

卡方值计算

目标变量

代码如下

代码如下

代码如下

对总账户数total_acc进行分箱:

sep\t,

ChiMerge(df,

total_num})

positive_class})

regroup[total_num]

np_regroup.shape[0]

(len(chi_table)

0]np_regroup

1])

1])

1])

pd.DataFrame()

[variable]

str(np_regroup[i,

list_temp

4.0

为您推荐

SEO优化服务内容导航

SEO优化服务概述

SEO优化核心服务

网站技术SEO

内容优化服务

外链建设策略

SEO服务方案对比

SEO优化实施流程

网站诊断分析

关键词策略制定

技术优化实施

内容优化建设

外链建设推广

数据监控调整

SEO优化常见问题

SEO优化效果数据

行业案例 - 制造业

行业案例 - 电商

行业案例 - 教育

为什么选择我们的SEO服务

专业团队

数据驱动

透明合作

我们的SEO服务理念

提交需求或反馈

产品中心

SEO基础

SEO技术

联系我们

QQ在线客服

关注微信