python分箱函数 python等宽分箱 _函数

python用卡方检验，自动分箱，结果是否可靠有待验证def calc_chiSquare(sampleSet, feature, target):
'''
计算某个特征每种属性值python分箱函数的卡方统计量
params:
sampleSet: 样本集
feature: 目标特征
target: 目标Y值 (0或1) Y值为二分类变量
return:
卡方统计量dataframe
feature: 特征名称
act_target_cnt: 实际坏样本数
expected_target_cntpython分箱函数：期望坏样本数
chi_square：卡方统计量
'''
# 计算样本期望频率
target_cnt = sampleSet[target].sum()
sample_cnt = len(sampleSet[target])
expected_ratio = target_cnt * 1.0/sample_cnt
# 对变量按属性值从大到小排序
df = sampleSet[[feature, target]]
col_value = https://www.04ip.com/post/list(set(df[feature]))
# 计算每一个属性值对应python分箱函数的卡方统计量等信息
chi_list = []; target_list = []; expected_target_list = []
for value in col_value:
df_target_cnt = df.loc[df[feature] == value, target].sum()
df_cnt = len(df.loc[df[feature] == value, target])
expected_target_cnt = df_cnt * expected_ratio
chi_square = (df_target_cnt - expected_target_cnt)**2 / expected_target_cnt
chi_list.append(chi_square)
target_list.append(df_target_cnt)
expected_target_list.append(expected_target_cnt)
# 结果输出到dataframe, 对应字段为特征属性值, 卡方统计量, 实际坏样本量, 期望坏样本量
chi_stats = pd.DataFrame({feature:col_value, 'chi_square':chi_list,
'act_target_cnt':target_list, 'expected_target_cnt':expected_target_list})
return chi_stats[[feature, 'act_target_cnt', 'expected_target_cnt', 'chi_square']]
def chiMerge_maxInterval(chi_stats, feature, maxInterval=5):
'''
卡方分箱合并--最大区间限制法
params:
chi_stats: 卡方统计量dataframe
feature: 目标特征
maxInterval：最大分箱数阈值
return:
卡方合并结果dataframe, 特征分割split_list
'''
group_cnt = len(chi_stats)
split_list = [chi_stats[feature].min()]
# 如果变量区间超过最大分箱限制python分箱函数，则根据合并原则进行合并
while(group_cntmaxInterval):
min_index = chi_stats[chi_stats['chi_square']==chi_stats['chi_square'].min()].index.tolist()[0]
# 如果分箱区间在最前,则向下合并
if min_index == 0:
chi_stats = merge_chiSquare(chi_stats, min_index+1, min_index)
# 如果分箱区间在最后python分箱函数，则向上合并
elif min_index == group_cnt-1:
chi_stats = merge_chiSquare(chi_stats, min_index-1, min_index)
# 如果分箱区间在中间，则判断与其相邻的最小卡方的区间，然后进行合并
else:
if chi_stats.loc[min_index-1, 'chi_square']chi_stats.loc[min_index+1, 'chi_square']:
chi_stats = merge_chiSquare(chi_stats, min_index, min_index+1)
else:
chi_stats = merge_chiSquare(chi_stats, min_index-1, min_index)
group_cnt = len(chi_stats)
chiMerge_result = chi_stats
split_list.extend(chiMerge_result[feature].tolist())
return chiMerge_result, split_list
def chiMerge_minChiSquare(chi_stats, feature, dfree=4, cf=0.1, maxInterval=5):
'''
卡方分箱合并--卡方阈值法
params:
chi_stats: 卡方统计量dataframe
feature: 目标特征
maxInterval: 最大分箱数阈值, default 5
dfree: 自由度, 最大分箱数-1, default 4
cf: 显著性水平, default 10%
return:
卡方合并结果dataframe, 特征分割split_list
'''
threshold = get_chiSquare_distuibution(dfree, cf)
min_chiSquare = chi_stats['chi_square'].min()
group_cnt = len(chi_stats)
split_list = [chi_stats[feature].min()]
# 如果变量区间的最小卡方值小于阈值，则继续合并直到最小值大于等于阈值

python分箱函数 python等宽分箱

推荐阅读

铋是什么物质

精华液什么年龄开始用

html5统计分析页面模板

2022奥运吉祥物设计者是 2022年奥运吉祥物是谁设计的

地动山摇的意思是什么(简写地动山摇的意思

qq手机助手电脑版|qq手机助手电脑版 v5.1.2 官方版

幼儿桌面小游戏，幼儿桌面游戏名称大全

佳能1dx值得买吗佳能1dx最好配什么镜头

骑马与砍杀2格挡技巧心得分享骑砍2格挡怎么练习

法院拖延开庭时间怎么办呢法院拖延开庭时间怎么办

花木兰历史上真的存在吗

显卡驱动程序无法正常安装怎么办？显卡驱动程序已过期，怎么办？

小组讨论分析原因常用的工具

有没有第一次见就让人惊艳的口红？

三点水怎么读三点水读音

摩托车和汽车相撞怎么处理

Life|Life With Vim[0] 批量格式化和去重

请问海尔和美的空调比较,专业师傅教你点简单的

我爱读书手抄报我爱读书手抄报的画法

什么是R角