回归分析指南（了解逻辑回归） _数据分析

先决条件：线性回归
本文讨论了Logistic回归的基础知识及其在Python中的实现。 Logistic回归基本上是一种监督分类算法。在分类问题中, 目标变量(或输出)y对于给定的一组特征(或输入)X只能采用离散值。
与普遍的看法相反, 逻辑回归是一种回归模型。该模型构建回归模型, 以预测给定数据条目属于编号为" 1"的类别的概率。就像线性回归假设数据遵循线性函数一样, 逻辑回归使用S型函数对数据进行建模。

文章图片

文章图片
仅当将决策阈值引入画面时, 逻辑回归才成为分类技术。阈值的设置是Logistic回归的一个非常重要的方面, 并且取决于分类问题本身。
阈值的决定主要受以下因素的影响：精度和召回率。理想情况下, 我们希望精度和查全率都为1, 但这很少是这种情况。如果需要进行精确召回权衡, 我们使用以下参数来决定阈值：
1.低精度/高召回率：在我们希望减少误报的数量而不必减少误报的数量的应用中, 我们选择的决策值应具有较低的Precision值或较高的Recall值。例如, 在癌症诊断应用程序中, 我们不希望任何被误诊为癌症的患者都被分类为未受影响。这是因为, 可以通过进一步的医学疾病检测到癌症的缺乏, 但是在已经被拒绝的候选人中不能检测到疾病的存在。
2.高精度/低召回率：在我们想要减少误报的数量而不必减少误报的数量的应用中, 我们选择一个具有高Precision值或低Recall值的决策值。例如, 如果我们要分类客户对个性化广告的正面还是负面反应, 则我们要绝对确定客户会对广告正面反应, 因为否则, 负面反应可能会导致潜在的销售损失。
根据类别数, Logistic回归可分为：

二项式：目标变量只能有2种可能的类型：" 0"或" 1", 分别表示"获胜"与"失败", "通过"与"失败", "无效"与"有效"等。
多项式：目标变量可以具有3种或多种不排序的可能类型(即类型没有定量意义), 例如"疾病A"与"疾病B"与"疾病C"。
顺序：它处理具有排序类别的目标变量。例如, 测试分数可以归类为："非常差", "差", "好", "非常好"。在这里, 可以给每个类别一个分数, 例如0、1、2、3。

首先, 我们探讨Logistic回归的最简单形式, 即二项式Logistic回归.
二项式Logistic回归
考虑一个示例数据集, 该数据集将学习时间与考试结果对应起来。结果只能采用两个值, 即passed(1)或failed(0)：

Hours(x) 0.50 0.75 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00 3.25 3.50 3.75 4.00 4.25 4.50 4.75 5.00 5.50 Pass(y) 0 0 0 0 0 0 1 0 1 0 1 0 1 0 1 1 1 1 1 1

所以, 我们有

文章图片
表示的值

文章图片
功能

文章图片
观察。
在这里, 我们保持租赁的惯例

文章图片
=1。(请继续阅读, 稍后你将了解逻辑)。

文章图片
观察,

文章图片
, 可以表示为：

文章图片
代表的预期响应

文章图片
观察, 即

文章图片
。我们用来计算的公式

文章图片
叫做
假设
.
如果你已经进行了线性回归, 你应该记得在线性回归中, 我们用于预测的假设是：

文章图片
是回归系数。
让回归系数矩阵/向量

文章图片
是：

文章图片
取大于1或小于0的值。
因此, 对分类假设进行了一些修改：

文章图片
我们可以从上图推断：
g(z)趋于1

文章图片
g(z)趋于0, 因为

文章图片
g(z)始终在0到1之间
因此, 现在, 我们可以为2个标签(0和1)定义条件概率

文章图片
观察为：

文章图片
从而使成本函数最小化！
使用梯度下降算法
首先, 我们取

文章图片
每一个

文章图片
导出随机梯度下降规则(此处仅显示最终的导出值)：

文章图片
是代表观测值的向量

文章图片
特征。
现在, 为了得到最小

文章图片
,

文章图片
叫做
学习率
并且需要明确设置。
让我们在样本数据集上查看上述技术的python实现(从以下位置下载)
这里
)：
2.25 2.50 2.75 3.00 3.25 3.50 3.75 4.00 4.25 4.50 4.75 5.00 5.50

import csv import numpy as np import matplotlib.pyplot as pltdef loadCSV(filename): ''' function to load dataset ''' with open (filename, "r" ) as csvfile: lines = csv.reader(csvfile) dataset = list (lines) for i in range ( len (dataset)): dataset[i] = [ float (x) for x in dataset[i]] return np.array(dataset)def normalize(X): ''' function to normalize feature matrix, X ''' mins = np. min (X, axis = 0 ) maxs = np. max (X, axis = 0 ) rng = maxs - mins norm_X = 1 - ((maxs - X) /rng) return norm_Xdef logistic_func(beta, X): ''' logistic(sigmoid) function ''' return 1.0 /( 1 + np.exp( - np.dot(X, beta.T)))def log_gradient(beta, X, y): ''' logistic gradient function ''' first_calc = logistic_func(beta, X) - y.reshape(X.shape[ 0 ], - 1 ) final_calc = np.dot(first_calc.T, X) return final_calcdef cost_func(beta, X, y): ''' cost function, J ''' log_func_v = logistic_func(beta, X) y = np.squeeze(y) step1 = y * np.log(log_func_v) step2 = ( 1 - y) * np.log( 1 - log_func_v) final = - step1 - step2 return np.mean(final)def grad_desc(X, y, beta, lr = . 01 , converge_change = . 001 ): ''' gradient descent function ''' cost = cost_func(beta, X, y) change_cost = 1 num_iter = 1while (change_cost> converge_change): old_cost = cost beta = beta - (lr * log_gradient(beta, X, y)) cost = cost_func(beta, X, y) change_cost = old_cost - cost num_iter + = 1return beta, num_iter def pred_values(beta, X): ''' function to predict labels ''' pred_prob = logistic_func(beta, X) pred_value = https://www.lsbin.com/np.where(pred_prob> = . 5 , 1 , 0 ) return np.squeeze(pred_value)def plot_reg(X, y, beta):''' function to plot decision boundary ''' # labelled observations x_0 = X[np.where(y = = 0.0 )] x_1 = X[np.where(y = = 1.0 )]# plotting points with diff color for diff label plt.scatter([x_0[:, 1 ]], [x_0[:, 2 ]], c = 'b' , label = 'y = 0' ) plt.scatter([x_1[:, 1 ]], [x_1[:, 2 ]], c = 'r' , label = 'y = 1' )# plotting decision boundary x1 = np.arange( 0 , 1 , 0.1 ) x2 = - (beta[ 0 , 0 ] + beta[ 0 , 1 ] * x1) /beta[ 0 , 2 ] plt.plot(x1, x2, c = 'k' , label = 'reg line' )plt.xlabel( 'x1' ) plt.ylabel( 'x2' ) plt.legend() plt.show()if __name__ = = "__main__" : # load the dataset dataset = loadCSV( 'dataset1.csv' )# normalizing feature matrix X = normalize(dataset[:, : - 1 ])# stacking columns wth all ones in feature matrix X = np.hstack((np.matrix(np.ones(X.shape[ 0 ])).T, X))# response vector y = dataset[:, - 1 ]# initial beta values beta = np.matrix(np.zeros(X.shape[ 1 ]))# beta values after running gradient descent beta, num_iter = grad_desc(X, y, beta)# estimated beta values and number of iterations print ( "Estimated regression coefficients:" , beta) print ( "No. of iterations:" , num_iter)# predicted labels y_pred = pred_values(beta, X)# number of correctly predicted labels print ( "Correctly predicted labels:" , np. sum (y = = y_pred))# plotting regression line plot_reg(X, y, beta)

Estimated regression coefficients: [[1.7047450415.04062212 -20.47216021]] No. of iterations: 2612 Correctly predicted labels: 100

文章图片
注意：梯度下降是多种估算方法之一

文章图片
.
基本上, 这些是更高级的算法, 一旦你定义了成本函数和梯度, 就可以轻松地在Python中运行。这些算法是：

BFGS(Broyden–Fletcher–Goldfarb–Shanno算法)
L-BFGS(类似于BFGS, 但使用的内存有限)
共轭梯度

与梯度下降相比, 使用这些算法中的任何一种的优点/缺点：

优点
- 不需要选择学习率
- 通常运行得更快(并非总是如此)
- 可以从数字上为你近似渐变(不一定总是很好)
缺点
- 更复杂
- 除非你了解细节, 否则更多是黑匣子

多项式Logistic回归
在多项式Logistic回归中, 输出变量可以具有
超过两个可能的离散输出
。考虑一下
数字数据集
。在此, 输出变量是数字值, 可以取不到(0、12、3、4、5、6、7、8、9)中的值。
下面给出了使用scikit-learn对数字数据集进行预测的多项式Logisitc回归的实现。

from sklearn import datasets, linear_model, metrics# load the digit dataset digits = datasets.load_digits()# defining feature matrix(X) and response vector(y) X = digits.data y = digits.target# splitting X and y into training and testing sets from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4 , random_state = 1 )# create logistic regression object reg = linear_model.LogisticRegression()# train the model using the training sets reg.fit(X_train, y_train)# making predictions on the testing set y_pred = reg.predict(X_test)# comparing actual response values (y_test) with predicted response values (y_pred) print ( "Logistic Regression model accuracy(in %):" , metrics.accuracy_score(y_test, y_pred) * 100 )