Python数据科学：神经网络

＃极值标准化处理

scaler ＝ MinMaxScaler（）

scaler．fit（train＿data）

scaled＿train＿data ＝ scaler．transform（train＿data）

scaler＿test＿data ＝ scaler．transform（test＿data）

建立多层感知器模型。

＃设置多层感知器对应的模型

mlp ＝ MLPClassifier（hidden＿layer＿sizes＝（10，）， activation＝＇logistic＇， alpha＝0．1， max＿iter＝1000）

＃对训练集进行模型训练

mlp．fit（scaled＿train＿data， train＿target）

＃输出神经网络模型信息

print（mlp）

输出模型信息如下。

接下来使用经过训练集训练的模型，对训练集及测试集进行预测。

＃使用模型进行预测

train＿predict ＝ mlp．predict（scaled＿train＿data）

test＿predict ＝ mlp．predict（scaler＿test＿data）

输出预测概率，用户流失的概率。

＃输出模型预测概率（为1的情况）

train＿proba ＝ mlp．predict＿proba（scaled＿train＿data）［：， 1］

test＿proba ＝ mlp．predict＿proba（scaler＿test＿data）［：， 1］

对模型进行评估，输出评估数据。

＃根据预测信息输出模型评估结果

print（metrics．confusion＿matrix（test＿target， test＿predict， labels＝［0， 1］））

print（metrics．classification＿report（test＿target， test＿predict））

输出如下。

模型对流失用户的f1－score（精确率和召回率的调和平均数）值为0．81，效果不错。

此外对流失用户的灵敏度recall为0．83，模型能识别出83％的流失用户，说明模型识别流失用户的能力还可以。

输出模型预测的平均准确度。

＃使用指定数据集输出模型预测的平均准确度

print（mlp．score（scaler＿test＿data， test＿target））

＃输出值为0．8282828282828283

平均准确度值为0．8282。

计算模型的ROC下面积。

＃绘制ROC曲线

fpr＿test， tpr＿test， th＿test ＝ metrics．roc＿curve（test＿target， test＿proba）

fpr＿train， tpr＿train， th＿train ＝ metrics．roc＿curve（train＿target， train＿proba）

plt．figure（figsize＝［3， 3］）

plt．plot（fpr＿test， tpr＿test，＇b－－＇）

plt．plot（fpr＿train， tpr＿train，＇r－＇）

plt．title（＇ROC curve＇）

plt．show（）

＃计算AUC值

print（metrics．roc＿auc＿score（test＿target， test＿proba））

＃输出值为0．9149632415075206

ROC曲线图如下。

训练集和测试集的曲线很接近，没有过拟合现象。

AUC值为0．9149，说明模型效果非常好。

对模型进行最优参数搜索，并且对最优参数下的模型进行训练。

余下全文 2/3

相关推荐