数据挖掘案例: 泰坦尼克号

栏目:人物资讯  时间:2023-08-01
手机版

  (一)数据读取:

  读取数据,并进行展示统计数据各项指标明确数据规模与要完成任务 (二)特征理解分析

  单特征分析,逐个变量分析其对结果的影响多变量统计分析,综合考虑多种情况影响统计绘图得出结论 (三)数据清洗与预处理

  对缺失值进行填充特征标准化/归一化筛选有价值的特征分析特征之间的相关性 (四)建立模型

  特征数据与标签准备数据集切分多种建模算法对比集成策略等方案改进 在这里插入图片描述

  在这里插入图片描述

  统计获救情况 在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  船舱等级和性别对结果的影响 在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  Oldest Passenger was of: 80.0 Years

  Youngest Passenger was of: 0.42 Years

  Average Age on the ship: 29.69911764705882 Years

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  False

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  False

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  Highest Fare was: 512.3292

  Lowest Fare was: 0.0

  Average Fare was: 32.2042079685746

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  (623, 9)

  (623, 1)

  (268, 9)

  (268, 1)

  Accuracy for logistic regression is 0.7947761194029851

  Accuracy for linear SVM is 0.7761194029850746

  Accuracy for rbf SVM is 0.8171641791044776

  Accuracy for decision tree classifier is 0.7835820895522388

  Accuracy for random forest classifier is 0.7873134328358209

  Accuracy for KNN classifier is 0.7873134328358209

  Accuracies for different values of n are: [0.72761194 0.78731343 0.78358209 0.79477612 0.78731343 0.77985075

  0.77238806 0.7761194 0.7761194 0.77238806]

  with the max value is 0.7947761194029851

  在这里插入图片描述

  The accuracy of the NaiveBayes is 0.7985074626865671

  The accuracy of the gradient boosting is 0.8246268656716418

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

  0.8327721661054994

  {‘C’: 0.8, ‘gamma’: 0.1, ‘kernel’: ‘rbf’}

  0.8338945005611672

  在这里插入图片描述

  The accuracy for ensembled model is: 0.8171641791044776

  The score validated score is 0.8282984337759618

  The accuracy for bagged KNN is: 0.7947761194029851

  The cross validated score for bagged KNN is: 0.7957496311428895

  The accuracy for bagged Decision Tree is: 0.7761194029850746

  The cross validated score for bagged Decision Tree is: 0.8070369424582908

  0.8327553626149132

  0.8327721661054994

  AdaBoostClassifier(algorithm=‘SAMME.R’, base_estimator=None,

  learning_rate=0.05, n_estimators=200, random_state=42)

  在这里插入图片描述

  0.8160265577119509

  0.8282828282828283

  在这里插入图片描述

  在这里插入图片描述

  在这里插入图片描述

上一篇:总去做足疗上瘾是怎么回事?
下一篇:日林斯基