第2章:快速入门指南
欢迎来到 Scikit-learn 的快速入门指南!本章将通过一个完整的机器学习示例,让你快速体验从数据加载到模型预测的整个流程。
2.1 机器学习基本概念
在开始编码之前,让我们先了解几个核心概念:
- 特征(Features):用于预测的输入变量,通常用 X 表示
- 标签(Labels):我们要预测的目标变量,通常用 y 表示
- 训练集:用于训练模型的数据
- 测试集:用于评估模型性能的数据
- 模型:学习数据模式的算法
2.2 第一个机器学习项目:鸢尾花分类
我们将使用著名的鸢尾花数据集来构建一个分类模型。这个数据集包含150个鸢尾花样本,每个样本有4个特征,需要预测3种花的类别。
步骤1:导入必要的库
步骤2:加载和探索数据
步骤3:数据探索和可视化
步骤4:数据可视化
步骤5:数据分割
步骤6:训练模型
步骤7:模型预测
步骤8:模型评估
步骤9:模型应用
2.3 完整代码示例
将上述所有步骤整合成一个完整的脚本:
2.4 Scikit-learn 的核心优势
通过这个简单的例子,我们可以看到 Scikit-learn 的几个核心优势:
1. 统一的API设计
所有模型都遵循相同的接口:
fit(X, y): 训练模型predict(X): 进行预测score(X, y): 评估性能
2. 丰富的算法库
3. 完整的工具链
- 数据预处理
- 模型选择
- 性能评估
- 交叉验证
2.5 常见的机器学习工作流
2.6 练习题
练习1:基础操作
- 使用不同的
test_size值(0.1, 0.3, 0.4),观察对模型性能的影响 - 尝试不设置
random_state,多次运行代码,观察结果的变化
练习2:算法比较
使用以下算法对鸢尾花数据集进行分类,比较它们的性能:
- 决策树 (
DecisionTreeClassifier) - 随机森林 (
RandomForestClassifier) - 支持向量机 (
SVC)
练习3:数据探索
- 计算每个特征的平均值和标准差
- 找出哪两个特征之间的相关性最强
- 绘制每个类别在二维特征空间中的分布
练习4:预测新样本
创建5个新的鸢尾花样本,使用训练好的模型进行预测,并分析预测的置信度。
2.7 小结
在这一章中,我们学习了:
- 机器学习基本概念:特征、标签、训练集、测试集
- 完整的ML工作流:数据加载 → 探索 → 分割 → 训练 → 预测 → 评估
- Scikit-learn核心API:
fit(),predict(),score() - 模型评估方法:准确率、分类报告、混淆矩阵
- 数据可视化技巧:直方图、散点图、热力图
关键要点
- Scikit-learn 提供了统一、简洁的API
- 机器学习项目遵循标准的工作流程
- 数据探索和可视化是重要的第一步
- 模型评估不仅仅是看准确率
2.8 下一步
现在你已经体验了完整的机器学习流程!在下一章数据预处理基础中,我们将深入学习如何处理真实世界中的"脏"数据,这是成功构建机器学习模型的关键步骤。
章节要点回顾:
- ✅ 掌握了 Scikit-learn 的基本使用方法
- ✅ 理解了机器学习的标准工作流程
- ✅ 学会了基本的模型评估方法
- ✅ 体验了从数据到预测的完整过程