探索Sklearn:从数据预处理到模型评估

引言

Scikit-learn(简称Sklearn)是Python中功能强大且易于使用的机器学习库,提供了丰富的数据预处理、模型训练、评估和调优工具。本文将详细介绍如何使用Sklearn进行数据预处理、模型训练和评估。

目录

  1. Sklearn简介
  2. 数据预处理
    • 数据加载
    • 数据清洗
    • 特征工程
  3. 模型训练
    • 选择算法
    • 模型训练
  4. 模型评估
    • 评估指标
    • 交叉验证
  5. 模型调优
    • 网格搜索
    • 随机搜索
  6. 实战案例
  7. 总结

1. Sklearn简介

Sklearn是一个开源的机器学习库,构建于NumPy、SciPy和Matplotlib之上,提供了各种机器学习算法和工具,用于分类、回归、聚类、降维等任务。

安装Sklearn

使用以下命令安装Sklearn:

pip install scikit-learn

2. 数据预处理

2.1 数据加载

Sklearn提供了一些内置数据集供用户学习和测试,例如鸢尾花数据集、手写数字数据集等。也可以从外部文件加载数据,例如CSV文件。

from sklearn.datasets import load_iris
import pandas as pd

# 加载鸢尾花数据集
iris = load_iris()
X, y = iris.data, iris.target

# 从CSV文件加载数据
data = pd.read_csv('path/to/your/data.csv')

2.2 数据清洗

数据清洗是机器学习过程中的重要步骤,包括处理缺失值、异常值和重复数据等。

# 检查缺失值
print(data.isnull().sum())

# 填补缺失值
data.fillna(data.mean(), inplace=True)

# 删除重复数据
data.drop_duplicates(inplace=True)

2.3 特征工程

特征工程包括特征选择、特征缩放和特征编码等。

特征选择

特征选择可以减少数据的维度,去除冗余和无关的特征,提高模型的性能。

from sklearn.feature_selection import SelectKBest, f_classif

# 选择最佳特征
selector = SelectKBest(f_classif, k=2)
X_new = selector.fit_transform(X, y)
特征缩放

特征缩放可以标准化数据,使其均值为0,方差为1,或将数据缩放到特定范围内。

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 标准化特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 缩放到0-1范围
minmax_scaler = MinMaxScaler()
X_minmax = minmax_scaler.fit_transform(X)
特征编码

对于分类变量,使用独热编码将其转换为数值形式。

from sklearn.preprocessing import OneHotEncoder

# 独热编码
encoder = OneHotEncoder(sparse=False)
categorical_features = data[['categorical_feature']]
encoded_features = encoder.fit_transform(categorical_features)

3. 模型训练

3.1 选择算法

Sklearn提供了多种机器学习算法,包括线性回归、逻辑回归、支持向量机、随机森林等。根据任务类型(分类或回归)选择合适的算法。

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# 选择逻辑回归模型
model = LogisticRegression()

# 选择随机森林模型
model = RandomForestClassifier()

3.2 模型训练

将数据划分为训练集和测试集,然后使用训练集训练模型。

from sklearn.model_selection import train_test_split

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model.fit(X_train, y_train)

4. 模型评估

4.1 评估指标

根据任务类型选择合适的评估指标。分类任务常用指标包括准确率、精确率、召回率和F1分数等;回归任务常用指标包括均方误差、均方根误差和R平方等。

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import mean_squared_error, r2_score

# 分类任务评估
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='macro')
recall = recall_score(y_test, y_pred, average='macro')
f1 = f1_score(y_test, y_pred, average='macro')

# 回归任务评估
mse = mean_squared_error(y_test, y_pred)
rmse = mean_squared_error(y_test, y_pred, squared=False)
r2 = r2_score(y_test, y_pred)

4.2 交叉验证

交叉验证是一种评估模型性能的技术,通过将数据集划分为多个子集,训练多个模型并计算平均性能,得到更可靠的评估结果。

from sklearn.model_selection import cross_val_score

# 使用交叉验证评估模型
cv_scores = cross_val_score(model, X, y, cv=5)
print(f'Cross-validation scores: {cv_scores}')
print(f'Average cross-validation score: {cv_scores.mean()}')

5. 模型调优

5.1 网格搜索

网格搜索通过遍历所有可能的参数组合,找到最佳的超参数配置。

from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30]
}

# 实例化网格搜索
grid_search = GridSearchCV(model, param_grid, cv=5)

# 进行网格搜索
grid_search.fit(X_train, y_train)

# 最佳参数
best_params = grid_search.best_params_
print(f'Best parameters: {best_params}')

5.2 随机搜索

随机搜索通过随机选择参数组合,找到最佳的超参数配置,比网格搜索更高效。

from sklearn.model_selection import RandomizedSearchCV

# 定义参数分布
param_dist = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30]
}

# 实例化随机搜索
random_search = RandomizedSearchCV(model, param_dist, cv=5, n_iter=10)

# 进行随机搜索
random_search.fit(X_train, y_train)

# 最佳参数
best_params = random_search.best_params_
print(f'Best parameters: {best_params}')

6. 实战案例

我们将以鸢尾花数据集为例,展示从数据预处理到模型评估的完整过程。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 数据预处理
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 选择模型
model = RandomForestClassifier()

# 模型训练
model.fit(X_train, y_train)

# 模型评估
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')
print(classification_report(y_test, y_pred))

# 交叉验证
cv_scores = cross_val_score(model, X_scaled, y, cv=5)
print(f'Cross-validation scores: {cv_scores}')
print(f'Average cross-validation score: {cv_scores.mean()}')

# 模型调优
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20, 30]
}
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)
best_params = grid_search.best_params_
print(f'Best parameters: {best_params}')

# 使用最佳参数重新训练模型
best_model = RandomForestClassifier(**best_params)
best_model.fit(X_train, y_train)
y_pred_best = best_model.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)
print(f'Accuracy with best parameters: {accuracy_best}')
print(classification_report(y_test, y_pred_best))

7. 总结

本文详细介绍了使用Sklearn

进行数据预处理、模型训练和评估的完整过程。通过数据加载、清洗、特征工程、模型选择、训练、评估和调优等步骤,可以构建和优化高效的机器学习模型。Sklearn提供了丰富的工具和功能,使得机器学习过程更加便捷和高效。希望本文对你理解和应用Sklearn有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/766081.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Andrej Karpathy提出未来计算机2.0构想: 完全由神经网络驱动!网友炸锅了

昨天凌晨,知名人工智能专家、OpenAI的联合创始人Andrej Karpathy提出了一个革命性的未来计算机的构想:完全由神经网络驱动的计算机,不再依赖传统的软件代码。 嗯,这是什么意思?全部原生LLM硬件设备的意思吗&#xff1f…

机械设备制造企业MES系统解决方案介绍

机械设备制造行业涵盖了各类工业设备、工程机械、农业机械等多个领域,对生产精度、质量控制和效率提出了较高要求。为了提升生产效率、保证产品质量并满足客户需求,越来越多的机械设备制造企业引入了MES系统。本文将详细介绍MES系统在机械设备制造行业的…

魔镜魔镜,我要变得更漂亮!按需搭配一键叠穿,效果拿下新SOTA!中山大学字节智创数字人团队提出虚拟试穿新框架

魔镜魔镜,我要变得更漂亮!按需搭配一键叠穿,效果拿下新SOTA!中山大学&字节智创数字人团队提出虚拟试穿新框架。 多件衣服按指定穿法一键虚拟试穿! 中山大学&字节智创数字人团队提出了一个名为MMTryon的虚拟试穿框架,可以通过输入多个服装图像及指定穿法的文本指…

COB封装的LED显示屏是什么?

COB(Chip on Board)封装的LED显示屏,是一种采用先进倒装COB封装技术的显示屏,其中LED芯片是直接被安装并封装在PCB电路板上,而不是先对单个封装再焊接至电路板,与SMD(Surface Mount Device&…

怎么快速给他人分享图片?扫描二维码看图的简单做法

现在通过二维码来查看图片是一种很常见的方法,通过二维码来查看图片不仅能够减少对手机存储空间的占用,而且获取图片变得更加方便快捷,只需要扫码就能够查看图片,有利于图片的展现。很多的场景中都有图片二维码的应用,…

2024软件设计师经验贴(一考就过)

2024软件设计师经验贴(一考就过) 第一阶段、基础积累:把书读厚 这一阶段可以跟着视频、书籍或文章进行基础知识的学习。 推荐的视频系列: 「软件设计师」 上午题 #1 计算机系统_哔哩哔哩_bilibili 40–14.3设计模式 推荐的文…

下载和使用SLUN数据集

1. 下载数据集 网址在https://opendatalab.com/OpenDataLab/lsun/tree/main/raw/scenes 下载bedroom_val_lmdb.zip 然后解压后会又两个文件,一个data.mdb,另一个lock.mdb。 2. 使用torchvison使用LSUN数据集 我把解压后的bedroom_val_lmdb放在/home/…

3.js - 深度测试、深度写入、深度函数

md,艹,这玩意得理解,只看代码不管事 效果图 代码 // ts-nocheck// 引入three.js import * as THREE from three// 导入轨道控制器 import { OrbitControls } from three/examples/jsm/controls/OrbitControls// 导入lil.gui import { GUI } …

山东访老友 | 同成建材数字化转型两年前后的巨大变化

山东省济宁市同成建材有限公司(简称“同成建材”)成立于2013年,目前共建有混凝土生产线2条、砂浆生产线1条,是济宁市最早建成的预拌混凝土搅拌站之一。 2020年,同成建材产量增长,市场环境变化,…

Redis的使用(二)redis的命令总结

1.概述 这一小节,我们主要来研究一下redis的五大类型的基本使用,数据类型如下: redis我们接下来看一看这八种类型的基本使用。我们可以在redis的官网查询这些命令:Commands | Docs,同时我们也可以用help 数据类型查看命令的帮助文档。 2. 常…

【漏洞复现】D-Link NAS 未授权RCE漏洞(CVE-2024-3273)

0x01 产品简介 D-Link 网络存储 (NAS)是中国友讯(D-link)公司的一款统一服务路由器。 0x02 漏洞概述 D-Link NAS nas_sharing.cgi接口存在命令执行漏洞,该漏洞存在于“/cgi-bin/nas_sharing.cgi”脚本中,影响其 HTTP GET 请求处…

STM32F1+HAL库+FreeTOTS学习3——任务创建(动态和静态两种)

STM32F1HAL库FreeTOTS学习3——任务创建(动态和静态两种) 任务创建API函数任务创建流程代码实现1. 动态任务创建和删除2. 静态任务创建和删除 上期我们学习了STM32移植FreeRTOS搭建基准工程,现在我们来学习任务创建 任务创建API函数 前面我们…

大数据可视化实验(八):大数据可视化综合实训

目录 一、实验目的... 1 二、实验环境... 1 三、实验内容... 1 1)Python纵向柱状图实训... 1 2)Python水平柱状图实训... 3 3)Python多数据并列柱状图实训.. 3 4)Python折线图实训... 4 5)Python直方图实训...…

Redis---保证主从节点一致性问题 +与数据库数据保持一致性问题

保证主从节点一致性问题 Redis的同步方式默认是异步的,这种异步的同步方式导致了主从之间的数据存在一定的延迟,因此Redis默认是弱一致性的。 解决: 1.使用Redisson这样的工具,它提供了分布式锁的实现,确保在分布式环…

搭贝这个低代码开发平台靠谱吗?

在应用开发领域,低代码开发平台因其拖拽式的操作给用户带来了极大的便利和灵活性。根据相关调查数据,2022年国内低代码开发平台已超过100家。搭贝在众多低代码平台中也享有一定的知名度。那么,搭贝究竟怎么样,是否值得信赖&#x…

Dify入门指南

一.Dify介绍 生成式 AI 应用创新引擎,开源的 LLM 应用开发平台。提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力,轻松构建和运营生成式 AI 原生应用,比 LangChain 更易用。一个平台,接入全球大型语言模型。不同…

IDEA Debug 断点

今天在工作发现有些新入职的小伙伴们,在调试程序时不是很会正确使用IDEA所提供Breakpoints(断点),这里就简单的介绍下比较常用的功能。 快捷键: 切换行断点:Ctrl F8 编辑断点属性:Ctrl Shift F8 断点的类型 行断点&am…

Google地图获取位置的前端代码与测试

test.html <script src"http://maps.google.com/maps/api/js?sensorfalse"></script> <script > if (navigator.geolocation) {  console.log(Geolocation is supported!);// var startPos;var geoSuccess function(position) {startPos p…

Codeforces Round 954 (Div. 3)(A~E)

目录 A. X Axis B. Matrix Stabilization C. Update Queries D. Mathematical Problem A. X Axis Problem - A - Codeforces 直接找到第二大的数&#xff0c;答案就是这个数与其他两个数的差值的和。 void solve() {vector<ll>a;for (int i 1; i < 3; i){int x;…

【C++知识点总结全系列 (02)】:C++中的语句、运算符和表达式详细总结

文章目录 1、语句(1)简单语句A.空语句B.复合语句 (2)条件语句(3)迭代语句A.常规for循环B.范围for循环C.while和do...while (4)跳转语句A.break语句B.continue语句C.goto语句 (5)异常处理语句A.标准异常B.throw抛出异常 (6)try语句 2、运算符(1)算术运算符(2)关系运算符(3)逻辑运…