当前位置: 代码网 > it编程>前端脚本>Python > 【python】在【机器学习】与【数据挖掘】中的应用:从基础到【AI大模型】

【python】在【机器学习】与【数据挖掘】中的应用:从基础到【AI大模型】

2024年07月28日 Python 我要评论
Python在数据科学和机器学习中的广泛应用,得益于其强大的库和工具。通过这些库和工具,数据科学家和工程师可以高效地进行数据预处理、特征工程、模型构建、模型评估和优化。无论是传统的机器学习方法还是前沿的深度学习技术,Python都提供了全面的支持。通过不断学习和实践,掌握这些技术可以为数据分析和人工智能应用提供强大的支持。

目录

💗一、python在数据挖掘中的应用💕

💖1.1 数据预处理💞

数据清洗💞

数据变换💞

数据归一化💞

高级预处理技术💞

💖1.2 特征工程💕

特征选择💕

特征提取💕

特征构造💕

💗二、python在机器学习中的应用💕

💖2.1 监督学习💞

分类💞

 回归💞

💖2.2 非监督学习💞

聚类💞

降维💞

💗三、python在深度学习中的应用💕

💖3.1 深度学习框架💞

tensorflow💞

pytorch💞

💗四、python在ai大模型中的应用💕

💖4.1 大模型简介💞

💖4.2 gpt-4o实例💞

💗五、实例验证💕

💖5.1 数据集介绍💞

💖5.2 模型构建与训练💞

💖5.3 模型优化💞

💗六.深度扩展与具体实例💕

💖1.数据预处理扩展:💞

缺失值填补💞

异常值检测与处理💞

数据增强💞

💖2.特征工程扩展:💞

💖3.模型选择与评估:💞

💖4.深度学习实例:💞

💖5.ai大模型应用:💞

💖6.进一步实例验证与优化:💞

💗总结💕


在大数据时代,数据挖掘与机器学习成为了各行各业的核心技术。python作为一种高效、简洁且功能强大的编程语言,得到了广泛的应用。

💗一、python在数据挖掘中的应用💕

cb120410bbd14d46a1b702c6484653ae.png

💖1.1 数据预处理💞

数据预处理是数据挖掘的第一步,是确保数据质量和一致性的关键步骤。良好的数据预处理可以显著提高模型的准确性和鲁棒性。

数据清洗💞

数据清洗是数据预处理的重要组成部分,主要包括去除缺失值、去除重复值和处理异常值。

import pandas as pd

# 读取数据
data = pd.read_csv('data.csv')

# 数据清洗
data = data.dropna()  # 去除缺失值
data = data.drop_duplicates()  # 去除重复值

数据变换💞

数据变换包括将数据从一种格式转换为另一种格式,例如将字符串日期转换为日期对象,以便于进一步分析和处理。

data['date'] = pd.to_datetime(data['date'])  # 日期格式转换

数据归一化💞

数据归一化是将数据缩放到特定范围内,以消除不同特征之间量级的差异,从而提高模型的性能和训练速度。

from sklearn.preprocessing import standardscaler

scaler = standardscaler()
data[['feature1', 'feature2']] = scaler.fit_transform(data[['feature1', 'feature2']])

高级预处理技术💞

除了基本的清洗和归一化外,高级预处理技术还包括缺失值填补、异常值处理和数据增强等。

# 使用插值法填补缺失值
data = data.interpolate()

# 使用knn方法填补缺失值
from sklearn.impute import knnimputer

imputer = knnimputer(n_neighbors=3)
data_imputed = imputer.fit_transform(data)

# 使用z-score方法检测异常值
from scipy import stats
import numpy as np

z_scores = np.abs(stats.zscore(data))
data = data[(z_scores < 3).all(axis=1)]

💖1.2 特征工程💕

特征工程是提升模型性能的重要手段。

特征选择💕

特征选择是从原始数据中选择最具代表性的特征,以减少数据维度,提高模型的性能和训练速度。

from sklearn.feature_selection import selectkbest, f_classif

# 特征选择
x = data.drop('target', axis=1)
y = data['target']
selector = selectkbest(score_func=f_classif, k=5)
x_new = selector.fit_transform(x, y)

特征提取💕

特征提取是从原始数据中提取新的、更具代表性的特征,如通过主成分分析(pca)进行降维。

from sklearn.decomposition import pca

pca = pca(n_components=2)
x_pca = pca.fit_transform(x)

特征构造💕

特征构造是通过组合或转换现有特征来创建新的特征,从而提高模型的预测能力。例如,创建交互特征或多项式特征。

from sklearn.preprocessing import polynomialfeatures

poly = polynomialfeatures(degree=2, interaction_only=true)
x_poly = poly.fit_transform(x)

💗二、python在机器学习中的应用💕

c6c67eee5ae6409d966e123e84509cf0.png

💖2.1 监督学习💞

监督学习是机器学习的主要方法之一,包括分类和回归。scikit-learn是python中常用的机器学习库,提供了丰富的模型和工具。

分类💞

分类任务的目标是将数据点分配到预定义的类别中。以下示例展示了如何使用随机森林分类器进行分类任务。

from sklearn.model_selection import train_test_split
from sklearn.ensemble import randomforestclassifier
from sklearn.metrics import accuracy_score

# 划分训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# 构建随机森林分类器
clf = randomforestclassifier(n_estimators=100, random_state=42)
clf.fit(x_train, y_train)

# 预测
y_pred = clf.predict(x_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'accuracy: {accuracy:.2f}')

 回归💞

回归任务的目标是预测连续值。例如,使用线性回归模型来预测房价。

from sklearn.linear_model import linearregression

# 构建线性回归模型
model = linearregression()
model.fit(x_train, y_train)

# 预测
y_pred = model.predict(x_test)

# 评估
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test, y_pred)
print(f'mean squared error: {mse:.2f}')

使用随机森林分类器进行分类任务。首先,将数据集划分为训练集和测试集,然后构建随机森林分类器并进行训练,最后在测试集上进行预测并计算准确率。

💖2.2 非监督学习💞

非监督学习主要用于聚类和降维。kmeans和dbscan是常用的聚类算法。

聚类💞

聚类算法将相似的数据点分配到同一组。以下示例展示了如何使用kmeans算法进行聚类,并将结果可视化。

from sklearn.cluster import kmeans
import matplotlib.pyplot as plt

# 构建kmeans模型
kmeans = kmeans(n_clusters=3, random_state=42)
data['cluster'] = kmeans.fit_predict(data)

# 可视化聚类结果
plt.scatter(data['feature1'], data['feature2'], c=data['cluster'])
plt.xlabel('feature 1')
plt.ylabel('feature 2')
plt.title('kmeans clustering')
plt.show()

降维💞

降维技术可以减少数据的维度,使得数据更易于可视化和分析。例如,使用主成分分析(pca)进行降维。

from sklearn.decomposition import pca

# 使用pca进行降维
pca = pca(n_components=2)
x_pca = pca.fit_transform(x)

# 可视化降维结果
plt.scatter(x_pca[:, 0], x_pca[:, 1])
plt.xlabel('principal component 1')
plt.ylabel('principal component 2')
plt.title('pca of dataset')
plt.show()

使用kmeans算法进行聚类,并将结果可视化。首先,构建kmeans模型并进行聚类,然后使用matplotlib库绘制聚类结果的散点图。

💗三、python在深度学习中的应用💕

340f9e14f9244ceb9dface78149c2139.png

💖3.1 深度学习框架💞

深度学习是机器学习的一个子领域,主要通过人工神经网络来进行复杂的数据处理任务。tensorflow和pytorch是python中最常用的深度学习框架。它们提供了构建和训练神经网络的丰富工具。

tensorflow💞

tensorflow是由谷歌开发的一个开源深度学习框架,广泛应用于各种深度学习任务中。

import tensorflow as tf
from tensorflow.keras.models import sequential
from tensorflow.keras.layers import dense

# 构建神经网络模型
model = sequential([
    dense(128, activation='relu', input_shape=(x_train.shape[1],)),
    dense(64, activation='relu'),
    dense(1, activation='sigmoid')
])

# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(x_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

# 评估模型
loss, accuracy = model.evaluate(x_test, y_test)
print(f'accuracy: {accuracy:.2f}')

pytorch💞

pytorch是由facebook开发的一个开源深度学习框架,以其灵活性和易用性受到广泛欢迎。

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import dataloader, tensordataset

# 构建神经网络模型
class simplenn(nn.module):
    def __init__(self):
        super(simplenn, self).__init__()
        self.fc1 = nn.linear(x_train.shape[1], 128)
        self.fc2 = nn.linear(128, 64)
        self.fc3 = nn.linear(64, 1)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        x = torch.sigmoid(self.fc3(x))
        return x

model = simplenn()

# 编译模型
criterion = nn.bceloss()
optimizer = optim.adam(model.parameters(), lr=0.001)

# 训练模型
train_dataset = tensordataset(torch.tensor(x_train, dtype=torch.float32), torch.tensor(y_train, dtype=torch.float32))
train_loader = dataloader(train_dataset, batch_size=32, shuffle=true)

for epoch in range(10):
    for inputs, labels in train_loader:
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels.unsqueeze(1))
        loss.backward()
        optimizer.step()

# 评估模型
test_dataset = tensordataset(torch.tensor(x_test, dtype=torch.float32), torch.tensor(y_test, dtype=torch.float32))
test_loader = dataloader(test_dataset, batch_size=32, shuffle=false)

total = 0
correct = 0
with torch.no_grad():
    for inputs, labels in test_loader:
        outputs = model(inputs)
        predicted = outputs.round()
        total += labels.size(0)
        correct += (predicted.squeeze() == labels).sum().item()

accuracy = correct / total
print(f'accuracy: {accuracy:.2f}')

💗四、python在ai大模型中的应用💕

💖4.1 大模型简介💞

ai大模型如gpt-4o和bert已经在自然语言处理、图像识别等领域取得了突破性进展。构建和训练这些大模型需要强大的计算资源和先进的算法。

💖4.2 gpt-4o实例💞

openai的gpt-4o是目前最先进的自然语言处理模型之一。使用gpt-4o可以进行文本生成、翻译、摘要等任务。

import openai

# 设置api密钥
openai.api_key = 'your_api_key'

# 使用gpt-4o生成文本
response = openai.completion.create(
    engine="gpt-4",
    prompt="once upon a time in a land far, far away",
    max_tokens=50
)

print(response.choices[0].text.strip())

使用openai的gpt-4o模型进行文本生成。通过设置api密钥并调用gpt-4o的文本生成接口,我们可以生成连续的文本。

💗五、实例验证💕

💖5.1 数据集介绍💞

使用uci机器学习库中的iris数据集来进行分类任务的实例验证。

from sklearn.datasets import load_iris
import pandas as pd

# 加载iris数据集
iris = load_iris()
x = pd.dataframe(iris.data, columns=iris.feature_names)
y = pd.series(iris.target, name='target')

# 显示数据集信息
print(x.head())
print(y.head())

iris数据集是一个经典的数据集,包含三种鸢尾花的特征和类别信息。我们首先加载数据集并将其转换为pandas的dataframe和series格式,方便后续处理。

💖5.2 模型构建与训练💞

构建一个决策树模型来分类iris数据集。

from sklearn.tree import decisiontreeclassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 划分训练集和测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# 构建决策树模型
clf = decisiontreeclassifier(random_state=42)
clf.fit(x_train, y_train)

# 预测
y_pred = clf.predict(x_test)

# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'accuracy: {accuracy:.2f}')

使用决策树分类器进行分类任务。首先,将数据集划分为训练集和测试集,然后构建决策树模型并进行训练,最后在测试集上进行预测并计算准确率。

💖5.3 模型优化💞

通过调整模型参数和使用交叉验证来优化模型性能。

from sklearn.model_selection import gridsearchcv

# 定义参数网格
param_grid = {
    'max_depth': [3, 5, 7, none],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# 网格搜索
grid_search = gridsearchcv(estimator=clf, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)
grid_search.fit(x_train, y_train)

# 最优参数和模型
best_params = grid_search.best_params_
best_clf = grid_search.best_estimator_

# 评估最优模型
y_pred = best_clf.predict(x_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'optimized accuracy: {accuracy:.2f}')
print(f'best parameters: {best_params}')

使用网格搜索来优化决策树模型的参数。通过定义参数网格并进行交叉验证,找出最优参数组合并训练最优模型,最终在测试集上进行评估。

💗六.深度扩展与具体实例💕

💖1.数据预处理扩展:💞

数据预处理不仅限于基本的清洗和归一化,还涉及更多高级技术,例如缺失值的填补策略、异常值检测与处理、数据增强等。

缺失值填补💞

使用插值方法填补缺失值:

# 使用插值法填补缺失值
data = data.interpolate()

或者使用knn方法填补缺失值:

from sklearn.impute import knnimputer

imputer = knnimputer(n_neighbors=3)
data_imputed = imputer.fit_transform(data)

异常值检测与处理💞

使用z-score方法检测异常值:

from scipy import stats
import numpy as np

z_scores = np.abs(stats.zscore(data))
data = data[(z_scores < 3).all(axis=1)]

数据增强💞

数据增强是通过对现有数据进行随机变换(如裁剪、翻转、旋转等)来生成新的训练样本,从而提高模型的泛化能力。

from tensorflow.keras.preprocessing.image import imagedatagenerator

# 创建数据增强生成器
datagen = imagedatagenerator(
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    horizontal_flip=true
)

# 应用数据增强
datagen.fit(x_train)

💖2.特征工程扩展:💞

特征工程不仅包括选择和提取特征,还包括特征构造。通过特征构造,可以从原始特征中生成新的、更有用的特征。创建交互特征或多项式特征:

from sklearn.preprocessing import polynomialfeatures

poly = polynomialfeatures(degree=2, interaction_only=true)
x_poly = poly.fit_transform(x)

💖3.模型选择与评估:💞

在选择模型时,通常会尝试多种模型并进行比较,如线性回归、决策树、支持向量机等。使用交叉验证来评估模型性能:

from sklearn.model_selection import cross_val_score

# 线性回归模型
from sklearn.linear_model import linearregression
model = linearregression()
scores = cross_val_score(model, x, y, cv=5)
print(f'linear regression cv accuracy: {scores.mean():.2f}')

使用更复杂的模型,支持向量机:

from sklearn.svm import svc

model = svc(kernel='linear')
scores = cross_val_score(model, x, y, cv=5)
print(f'svc cv accuracy: {scores.mean():.2f}')

💖4.深度学习实例:💞

使用更复杂的神经网络架构,卷积神经网络(cnn)用于图像分类任务:

from tensorflow.keras.models import sequential
from tensorflow.keras.layers import conv2d, maxpooling2d, flatten, dense

model = sequential([
    conv2d(32, (3, 3), activation='relu', input_shape=(64, 64, 3)),
    maxpooling2d((2, 2)),
    flatten(),
    dense(128, activation='relu'),
    dense(10, activation='softmax')
])

model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 假设x_train和y_train是图像数据和标签
model.fit(x_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

或者使用循环神经网络(rnn)处理时间序列数据:

from tensorflow.keras.models import sequential
from tensorflow.keras.layers import simplernn, dense

model = sequential([
    simplernn(50, activation='relu', input_shape=(10, 1)),
    dense(1)
])

model.compile(optimizer='adam', loss='mean_squared_error')

# 假设x_train和y_train是时间序列数据
model.fit(x_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

💖5.ai大模型应用:💞

使用bert进行文本分类任务

from transformers import berttokenizer, tfbertforsequenceclassification
from tensorflow.keras.optimizers import adam

# 加载预训练的bert模型和分词器
tokenizer = berttokenizer.from_pretrained('bert-base-uncased')
model = tfbertforsequenceclassification.from_pretrained('bert-base-uncased', num_labels=2)

# 编码输入数据
inputs = tokenizer('this is a positive example', return_tensors='tf')
labels = tf.constant([1])[none, :]  # batch size 1

# 编译和训练模型
model.compile(optimizer=adam(learning_rate=3e-5), loss=model.compute_loss, metrics=['accuracy'])
model.fit(inputs, labels, epochs=3)

💖6.进一步实例验证与优化:💞

使用更多的数据集和更复杂的模型进行验证,并应用超参数调优技术,贝叶斯优化

from skopt import bayessearchcv

# 定义参数空间
param_space = {
    'max_depth': (1, 10),
    'min_samples_split': (2, 20),
    'min_samples_leaf': (1, 20)
}

# 贝叶斯搜索
opt = bayessearchcv(estimator=decisiontreeclassifier(), search_spaces=param_space, n_iter=32, cv=5, n_jobs=-1)
opt.fit(x_train, y_train)

best_params = opt.best_params_
print(f'optimized parameters: {best_params}')

💗总结💕

python在数据科学和机器学习中的广泛应用,得益于其强大的库和工具。通过这些库和工具,数据科学家和工程师可以高效地进行数据预处理、特征工程、模型构建、模型评估和优化。无论是传统的机器学习方法还是前沿的深度学习技术,python都提供了全面的支持。通过不断学习和实践,掌握这些技术可以为数据分析和人工智能应用提供强大的支持。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com