当前位置：代码网 > it编程>软件设计>算法 > 新时代【机器学习】与【Pycharm】：【随机数据生成】与智能【股票市场分析】

新时代【机器学习】与【Pycharm】：【随机数据生成】与智能【股票市场分析】

2024年07月28日 • 算法 •我要评论

新时代【机器学习】与【Pycharm】：【随机数据生成】与智能【股票市场分析】生成随机股票数据，保存为 CSV 文件，并使用决策树进行预测和评估。

目录

第一步：准备工作

1.1 安装必要的库

小李的理解：

小李的理解：

第二步：生成和准备数据

2.1 生成随机股票数据

小李的理解：

2.2 数据探索与可视化

小李的理解：

2.3 数据处理

小李的理解：

2.4 选择特征和标签

小李的理解：

第三步：拆分数据集

小李的理解：

第四步：训练决策树模型

小李的理解：

第五步：模型预测与评估

小李的理解：

第一步：准备工作

1.1 安装必要的库

小李的理解：

在开始之前，需要安装一些工具，类似于做饭前要准备好各种食材。这里，需要安装pandas、scikit-learn和matplotlib，它们分别用于数据处理、机器学习和数据可视化。

在pycharm中打开终端，并运行以下命令：

pip install pandas scikit-learn matplotlib

这些库的作用如下：

1.2 导入库

小李的理解：

在新的python文件中，导入这些库。就像准备好工具后，把它们放在桌子上随时可以使用。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import decisiontreeclassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt

第二步：生成和准备数据

2.1 生成随机股票数据

小李的理解：

现在要生成一些模拟的股票数据。想象在创建一个虚拟的股票市场，这些数据包括日期、开盘价、最高价、最低价、收盘价和成交量。就像在做一顿虚拟的大餐，需要各种食材和调料。

# 设置随机种子以确保结果可重复
np.random.seed(42)

# 生成99个交易日期（工作日）
dates = pd.date_range(start='2023-01-01', periods=99, freq='b')

# 随机生成股票价格数据
open_prices = np.random.uniform(low=100, high=200, size=len(dates))
high_prices = open_prices * np.random.uniform(low=1, high=1.1, size=len(dates))
low_prices = open_prices * np.random.uniform(low=0.9, high=1, size=len(dates))
close_prices = np.random.uniform(low=100, high=200, size=len(dates))
volumes = np.random.randint(low=1000, high=10000, size=len(dates))

# 创建数据框
stock_data = pd.dataframe({
    '日期': dates,
    '开盘价': open_prices,
    '最高价': high_prices,
    '最低价': low_prices,
    '收盘价': close_prices,
    '成交量': volumes
})

# 将数据保存到csv文件中
stock_data.to_csv('data.csv', index=false, encoding='utf-8-sig')
print("数据已保存到data.csv文件中")

2.2 数据探索与可视化

小李的理解：

为了更好地理解我们的数据，可以绘制收盘价的时间序列图。这就像是把做好的菜摆盘后拍张照片，看看颜色和外观怎么样。

# 绘制收盘价的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(stock_data['收盘价'], label='收盘价')
plt.title('模拟股票收盘价历史')
plt.xlabel('日期')
plt.ylabel('收盘价 (美元)')
plt.legend()
plt.show()

这段代码将显示模拟股票收盘价随时间变化的图表。

2.3 数据处理

小李的理解：

为了进行预测，需要创建一些特征和标签。用今天的数据来预测明天的情况。具体来说，会看看今天的收盘价，并判断明天的收盘价是否会上涨。就像是根据今天的天气预测明天是否会下雨。

# 创建新的特征和标签
stock_data['次日收盘价'] = stock_data['收盘价'].shift(-1)
stock_data['价格上涨'] = (stock_data['次日收盘价'] > stock_data['收盘价']).astype(int)
stock_data.dropna(inplace=true)
print(stock_data.head())

在这段代码中：

2.4 选择特征和标签

小李的理解：

选择一些关键数据作为特征，用它们来预测明天的情况。这些特征包括收盘价、开盘价、最高价、最低价和成交量。就像是选择了一些重要的天气指标（如温度、湿度、风速等）来预测明天的天气。

# 选择特征和标签
features = stock_data[['收盘价', '开盘价', '最高价', '最低价', '成交量']]
labels = stock_data['价格上涨']

在这段代码中，选择了特征列和标签列，用于后续的模型训练和评估。

第三步：拆分数据集

小李的理解：

为了评估模型，需要把数据分成两部分：一部分用来训练模型，另一部分用来测试模型的准确性。就像是用一些数据来训练一个预测模型，然后用其他数据来验证它的预测能力。

from sklearn.model_selection import train_test_split

# 拆分数据集
x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

在这段代码中，将数据集的80%用作训练集，20%用作测试集。还设置了random_state参数，以确保每次运行代码时拆分方式相同。

第四步：训练决策树模型

小李的理解：

可以用训练数据来训练我们的模型了。决策树是一种机器学习算法，就像是一个聪明的机器人，它可以学习数据中的模式，并根据这些模式做出预测。

from sklearn.tree import decisiontreeclassifier

# 训练决策树模型
clf = decisiontreeclassifier()
clf.fit(x_train, y_train)

在这段代码中，首先创建了一个decisiontreeclassifier对象，然后使用训练数据x_train和y_train来训练模型。

第五步：模型预测与评估

小李的理解：

训练完成后，可以用测试数据来评估模型的表现。让模型对测试数据做出预测，并计算预测的准确性。就像是测试一个天气预报模型，看看它预测的准确性有多高。

from sklearn.metrics import accuracy_score

# 模型预测与评估
y_pred = clf.predict(x_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

在这段代码中，我们使用clf.predict方法来预测测试数据的标签，然后使用accuracy_score函数来计算模型的准确性。

结果

日期开盘价最高价最低价收盘价成交量 0 2023-01-02 137.454012 138.937023 135.901969 121.582103 4440 1 2023-01-03 195.071431 195.684524 190.777431 162.289048 4766 2 2023-01-04 173.199394 184.221984 166.999404 108.534746 6644 3 2023-01-05 159.865848 164.891327 145.224374 105.168172 3914 4 2023-01-06 115.601864 121.481036 105.910136 153.135463 5968

日期开盘价最高价 ... 成交量次日收盘价价格上涨 0 2023-01-02 137.454012 138.937023 ... 4440 162.289048 1 1 2023-01-03 195.071431 195.684524 ... 4766 108.534746 0 2 2023-01-04 173.199394 184.221984 ... 6644 105.168172 0 3 2023-01-05 159.865848 164.891327 ... 3914 153.135463 1 4 2023-01-06 115.601864 121.481036 ... 5968 154.063512 1

[5 rows x 8 columns] 准确率: 0.50

完整代码

为了方便你查看和运行，以下是完整的代码：

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import decisiontreeclassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from matplotlib.font_manager import fontproperties

# 设置随机种子以确保结果可重复
np.random.seed(42)

# 生成99个交易日期（工作日）
dates = pd.date_range(start='2023-01-01', periods=99, freq='b')

# 随机生成股票价格数据
open_prices = np.random.uniform(low=100, high=200, size=len(dates))
high_prices = open_prices * np.random.uniform(low=1, high=1.1, size=len(dates))
low_prices = open_prices * np.random.uniform(low=0.9, high=1, size=len(dates))
close_prices = np.random.uniform(low=100, high=200, size=len(dates))
volumes = np.random.randint(low=1000, high=10000, size=len(dates))

# 创建数据框
stock_data = pd.dataframe({
    '日期': dates,
    '开盘价': open_prices,
    '最高价': high_prices,
    '最低价': low_prices,
    '收盘价': close_prices,
    '成交量': volumes
})

# 将数据保存到csv文件中
stock_data.to_csv('data.csv', index=false, encoding='utf-8-sig')
print("数据已保存到data.csv文件中")

# 读取csv文件中的数据
stock_data = pd.read_csv('data.csv')
print(stock_data.head())

# 设置字体属性，确保能显示中文
font = fontproperties(fname='c:/windows/fonts/simhei.ttf')  # 这里使用黑体，可以根据需要更改

# 绘制收盘价的时间序列图
plt.figure(figsize=(12, 6))
plt.plot(stock_data['日期'], stock_data['收盘价'], label='收盘价')
plt.title('模拟股票收盘价历史', fontproperties=font)
plt.xlabel('日期', fontproperties=font)
plt.ylabel('收盘价 (美元)', fontproperties=font)
plt.legend(prop=font)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 创建新的特征和标签
stock_data['次日收盘价'] = stock_data['收盘价'].shift(-1)
stock_data['价格上涨'] = (stock_data['次日收盘价'] > stock_data['收盘价']).astype(int)
stock_data.dropna(inplace=true)
print(stock_data.head())

# 选择特征和标签
features = stock_data[['收盘价', '开盘价', '最高价', '最低价', '成交量']]
labels = stock_data['价格上涨']

# 拆分数据集
x_train, x_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# 训练决策树模型
clf = decisiontreeclassifier()
clf.fit(x_train, y_train)

# 模型预测与评估
y_pred = clf.predict(x_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"准确率: {accuracy:.2f}")

总结

生成随机股票数据，保存为 csv 文件，并使用决策树进行预测和评估。

安装必要的库：
使用 pip install pandas numpy scikit-learn matplotlib 安装库。
生成并保存随机数据：
生成 99 个交易日（工作日）的随机股票数据，包括日期、开盘价、最高价、最低价、收盘价和成交量。使用 pandas 将数据保存到 data.csv 文件中。
读取并准备数据：
- 从 csv 文件中读取数据。
- 创建新的特征（次日收盘价）和标签（价格上涨）。
数据可视化：
- 使用 matplotlib 绘制收盘价的时间序列图。
- 设置字体属性以确保图表中能正确显示中文。
拆分数据集：
将数据集拆分为训练集和测试集。
训练决策树模型：
使用 decisiontreeclassifier 训练模型。
模型预测与评估：
使用测试集对模型进行评估，计算模型的准确性。

赞 (0)

相关文章:

贪心算法总结（1）

贪心算法并没有标准的模版…

2024年07月28日 • 软件设计
【算法：贪心】：贪心算法介绍+基础题（四个步骤）；柠檬水找零（交换论证法）

暑假马上就要留校学习算法了，现在先学习一下基本的算法打打基础。本篇要讲的是贪心算法的介绍，然后会讲两道基础的题目，用的贪心证明方法是：交换论证法。目前对贪心算法还是很感兴趣的，贪心…

2024年07月28日 • 软件设计
算法：经典贪心算法--跳一跳[2]

这道题是典型的贪心算法，通过局部最优解得到全局最优解。反向思维解决每次都找最左位置-最后一个位置，距离最远，即最大概率最小跳跃次数。【解题口：寻找最左位置–寻找... [阅读全文]
【贪心算法】贪心算法原理思想、算法步骤，应用示例（找零问题、活动选择问、霍夫曼编码、最小生成树问题、车辆路径问题）

贪心算法是一种基于贪心策略的优化算法，它在每一步选择中都采取当前状态下的最优决策，而不考虑未来的后果。通常，这种算法对于解决一些最优化问题非常有效，尤其是那些可... [阅读全文]
【贪心算法】Leetcode 455.分发饼干 376. 摆动序列 53. 最大子数组和

【贪心算法】Leetcode 455.分发饼干 376. 摆动序列 53. 最大子数组和 [阅读全文]
贪心算法及相关例题

贪心算法更多的是一种思想，没什么套路。…

2024年07月28日 • 软件设计

版权声明：本文内容由互联网用户贡献，该文观点仅代表作者本人。本站仅提供信息存储服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 2386932994@qq.com 举报，一经查实将立刻删除。

发表评论


验证码：

Copyright © 2017-2026 代码网保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱：2386932994@qq.com