唐宇迪TensorFlow2.0入门到实战：神经网络分类任务MNIST手写数据集_神经网络

mnist数据集

　　mnist数据集是一个手写数字识别数据集，常用于机器学习和深度学习的训练与测试。这个数据集包含了大量的手写数字图像，包括0到9的数字。这些图像都是28x28像素的灰度图像，每个图像都对应着一个标签，表示图像中所包含的数字。

官网中http://yann.lecun.com/exdb/mnist/数据集一共分成了四个文件：

train-images-idx3-ubyte.gz: training set images (9912422 bytes)
train-labels-idx1-ubyte.gz: training set labels (28881 bytes)
t10k-images-idx3-ubyte.gz: test set images (1648877 bytes)
t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes)

文件下载	文件用途
train-images-idx3-ubyte.gz	训练集图像
train-labels-idx1-ubyte.gz	训练集标签
t10k-images-idx3-ubyte.gz	测试集图像
t10k-labels-idx1-ubyte.gz	测试集标签

训练集一共包含了 60,000 张图像和标签，而测试集一共包含了 10,000 张图像和标签。测试集中前5000个来自最初nist项目的训练集.，后5000个来自最初nist项目的测试集。前5000个比后5000个要规整，这是因为前5000个数据来自于美国人口普查局的员工，而后5000个来自于大学生。

读取 mnist 数据集

根据 mnist 数据集官网可知，读取数据集需要 offset，因为，在数据头部的数据存储了数据集的一些信息。

training set label file: 前 4 个字节为魔术数，第 4-7 字节为数据的条数(number of items)，因此需要 offset 8

training set images file: 前 4 个字节为魔术数，第 4-7 字节为数据的条数(number of items)，第 8-11 是每张图片的行数，第 12-15 是每张图片的列数，因此需要 offset 16

test set label file: 前 4 个字节为魔术数，第 4-7 字节为数据的条数(number of items)，因此需要 offset 8

test set images file: 前 4 个字节为魔术数，第 4-7 字节为数据的条数(number of items)，第 8-11 是每张图片的行数，第 12-15 是每张图片的列数，因此需要 offset 16

import idx2numpy
import numpy as np
# 把gz文件先解压，再通过idx2numpy包读取文件
file1 = 'data/mnist/train-images.idx3-ubyte'
x_train = idx2numpy.convert_from_file(file1)

file2 = 'data/mnist/train-labels.idx1-ubyte'
y_train = idx2numpy.convert_from_file(file2)

file3 = 'data/mnist/t10k-images.idx3-ubyte'
x_valid = idx2numpy.convert_from_file(file3)

file4 = 'data/mnist/t10k-labels.idx1-ubyte'
y_valid = idx2numpy.convert_from_file(file4)

# reshape data，变成一个矢量
x_train = x_train.reshape(-1, 28*28).astype('float32') / 255.0
x_valid = x_valid.reshape(-1, 28*28).astype('float32') / 255.0

显示图片

from matplotlib import pyplot 
import numpy as np

pyplot.imshow(x_train[0].reshape(28, 28), cmap="gray")
print(x_train.shape)
# print(y_train[0])

任务目标

1. 将图片矩阵，拉成一个向量（已经通过reshape完成）

2. 构建模型（选择合适的loss函数，不同loss函数对标签的格式要求不一样，如tf.keras.losses.categoricalcrossentropy需要one hot格式，而tf.keras.losses.sparsecategoricalcrossentropy则只需要一个数值分类标签即可

import tensorflow as tf
from tensorflow.keras import layers
model = tf.keras.sequential()
model.add(layers.dense(32, activation="relu"))
model.add(layers.dense(32, activation="relu"))
model.add(layers.dense(10, activation="softmax")) ## 得到10个分类各自的概率

选择和评估函数时候需要选择合适的api:https://www.tensorflow.org/api_docs/python/tf/keras/losses/categoricalcrossentropy

选择合适的损失函数如tf.keras.losses.sparsecategoricalcrossentropy 和tf.keras.losses.categoricalcrossentropy

model.compile(optimizer=tf.keras.optimizers.adam(0.001),
              loss=tf.keras.losses.sparsecategoricalcrossentropy(),
              metrics=[tf.keras.metrics.sparsecategoricalaccuracy()])

运行模型

model.fit(x_train, y_train, epochs=5, batch_size=64,
          validation_data=(x_valid, y_valid))

将numpy数据转换为张量数据再进行建模分析

train = tf.data.dataset.from_tensor_slices((x_train, y_train))
train = train.batch(32)
train = train.repeat()

valid = tf.data.dataset.from_tensor_slices((x_valid, y_valid))
valid = valid.batch(32)
valid = valid.repeat()

model.fit(train, epochs=5, steps_per_epoch=100, validation_data=valid, validation_steps=100)

1.25、最近邻向量量化(LVQ) 网络训练对输入向量进行分类

最近邻向量量化（LVQ）是一种用于对输入向量进行分类的神经网络模型。以下是LVQ的一些关键特点和总结：LVQ利用一组原型向量（参考向量）表示不同的类别，在训练过... [阅读全文]

产品经理看AIGC--GAN（生成对抗网络）白话原理

GAN（生成对抗网络）诞生于2014年，是早期广泛应用于AIGC的算法之一，有诸多衍生形式，并至今仍被诸多AIGC应用所采用。GAN综合了深度学习和强化学习的思... [阅读全文]

大数据深度学习卷积神经网络CNN：CNN结构、训练与优化一文全解

卷积神经网络是一种前馈神经网络，它的人工神经元可以响应周围单元的局部区域，从而能够识别视觉空间的部分结构特征。卷积层: 通过卷积操作检测图像的局部特征。激活函数: 引入非线性，增加…

2024年08月04日 • 人工智能

深度学习从入门到精通+TensorFlow案例演示：神经网络实践

超短程序，示范如何撰写手写阿拉伯数字的辨识，要证明改版。构，包括多个输入层或多个输出层，也允许分叉，后续用到时。值，避免受极端值影响，借以矫正过度拟合的现象。执行结果：随着执行周期…

2024年08月05日 • 人工智能

基于卷积神经网络的农作物病虫害图像识别（Opencv，Pytorch，Tensorflow，MobileNetV3）

最近做了一个农作物虫害图像识别的程序，在此分享一下。本文用到的深度学习框架为Tensorflow2，Opencv等等！使用的数据集共有61种类别，分别代表不同的... [阅读全文]

计算机视觉 CV 八股分享 [自用]（更新中......）

梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）传... [阅读全文]


验证码：

验证码：

唐宇迪TensorFlow2.0入门到实战：神经网络分类任务MNIST手写数据集

2024年08月04日 • 神经网络 •我要评论