百摩网
当前位置: 首页 生活百科

图像分类卷积神经网络(这四种卷积神经网络模型了解一下)

时间:2023-06-17 作者: 小编 阅读量: 3 栏目名: 生活百科

并测量预测的准确性。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。因此,数据集称为Fashion-MNIST数据集,可以从GitHub下载。相反,它是机器学习利用向量之间的位置和距离的整体模式。因此,嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。在这里,我将尝试使用TensorBoard表示高维时尚MNIST数据。

摘要: 不懂图像分类?这四种卷积神经网络模型了解一下!

服装购买是一种繁重的体验,眼睛被太多的信息占据了。视觉系统吸收了大量信息,我应该去卖哪件H&M卡其裤吗?那是Nike背心吗?

机器能自动检测衬衫、裤子、连衣裙和运动鞋的图片吗?事实证明,用高质量的训练数据对机器进行训练,准确地对时尚物品的图像进行分类是可行的。在本教程中,我们将从头开始构建一个机器学习模型,使用Fashion-MNIST数据集训练它们。我们将介绍如何训练模型、设计类别分类的输入和输出,最后显示每个模型的准确度结果。

图像分类

图像分类是这样的:给定一组全部用单一类别标记的图像,我们要求为一组新的测试图像预测它们到底是什么类别?并测量预测的准确性。这项任务涉及各种挑战,包括视点变化、尺度变化、类内变化、图像变形、图像遮挡、光照条件、背景杂波等。

我们如何编写可以将图像分类为不同类别的算法?计算机视觉研究人员已经提出了一种数据驱动方法来解决这个问题。它们不是试图直接在代码中指定每个感兴趣的图像类别,而是为计算机提供每个图像类的许多示例,然后开发学习算法,查看这些示例并了解每个类的视觉外观。换句话说,他们首先累积标记图像的训练数据集,然后将其提供给计算机,以使其熟悉数据。

鉴于这一事实,完整的图像分类管道可以形式化如下:

· 输入是一个训练数据集,由N个图像组成,每个图像都标有K个不同类别中的一个。

· 然后,我们使用此训练集来训练分类器,以了解每个类的外观。

· 最后,我们通过要求分类器预测从未见过的一组新图像的标签来评估分类器的质量。然后,我们将比较这些图像的真实标签与分类器预测的标签。

卷积神经网络

卷积神经网络(CNN)是用于图像分类问题的最流行的神经网络模型。CNN背后的一个重要思想是,对图像的局部理解是好的。实际的好处是,参数少将大大缩短了学习所需的时间,并减少了训练模型所需的数据量。CNN具有足够的权重来查看图像的小块,而不是来自每个像素的完全连接的权重网络。

比如一个256 x 256的图像。CNN可以通过局部有效地扫描它,例如,用一个5×5的窗口,通常从左到右,从上到下,如下图所示。它如何“快速”滑动称为其步幅。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。

卷积是图像的像素值的加权和,事实证明,整个带有权重矩阵的图像的卷积过程会产生另一个图像。

滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。每个卷积层通常产生许多交替卷积,因此权重矩阵是5×5×n的张量,其中n是卷积数。

例如,假设图像通过5×5×64的权重矩阵上的卷积层。它通过滑动5×5窗口生成64个卷积。因此,该模型具有5×5×64=1,600个参数,其参数明显少于完全连接的网络,256×256= 65,536个。

CNN的优点在于参数的数量与原始图像的大小无关。你可以在300×300图像上运行相同的CNN,但卷积层中的参数数量不会改变。

数据增强(data augmentation)

图像分类研究数据集通常是非常大的。然而,经常使用数据增强来改善泛化属性。通常,使用重新缩放图像的随机裁剪以及随机水平闪烁和随机RGB颜色和亮度偏移。这其中存在用于重新缩放和裁剪图像的不同方案(即,单一规模与多规模训练)。请注意,随机重新缩放和裁剪的目标是学习不同尺度和位置的每个对象的重要特征,不幸的是Keras没有实现所有这些开箱即用的数据增强技术,

Fashion MNIST数据集

最近,Zalando发布了一个新的数据集,它与众所周知的MNIST手写数字数据库非常相似。该数据集专为机器学习分类任务而设计,包含总共60000个训练和10000个测试图像(灰度),每个28x28像素。每个训练和测试用例与十个标签之一(0-9)相关联。直到这里,Zalando的数据集基本上与原始手写数字数据相同。然而,Zalando的数据不包含数字0-9的图像,而是包含10种不同时尚产品的图像。因此,数据集称为Fashion-MNIST数据集,可以从GitHub下载。这些数据也可以在Kaggle上下载。下图中显示了一些示例,其中每行包含一个时尚项。

10个不同的类别标签是:

1、T恤/上衣;2、裤子;3、套头衫;4、连衣裙;5、外套;

6、凉鞋;7、衬衫;8、运动鞋;9、袋;10、靴子;

据作者称,Fashion-MNIST数据旨在成为旧MNIST手写数字数据的直接替代品,因为手写数字存在若干问题。例如,通过简单地查看几个像素,可以正确地区分几个数字。即使使用线性分类器,也可以实现高分类精度。Fashion-MNIST数据有望更加多样化,因此机器学习(ML)算法必须学习更多高级特征,以便能够可靠地分离各个类。

时尚MNIST的嵌入可视化(Embedding Visualization)

嵌入是一种将离散对象(图像,单词等)映射到高维向量的方法。这些载体中的各个维度通常没有固有的含义。相反,它是机器学习利用向量之间的位置和距离的整体模式。因此,嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。它们在密集向量上训练最好,其中所有值都有助于定义对象。

TensorBoard有一个内置的可视化器,称为嵌入式可视化工具(Embedding Projector),用于交互式可视化和分析嵌入等高维数据。嵌入式可视化工具将从我的模型检查点文件中读取嵌入,虽然它对嵌入最有用,但它会加载任何2D张量,包括训练权重。

在这里,我将尝试使用TensorBoard表示高维时尚MNIST数据。在读取数据并创建测试标签后,我使用此代码构建TensorBoard的嵌入投影仪:

from tensorflow.contrib.tensorboard.plugins import projectorlogdir = 'fashionMNIST-logs'# Creating the embedding variable with all the images defined above under X_testembedding_var = tf.Variable(X_test, name='fmnist_embedding')# Format: tensorflow/contrib/tensorboard/plugins/projector/projector_config.protoconfig = projector.ProjectorConfig()# You can add multiple embeddings. Here I add only one.embedding = config.embeddings.add()embedding.tensor_name = embedding_var.name# Link this tensor to its metadata file (e.g. labels).embedding.metadata_path = os.path.join(logdir, 'metadata.tsv')# Use this logdir to create a summary writersummary_writer = tf.summary.FileWriter(logdir)# The next line writes a projector_config.pbtxt in the logdir. TensorBoard will read this file during startup.projector.visualize_embeddings(summary_writer,config)# Periodically save the model variables in a checkpoint in logdir.with tf.Session() as sesh: sesh.run(tf.global_variables_initializer()) saver = tf.train.Saver() saver.save(sesh, os.path.join(logdir, 'model.ckpt')) # Create the sprite imagerows = 28 cols = 28label = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']sprite_dim = int(np.sqrt(X_test.shape[0]))sprite_image = np.ones((cols * sprite_dim, rows * sprite_dim))index = 0 labels = [] for i in range(sprite_dim):for j in range(sprite_dim): labels.append(label[int(Y_test[index])]) sprite_image[ i * cols: (i1) * cols, j * rows: (j1) * rows ] = X_test[index].reshape(28, 28) * -11 index= 1 # After constructing the sprite, I need to tell the Embedding Projector where to find itembedding.sprite.image_path = os.path.join(logdir, 'sprite.png')embedding.sprite.single_image_dim.extend([28, 28])# Create the metadata (labels) filewith open(embedding.metadata_path, 'w') as meta: meta.write('Index\tLabel\n') for index, label in enumerate(labels): meta.write('{}\t{}\n'.format(index, label))

嵌入可视化工具有三种减少数据集维数的方法:两个线性和一个非线性。每种方法都可用于创建二维或三维视图。

主成分分析:主成分分析(PCA)是一种简单的减小尺寸的技术。嵌入可视化工具有10个主要组件。PCA是一种线性可视化效果,通常可用于检查全局几何。

t-SNE:这是一种流行的非线性降维技术是t-SNE。嵌入可视化工具提供二维和三维t-SNE视图。在客户端执行局部动画算法的每个步骤,因为t-SNE通常保留一些局部结构,所以它对于探索局部邻域和寻找聚类是有用的。

自定义(custom):我们还可以根据文本搜索构建专门的线性可视化,以便在空间中找到有意义的方向。首先定义可视轴,接着输入两个搜索字符串或正则表达式。程序计算其标签与这些搜索匹配的点集的质心,并使用质心之间的差矢量作为可视轴。

你可以在此笔记本中查看可视化步骤的完整代码:TensorBoard-Visualization.ipynb

在时尚MNIST上训练CNN模型

现在让我们转到有趣的部分:我将创建各种不同的基于CNN的分类模型来评估Fashion MNIST的表现。我将使用keras框架构建我们的模型,关于它的更多信息,请参阅此处的文档。以下是我将尝试的模型列表,并比较它们的结果:

1.具有1个卷积层的CNN;

2.具有3个卷积层的CNN;

3.有4个卷积层的CNN;

4.VGG-19预训练模型;

对于所有模型(预训练模型除外),这是我常用的方式:

· 将原始训练数据(60,000张图像)分成80%训练集(48,000张图像)和20%验证集(12000张图像)优化分类器,同时保留测试数据(10,000张图像)以最终评估模型对数据的准确性从未见过。这有助于了解我是否过度拟合训练数据,以及如果验证准确度高于训练准确度。

· 训练模型10个epoch,批量大小为256,使用categorical_crossentropy损失函数和Adam优化器。

· 然后,添加数据增强,通过旋转、移动和缩放训练样本生成新的训练样本,并在更新的数据上训练模型另外50个epoch。

这是加载和增强数据的代码:

# Import librariesfrom keras.utils import to_categoricalfrom sklearn.model_selection import train_test_split# Load training and test data into dataframesdata_train = pd.read_csv('data/fashion-mnist_train.csv')data_test = pd.read_csv('data/fashion-mnist_test.csv')# X forms the training images, and y forms the training labelsX = np.array(data_train.iloc[:, 1:])y = to_categorical(np.array(data_train.iloc[:, 0]))# Here I split original training data to sub-training (80%) and validation data (20%)X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=13)# X_test forms the test images, and y_test forms the test labelsX_test = np.array(data_test.iloc[:, 1:])y_test = to_categorical(np.array(data_test.iloc[:, 0]))

在加载和增强数据之后,我通过将它们重新重构为网络所需的形状并对其进行缩放以使所有值都在[0,1]间隔中来对它们进行预处理。例如,以前,训练数据存储在uint8类型的形状(60000,28,28)的数组中,其值在[0,255]间隔中。我将它转换为float32数组形状(60000,28 * 28),其值介于0和1之间。

# Each image's dimension is 28 x 28img_rows, img_cols = 28, 28input_shape = (img_rows, img_cols, 1)# Prepare the training imagesX_train = X_train.reshape(X_train.shape[0], img_rows, img_cols, 1)X_train = X_train.astype('float32')X_train /= 255# Prepare the test imagesX_test = X_test.reshape(X_test.shape[0], img_rows, img_cols, 1)X_test = X_test.astype('float32')X_test /= 255# Prepare the validation imagesX_val = X_val.reshape(X_val.shape[0], img_rows, img_cols, 1)X_val = X_val.astype('float32')X_val /= 255

1-1-Conv CNN

以下是具有1个卷积层的CNN的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dcnn1 = Sequential()cnn1.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn1.add(MaxPooling2D(pool_size=(2, 2)))cnn1.add(Dropout(0.2))cnn1.add(Flatten())cnn1.add(Dense(128, activation='relu'))cnn1.add(Dense(10, activation='softmax'))cnn1.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-1Conv.ipynb

2-3-Conv CNN

以下是CNN与3卷积层的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dcnn3 = Sequential()cnn3.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn3.add(MaxPooling2D((2, 2)))cnn3.add(Dropout(0.25))cnn3.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))cnn3.add(MaxPooling2D(pool_size=(2, 2)))cnn3.add(Dropout(0.25))cnn3.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))cnn3.add(Dropout(0.4))cnn3.add(Flatten())cnn3.add(Dense(128, activation='relu'))cnn3.add(Dropout(0.3))cnn3.add(Dense(10, activation='softmax'))cnn3.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-3Conv.ipynb

3-4-Conv CNN

以下是具有4个卷积层的CNN的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2D, BatchNormalizationcnn4 = Sequential()cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn4.add(BatchNormalization())cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(MaxPooling2D(pool_size=(2, 2)))cnn4.add(Dropout(0.25))cnn4.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.25))cnn4.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(MaxPooling2D(pool_size=(2, 2)))cnn4.add(Dropout(0.25))cnn4.add(Flatten())cnn4.add(Dense(512, activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.5))cnn4.add(Dense(128, activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.5))cnn4.add(Dense(10, activation='softmax'))cnn4.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-4Conv.ipynb

4–迁移学习

对小图像数据集进行深度学习的常用且高效的方法是使用预先训练的网络。一个预先训练网络是以前训练的大型数据集,通常在大型图像分类任务保存的网络。如果这个原始数据集足够大且足够通用,则预训练网络所学习的特征的空间层次结构可以有效地充当视觉世界的通用模型,因此其特征可以证明对于许多不同的计算机视觉问题是有用的。即使这些新问题可能涉及与原始任务完全不同的类。

我试图实现VGG19预训练模型,这是ImageNet广泛使用的ConvNets架构。这是你可以遵循的代码:

import kerasfrom keras.applications import VGG19from keras.applications.vgg19 import preprocess_inputfrom keras.layers import Dense, Dropoutfrom keras.models import Modelfrom keras import modelsfrom keras import layersfrom keras import optimizers# Create the base model of VGG19vgg19 = VGG19(weights='imagenet', include_top=False, input_shape = (150, 150, 3), classes = 10)# Preprocessing the input X_train = preprocess_input(X_train)X_val = preprocess_input(X_val)X_test = preprocess_input(X_test)# Extracting featurestrain_features = vgg19.predict(np.array(X_train), batch_size=256, verbose=1)test_features = vgg19.predict(np.array(X_test), batch_size=256, verbose=1)val_features = vgg19.predict(np.array(X_val), batch_size=256, verbose=1)# Flatten extracted featurestrain_features = np.reshape(train_features, (48000, 4*4*512))test_features = np.reshape(test_features, (10000, 4*4*512))val_features = np.reshape(val_features, (12000, 4*4*512))# Add Dense and Dropout layers on top of VGG19 pre-trainedmodel = models.Sequential()model.add(layers.Dense(512, activation='relu', input_dim=4 * 4 * 512))model.add(layers.Dropout(0.5))model.add(layers.Dense(10, activation="softmax"))# Compile the modelmodel.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

出于视觉目的,我绘制了培训和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:VGG19-GPU.ipynb

总结

时尚领域是一个非常受欢迎的机器学习和计算机视觉应用的战场。由于高度的主观性和所涉及的特征的语义复杂性,该领域中的问题具有挑战性。我希望这篇文章有助于你了解构建自己的卷积神经网络以对时尚图像进行分类的4种不同方法。

本文由阿里云云栖社区组织翻译。

文章原标题《the-4-convolutional-neural-network-models-that-can-classify-your-fashion-images》

作者:James Le 译者:乌拉乌拉,审校:。

    推荐阅读
  • 车窗一键升降上去了又降下来怎么办(一键升降车窗升到一半又下降)

    密封胶带属于橡胶制品,橡胶制品长期使用会老化,所以密封胶带长期使用会老化。建议平时用车尽量不要把车停在阳光下,这样会加速车身橡胶密封的老化速度。建议停车时把车停在车库或地下停车场。如果车身密封条老化,应立即更换。更换或维修升降玻璃的升降机构时,一定要去专业维修店或4s店,使用原装配件。

  • 煮好的桃胶吃不完怎么保存(煮好的桃胶吃不完密封冷藏保存)

    我们一起去了解并探讨一下这个问题吧!煮好的桃胶如果不吃完的话,建议等其冷却后可以用保鲜膜密封装好放冰箱中冷藏保存,这样能防止桃胶和空气中细菌接触,同时能减少桃胶中水分以及营养成分的流失。保存得当的话一般能保存2天左右,但一般还是建议将桃胶现吃现煮,这样才能品尝到桃胶的最佳口感和营养价值。

  • dnf换装怎么换教程(地下城一键换装)

    众所周知,耕耘版本由于提供了能够增加buff等级的称号以及称号宝珠被公认为最好完善buff的版本。除部分职业之外,每个职业的buff技能等级上限都与buff技能等级上限相差10级。一般来说,二级buff称号性价比较高,三级buff称号价格昂贵,推荐小伙伴根据自己的实际情况,选择二级或者三级耕耘称号。

  • 爱奇艺星钻vip会员值得购买吗(爱奇艺推出星钻VIP会员)

    目前,“钻石VIP会员”已经从爱奇艺官方下架,此前该等级的会员全部自动升级成为“星钻VIP会员”。截止2020年第一季度,爱奇艺付费会员数量增加23%,净增长1200万人,总共拥有1.19亿。绝对数量上的增长,与新冠疫情导致更多的观众呆在家里观看流媒体有关,也与爱奇艺不断推出的会员优惠活动有关。“星钻VIP会员”连续包年398元,连续包月首月12元,后续40元。

  • 龙虾头变黑了还能吃吗(龙虾头变黑千万不能吃)

    龙虾头变黑了还能吃吗龙虾头变黑千万不能吃。因为龙虾是高蛋白生物,本身体内含有的细菌多,龙虾一死,细菌立刻分解,人吃了,容易中毒和拉肚子。活龙虾在买来后,最好放在清水里养24~36小时,使其吐净体内的泥沙等杂质,杀死细菌。在加工龙虾时,两鳃里的脏东西要清除,因为鳃毛里面吸附了很多细菌,虾壳最好用刷子刷洗。龙虾细爪的根部最容易藏污纳垢,一定要剪掉。最后还要经过刷、洗才能烹饪。

  • 电饭锅能做出酸奶吗(想喝美味酸奶不用买)

    ,我来为大家讲解一下关于电饭锅能做出酸奶吗?跟着小编一起来看一看吧!

  • 数字易经是什么(数字易经的解释)

    数字易经是什么数字易经是一种通过研究数字的风水磁场信息,来达到破译个人运势以及趋吉避凶目的的学术。在易经中有一幅神秘的数字结构图,叫洛书图。它是由表示数字的1到9的原点所组成。它们的排列方式三横三纵,正好可由“井”字隔开。中心数字为5,从其下方格的数字开始,顺时针绕一圈依次的数字是6。这种排列无论是横向、纵向、斜向三个数字的之和都会是15,这个就是九宫,也就是平时所说的九宫格。

  • 带爱的歌词有哪些(带爱的歌词精选)

    爱情是一道伤口,各自苦痛,沉默是我最后的温柔,是我太爱你——《安静了》,现在小编就来说说关于带爱的歌词有哪些?——《安静了》而我已经分不清,你是友情还是错过的爱情。——王力宏《爱的就是你》脑袋都是你,心里都是你,小小的爱在那城里好甜蜜。——王力宏《大城小爱》我爱你,你是我的罗密欧,我愿意变成你的祝英台。——《七里香》因为爱情,不会轻易悲伤。——《因为爱情》

  • 吴佩慈四胎后对身体有什么影响(五年生了四胎依旧)

    △吴佩慈与纪晓波一家四口。小S嫁了许雅钧,胖达人惹上官司。2017年6月22日,吴佩慈的第3胎,儿子Hudson诞生。她的历任男友名单,堪称东亚“福布斯”榜。甚至就在吴佩慈为纪晓波生下第一个孩子之后,又曝出纪晓波曾与颖儿交往的亲密照。然而,财报显示,吴佩慈婆婆名下的博华太平洋,2018年亏损了30亿港元。而吴佩慈本人和她的弟弟吴立文,其实也早已介入了纪晓波的生意。

  • 算盘怎么看(算盘的起源)

    档中横以梁,梁上1珠,这珠为5;梁下5珠,每珠为1。中国是算盘的故乡,在计算机已被普遍使用的今天,古老的算盘不仅没有被废弃,反而因它的灵便、准确等优点依然受到许多人的青睐。因此,人们往往把算盘的发明与中国古代四大发明相提并论,认为算盘也是中华民族对人类的一大贡献。清代数学家梅启照等人认为,算盘起源于我国的东汉、南北朝时期。