百摩网
当前位置: 首页 生活百科

图像分类卷积神经网络(这四种卷积神经网络模型了解一下)

时间:2023-06-17 作者: 小编 阅读量: 1 栏目名: 生活百科

并测量预测的准确性。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。因此,数据集称为Fashion-MNIST数据集,可以从GitHub下载。相反,它是机器学习利用向量之间的位置和距离的整体模式。因此,嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。在这里,我将尝试使用TensorBoard表示高维时尚MNIST数据。

摘要: 不懂图像分类?这四种卷积神经网络模型了解一下!

服装购买是一种繁重的体验,眼睛被太多的信息占据了。视觉系统吸收了大量信息,我应该去卖哪件H&M卡其裤吗?那是Nike背心吗?

机器能自动检测衬衫、裤子、连衣裙和运动鞋的图片吗?事实证明,用高质量的训练数据对机器进行训练,准确地对时尚物品的图像进行分类是可行的。在本教程中,我们将从头开始构建一个机器学习模型,使用Fashion-MNIST数据集训练它们。我们将介绍如何训练模型、设计类别分类的输入和输出,最后显示每个模型的准确度结果。

图像分类

图像分类是这样的:给定一组全部用单一类别标记的图像,我们要求为一组新的测试图像预测它们到底是什么类别?并测量预测的准确性。这项任务涉及各种挑战,包括视点变化、尺度变化、类内变化、图像变形、图像遮挡、光照条件、背景杂波等。

我们如何编写可以将图像分类为不同类别的算法?计算机视觉研究人员已经提出了一种数据驱动方法来解决这个问题。它们不是试图直接在代码中指定每个感兴趣的图像类别,而是为计算机提供每个图像类的许多示例,然后开发学习算法,查看这些示例并了解每个类的视觉外观。换句话说,他们首先累积标记图像的训练数据集,然后将其提供给计算机,以使其熟悉数据。

鉴于这一事实,完整的图像分类管道可以形式化如下:

· 输入是一个训练数据集,由N个图像组成,每个图像都标有K个不同类别中的一个。

· 然后,我们使用此训练集来训练分类器,以了解每个类的外观。

· 最后,我们通过要求分类器预测从未见过的一组新图像的标签来评估分类器的质量。然后,我们将比较这些图像的真实标签与分类器预测的标签。

卷积神经网络

卷积神经网络(CNN)是用于图像分类问题的最流行的神经网络模型。CNN背后的一个重要思想是,对图像的局部理解是好的。实际的好处是,参数少将大大缩短了学习所需的时间,并减少了训练模型所需的数据量。CNN具有足够的权重来查看图像的小块,而不是来自每个像素的完全连接的权重网络。

比如一个256 x 256的图像。CNN可以通过局部有效地扫描它,例如,用一个5×5的窗口,通常从左到右,从上到下,如下图所示。它如何“快速”滑动称为其步幅。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。

卷积是图像的像素值的加权和,事实证明,整个带有权重矩阵的图像的卷积过程会产生另一个图像。

滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。每个卷积层通常产生许多交替卷积,因此权重矩阵是5×5×n的张量,其中n是卷积数。

例如,假设图像通过5×5×64的权重矩阵上的卷积层。它通过滑动5×5窗口生成64个卷积。因此,该模型具有5×5×64=1,600个参数,其参数明显少于完全连接的网络,256×256= 65,536个。

CNN的优点在于参数的数量与原始图像的大小无关。你可以在300×300图像上运行相同的CNN,但卷积层中的参数数量不会改变。

数据增强(data augmentation)

图像分类研究数据集通常是非常大的。然而,经常使用数据增强来改善泛化属性。通常,使用重新缩放图像的随机裁剪以及随机水平闪烁和随机RGB颜色和亮度偏移。这其中存在用于重新缩放和裁剪图像的不同方案(即,单一规模与多规模训练)。请注意,随机重新缩放和裁剪的目标是学习不同尺度和位置的每个对象的重要特征,不幸的是Keras没有实现所有这些开箱即用的数据增强技术,

Fashion MNIST数据集

最近,Zalando发布了一个新的数据集,它与众所周知的MNIST手写数字数据库非常相似。该数据集专为机器学习分类任务而设计,包含总共60000个训练和10000个测试图像(灰度),每个28x28像素。每个训练和测试用例与十个标签之一(0-9)相关联。直到这里,Zalando的数据集基本上与原始手写数字数据相同。然而,Zalando的数据不包含数字0-9的图像,而是包含10种不同时尚产品的图像。因此,数据集称为Fashion-MNIST数据集,可以从GitHub下载。这些数据也可以在Kaggle上下载。下图中显示了一些示例,其中每行包含一个时尚项。

10个不同的类别标签是:

1、T恤/上衣;2、裤子;3、套头衫;4、连衣裙;5、外套;

6、凉鞋;7、衬衫;8、运动鞋;9、袋;10、靴子;

据作者称,Fashion-MNIST数据旨在成为旧MNIST手写数字数据的直接替代品,因为手写数字存在若干问题。例如,通过简单地查看几个像素,可以正确地区分几个数字。即使使用线性分类器,也可以实现高分类精度。Fashion-MNIST数据有望更加多样化,因此机器学习(ML)算法必须学习更多高级特征,以便能够可靠地分离各个类。

时尚MNIST的嵌入可视化(Embedding Visualization)

嵌入是一种将离散对象(图像,单词等)映射到高维向量的方法。这些载体中的各个维度通常没有固有的含义。相反,它是机器学习利用向量之间的位置和距离的整体模式。因此,嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。它们在密集向量上训练最好,其中所有值都有助于定义对象。

TensorBoard有一个内置的可视化器,称为嵌入式可视化工具(Embedding Projector),用于交互式可视化和分析嵌入等高维数据。嵌入式可视化工具将从我的模型检查点文件中读取嵌入,虽然它对嵌入最有用,但它会加载任何2D张量,包括训练权重。

在这里,我将尝试使用TensorBoard表示高维时尚MNIST数据。在读取数据并创建测试标签后,我使用此代码构建TensorBoard的嵌入投影仪:

from tensorflow.contrib.tensorboard.plugins import projectorlogdir = 'fashionMNIST-logs'# Creating the embedding variable with all the images defined above under X_testembedding_var = tf.Variable(X_test, name='fmnist_embedding')# Format: tensorflow/contrib/tensorboard/plugins/projector/projector_config.protoconfig = projector.ProjectorConfig()# You can add multiple embeddings. Here I add only one.embedding = config.embeddings.add()embedding.tensor_name = embedding_var.name# Link this tensor to its metadata file (e.g. labels).embedding.metadata_path = os.path.join(logdir, 'metadata.tsv')# Use this logdir to create a summary writersummary_writer = tf.summary.FileWriter(logdir)# The next line writes a projector_config.pbtxt in the logdir. TensorBoard will read this file during startup.projector.visualize_embeddings(summary_writer,config)# Periodically save the model variables in a checkpoint in logdir.with tf.Session() as sesh: sesh.run(tf.global_variables_initializer()) saver = tf.train.Saver() saver.save(sesh, os.path.join(logdir, 'model.ckpt')) # Create the sprite imagerows = 28 cols = 28label = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']sprite_dim = int(np.sqrt(X_test.shape[0]))sprite_image = np.ones((cols * sprite_dim, rows * sprite_dim))index = 0 labels = [] for i in range(sprite_dim):for j in range(sprite_dim): labels.append(label[int(Y_test[index])]) sprite_image[ i * cols: (i1) * cols, j * rows: (j1) * rows ] = X_test[index].reshape(28, 28) * -11 index= 1 # After constructing the sprite, I need to tell the Embedding Projector where to find itembedding.sprite.image_path = os.path.join(logdir, 'sprite.png')embedding.sprite.single_image_dim.extend([28, 28])# Create the metadata (labels) filewith open(embedding.metadata_path, 'w') as meta: meta.write('Index\tLabel\n') for index, label in enumerate(labels): meta.write('{}\t{}\n'.format(index, label))

嵌入可视化工具有三种减少数据集维数的方法:两个线性和一个非线性。每种方法都可用于创建二维或三维视图。

主成分分析:主成分分析(PCA)是一种简单的减小尺寸的技术。嵌入可视化工具有10个主要组件。PCA是一种线性可视化效果,通常可用于检查全局几何。

t-SNE:这是一种流行的非线性降维技术是t-SNE。嵌入可视化工具提供二维和三维t-SNE视图。在客户端执行局部动画算法的每个步骤,因为t-SNE通常保留一些局部结构,所以它对于探索局部邻域和寻找聚类是有用的。

自定义(custom):我们还可以根据文本搜索构建专门的线性可视化,以便在空间中找到有意义的方向。首先定义可视轴,接着输入两个搜索字符串或正则表达式。程序计算其标签与这些搜索匹配的点集的质心,并使用质心之间的差矢量作为可视轴。

你可以在此笔记本中查看可视化步骤的完整代码:TensorBoard-Visualization.ipynb

在时尚MNIST上训练CNN模型

现在让我们转到有趣的部分:我将创建各种不同的基于CNN的分类模型来评估Fashion MNIST的表现。我将使用keras框架构建我们的模型,关于它的更多信息,请参阅此处的文档。以下是我将尝试的模型列表,并比较它们的结果:

1.具有1个卷积层的CNN;

2.具有3个卷积层的CNN;

3.有4个卷积层的CNN;

4.VGG-19预训练模型;

对于所有模型(预训练模型除外),这是我常用的方式:

· 将原始训练数据(60,000张图像)分成80%训练集(48,000张图像)和20%验证集(12000张图像)优化分类器,同时保留测试数据(10,000张图像)以最终评估模型对数据的准确性从未见过。这有助于了解我是否过度拟合训练数据,以及如果验证准确度高于训练准确度。

· 训练模型10个epoch,批量大小为256,使用categorical_crossentropy损失函数和Adam优化器。

· 然后,添加数据增强,通过旋转、移动和缩放训练样本生成新的训练样本,并在更新的数据上训练模型另外50个epoch。

这是加载和增强数据的代码:

# Import librariesfrom keras.utils import to_categoricalfrom sklearn.model_selection import train_test_split# Load training and test data into dataframesdata_train = pd.read_csv('data/fashion-mnist_train.csv')data_test = pd.read_csv('data/fashion-mnist_test.csv')# X forms the training images, and y forms the training labelsX = np.array(data_train.iloc[:, 1:])y = to_categorical(np.array(data_train.iloc[:, 0]))# Here I split original training data to sub-training (80%) and validation data (20%)X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=13)# X_test forms the test images, and y_test forms the test labelsX_test = np.array(data_test.iloc[:, 1:])y_test = to_categorical(np.array(data_test.iloc[:, 0]))

在加载和增强数据之后,我通过将它们重新重构为网络所需的形状并对其进行缩放以使所有值都在[0,1]间隔中来对它们进行预处理。例如,以前,训练数据存储在uint8类型的形状(60000,28,28)的数组中,其值在[0,255]间隔中。我将它转换为float32数组形状(60000,28 * 28),其值介于0和1之间。

# Each image's dimension is 28 x 28img_rows, img_cols = 28, 28input_shape = (img_rows, img_cols, 1)# Prepare the training imagesX_train = X_train.reshape(X_train.shape[0], img_rows, img_cols, 1)X_train = X_train.astype('float32')X_train /= 255# Prepare the test imagesX_test = X_test.reshape(X_test.shape[0], img_rows, img_cols, 1)X_test = X_test.astype('float32')X_test /= 255# Prepare the validation imagesX_val = X_val.reshape(X_val.shape[0], img_rows, img_cols, 1)X_val = X_val.astype('float32')X_val /= 255

1-1-Conv CNN

以下是具有1个卷积层的CNN的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dcnn1 = Sequential()cnn1.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn1.add(MaxPooling2D(pool_size=(2, 2)))cnn1.add(Dropout(0.2))cnn1.add(Flatten())cnn1.add(Dense(128, activation='relu'))cnn1.add(Dense(10, activation='softmax'))cnn1.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-1Conv.ipynb

2-3-Conv CNN

以下是CNN与3卷积层的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dcnn3 = Sequential()cnn3.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn3.add(MaxPooling2D((2, 2)))cnn3.add(Dropout(0.25))cnn3.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))cnn3.add(MaxPooling2D(pool_size=(2, 2)))cnn3.add(Dropout(0.25))cnn3.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))cnn3.add(Dropout(0.4))cnn3.add(Flatten())cnn3.add(Dense(128, activation='relu'))cnn3.add(Dropout(0.3))cnn3.add(Dense(10, activation='softmax'))cnn3.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-3Conv.ipynb

3-4-Conv CNN

以下是具有4个卷积层的CNN的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2D, BatchNormalizationcnn4 = Sequential()cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn4.add(BatchNormalization())cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(MaxPooling2D(pool_size=(2, 2)))cnn4.add(Dropout(0.25))cnn4.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.25))cnn4.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(MaxPooling2D(pool_size=(2, 2)))cnn4.add(Dropout(0.25))cnn4.add(Flatten())cnn4.add(Dense(512, activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.5))cnn4.add(Dense(128, activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.5))cnn4.add(Dense(10, activation='softmax'))cnn4.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-4Conv.ipynb

4–迁移学习

对小图像数据集进行深度学习的常用且高效的方法是使用预先训练的网络。一个预先训练网络是以前训练的大型数据集,通常在大型图像分类任务保存的网络。如果这个原始数据集足够大且足够通用,则预训练网络所学习的特征的空间层次结构可以有效地充当视觉世界的通用模型,因此其特征可以证明对于许多不同的计算机视觉问题是有用的。即使这些新问题可能涉及与原始任务完全不同的类。

我试图实现VGG19预训练模型,这是ImageNet广泛使用的ConvNets架构。这是你可以遵循的代码:

import kerasfrom keras.applications import VGG19from keras.applications.vgg19 import preprocess_inputfrom keras.layers import Dense, Dropoutfrom keras.models import Modelfrom keras import modelsfrom keras import layersfrom keras import optimizers# Create the base model of VGG19vgg19 = VGG19(weights='imagenet', include_top=False, input_shape = (150, 150, 3), classes = 10)# Preprocessing the input X_train = preprocess_input(X_train)X_val = preprocess_input(X_val)X_test = preprocess_input(X_test)# Extracting featurestrain_features = vgg19.predict(np.array(X_train), batch_size=256, verbose=1)test_features = vgg19.predict(np.array(X_test), batch_size=256, verbose=1)val_features = vgg19.predict(np.array(X_val), batch_size=256, verbose=1)# Flatten extracted featurestrain_features = np.reshape(train_features, (48000, 4*4*512))test_features = np.reshape(test_features, (10000, 4*4*512))val_features = np.reshape(val_features, (12000, 4*4*512))# Add Dense and Dropout layers on top of VGG19 pre-trainedmodel = models.Sequential()model.add(layers.Dense(512, activation='relu', input_dim=4 * 4 * 512))model.add(layers.Dropout(0.5))model.add(layers.Dense(10, activation="softmax"))# Compile the modelmodel.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

出于视觉目的,我绘制了培训和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:VGG19-GPU.ipynb

总结

时尚领域是一个非常受欢迎的机器学习和计算机视觉应用的战场。由于高度的主观性和所涉及的特征的语义复杂性,该领域中的问题具有挑战性。我希望这篇文章有助于你了解构建自己的卷积神经网络以对时尚图像进行分类的4种不同方法。

本文由阿里云云栖社区组织翻译。

文章原标题《the-4-convolutional-neural-network-models-that-can-classify-your-fashion-images》

作者:James Le 译者:乌拉乌拉,审校:。

    推荐阅读
  • 多肉不死鸟繁殖技巧 不死鸟多肉幼苗

    然后准备好沙土,并做好消毒杀菌处理。最后将叶片平放在沙土上,注意一定要保持紧贴。然后适量浇水摆放在阴凉处,大约半个月就会生长出小芽来。

  • 酸柚子的功效与作用 酸柚子的功效与作用及禁忌

    酸柚子是属于柚子中的一个重要品种,因为它味道比较酸,而被人们称为酸柚子,但它营养价值极高,只能开胃消食,促进消化,又能消炎杀菌,特别是人体健康有很大好处,那么酸柚子的功效与作用到底有哪些呢? 酸柚子的

  • 有韵味带秋字的网名(带秋字的名字有内涵)

    秋色梧桐秋寒枝枯颜思谨°,下面我们就来聊聊关于有韵味带秋字的网名?接下来我们就一起去了解一下吧!一个秋末冬初デ秋天的綠葉ゞ蝶舞知秋★中秋王源最相思静思秋枫凉了这个秋、西瓜荡秋千我爱张悦轩!俄想过陪迩至下个春秋〃中秋放三天学校你对得起谁中秋碰见我竹马ˇ

  • 安志膏的功效与作用 安志膏的功效与作用是什么

    安志膏作为中药方剂的一种,也是非常的神奇,不仅治愈疗效好,而且应用广泛,那么大家知道安志膏的成分是哪些吗?《济阳纲目》卷四十六人参1钱,酸枣仁(炒)1钱,辰砂半两,乳香(另研)半两。每服1丸,空心以温酒或大枣汤送下。《济阳纲目》卷五十五上文介绍了安志膏的妙用,可见它的功能有很多,是不可多得的好方剂。但需要注意的是在服用前请一定要了解清楚相关的用药禁忌哦。

  • 一览众山小出自哪首诗(简述一览众山小这首诗)

    一览众山小出处:杜甫的《望岳》,我来为大家讲解一下关于一览众山小出自哪首诗?跟着小编一起来看一看吧!造化钟神秀,阴阳割昏晓。荡胸生曾云,决眦入归鸟。“会当凌绝顶,一览众山小”两句,写诗人从望岳产生了登岳的想法,体现了中华民族自强不息的仙字精神。此联号为绝响,再一次突出了泰山的高峻,写出了雄视一切的雄姿和气势,也表现出诗人的心胸气魄。

  • 直招士官有什么硬性要求(什么是直招士官)

    招收的普通高等学校、高级技工学校和技师学院毕业生应当未婚,男性不超过二十四周岁,女性不超过二十三周岁;其他具有专业技能的公民,不超过二十八周岁;因特殊情况需要放宽年龄的,在下达年度招收士官计划时另行确定。

  • 西门子变频器g120xd接线图(西门子SINAMICSV20变频器连载)

    如下图:如果使用三相400V的变频器来控制该电机,由于变频器输出的U、V、W之间的电压为400V,因此需要将电机绕组改成星型(Y型)连接。当将扩展模块的DIC与变频器的DIC相连接时,二者可作为同一组数字量输入来使用;当扩展模块的DIC与变频器的DIC不连接时,作为两组数字量输入来使用。扩展模块的右下角是数字量输出接线端子,有两组继电器输出DO3和DO4,均为常开通道。

  • 紫米热量高吗(紫米的热量是比较高的)

    跟着小编一起来看一看吧!紫米热量高吗紫米的热量确实是比较高的,每100克的紫米中,大约含有346大卡左右的热量,相对于生活中很多食物来说,紫米的热量算是很高的了。

  • 贴贴哒咩什么梗(热梗百科哒咩)

    后面这张图被网友们疯狂转载,也就成了大家玩梗的图片,“哒咩”这个词再次出现在大众的视线当中。「热梗百科」“依萍找她爸要钱那天的雨”什么梗?「热梗百科」“马可贴贴,激情绿茵哒咩”什么梗?

  • 蚝油和香油哪个热量高(蚝油和香油哪个热量比较高)

    食用石油进入人体后,通常不会导致热量积聚和肥胖。然而,食用油本身是从牡蛎中提取的,而且嘌呤含量相对较高,因此痛风患者最好不要吃太多。此外,燃油消耗量本身属于发质。过敏性疾病患者建议不要食用,否则可能会加重过敏症状,引起全身红斑、丘疹、瘙痒等。芝麻油的热度仍然很高。每100克芝麻油含有898千卡。但是,同时注意饮食和适当的运动。我们可以多吃新鲜蔬菜和水果来增加饱腹感,从而减少其他食物的摄入。