百摩网
当前位置: 首页 生活百科

图像分类卷积神经网络(这四种卷积神经网络模型了解一下)

时间:2023-06-17 作者: 小编 阅读量: 1 栏目名: 生活百科

并测量预测的准确性。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。因此,数据集称为Fashion-MNIST数据集,可以从GitHub下载。相反,它是机器学习利用向量之间的位置和距离的整体模式。因此,嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。在这里,我将尝试使用TensorBoard表示高维时尚MNIST数据。

摘要: 不懂图像分类?这四种卷积神经网络模型了解一下!

服装购买是一种繁重的体验,眼睛被太多的信息占据了。视觉系统吸收了大量信息,我应该去卖哪件H&M卡其裤吗?那是Nike背心吗?

机器能自动检测衬衫、裤子、连衣裙和运动鞋的图片吗?事实证明,用高质量的训练数据对机器进行训练,准确地对时尚物品的图像进行分类是可行的。在本教程中,我们将从头开始构建一个机器学习模型,使用Fashion-MNIST数据集训练它们。我们将介绍如何训练模型、设计类别分类的输入和输出,最后显示每个模型的准确度结果。

图像分类

图像分类是这样的:给定一组全部用单一类别标记的图像,我们要求为一组新的测试图像预测它们到底是什么类别?并测量预测的准确性。这项任务涉及各种挑战,包括视点变化、尺度变化、类内变化、图像变形、图像遮挡、光照条件、背景杂波等。

我们如何编写可以将图像分类为不同类别的算法?计算机视觉研究人员已经提出了一种数据驱动方法来解决这个问题。它们不是试图直接在代码中指定每个感兴趣的图像类别,而是为计算机提供每个图像类的许多示例,然后开发学习算法,查看这些示例并了解每个类的视觉外观。换句话说,他们首先累积标记图像的训练数据集,然后将其提供给计算机,以使其熟悉数据。

鉴于这一事实,完整的图像分类管道可以形式化如下:

· 输入是一个训练数据集,由N个图像组成,每个图像都标有K个不同类别中的一个。

· 然后,我们使用此训练集来训练分类器,以了解每个类的外观。

· 最后,我们通过要求分类器预测从未见过的一组新图像的标签来评估分类器的质量。然后,我们将比较这些图像的真实标签与分类器预测的标签。

卷积神经网络

卷积神经网络(CNN)是用于图像分类问题的最流行的神经网络模型。CNN背后的一个重要思想是,对图像的局部理解是好的。实际的好处是,参数少将大大缩短了学习所需的时间,并减少了训练模型所需的数据量。CNN具有足够的权重来查看图像的小块,而不是来自每个像素的完全连接的权重网络。

比如一个256 x 256的图像。CNN可以通过局部有效地扫描它,例如,用一个5×5的窗口,通常从左到右,从上到下,如下图所示。它如何“快速”滑动称为其步幅。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。

卷积是图像的像素值的加权和,事实证明,整个带有权重矩阵的图像的卷积过程会产生另一个图像。

滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。每个卷积层通常产生许多交替卷积,因此权重矩阵是5×5×n的张量,其中n是卷积数。

例如,假设图像通过5×5×64的权重矩阵上的卷积层。它通过滑动5×5窗口生成64个卷积。因此,该模型具有5×5×64=1,600个参数,其参数明显少于完全连接的网络,256×256= 65,536个。

CNN的优点在于参数的数量与原始图像的大小无关。你可以在300×300图像上运行相同的CNN,但卷积层中的参数数量不会改变。

数据增强(data augmentation)

图像分类研究数据集通常是非常大的。然而,经常使用数据增强来改善泛化属性。通常,使用重新缩放图像的随机裁剪以及随机水平闪烁和随机RGB颜色和亮度偏移。这其中存在用于重新缩放和裁剪图像的不同方案(即,单一规模与多规模训练)。请注意,随机重新缩放和裁剪的目标是学习不同尺度和位置的每个对象的重要特征,不幸的是Keras没有实现所有这些开箱即用的数据增强技术,

Fashion MNIST数据集

最近,Zalando发布了一个新的数据集,它与众所周知的MNIST手写数字数据库非常相似。该数据集专为机器学习分类任务而设计,包含总共60000个训练和10000个测试图像(灰度),每个28x28像素。每个训练和测试用例与十个标签之一(0-9)相关联。直到这里,Zalando的数据集基本上与原始手写数字数据相同。然而,Zalando的数据不包含数字0-9的图像,而是包含10种不同时尚产品的图像。因此,数据集称为Fashion-MNIST数据集,可以从GitHub下载。这些数据也可以在Kaggle上下载。下图中显示了一些示例,其中每行包含一个时尚项。

10个不同的类别标签是:

1、T恤/上衣;2、裤子;3、套头衫;4、连衣裙;5、外套;

6、凉鞋;7、衬衫;8、运动鞋;9、袋;10、靴子;

据作者称,Fashion-MNIST数据旨在成为旧MNIST手写数字数据的直接替代品,因为手写数字存在若干问题。例如,通过简单地查看几个像素,可以正确地区分几个数字。即使使用线性分类器,也可以实现高分类精度。Fashion-MNIST数据有望更加多样化,因此机器学习(ML)算法必须学习更多高级特征,以便能够可靠地分离各个类。

时尚MNIST的嵌入可视化(Embedding Visualization)

嵌入是一种将离散对象(图像,单词等)映射到高维向量的方法。这些载体中的各个维度通常没有固有的含义。相反,它是机器学习利用向量之间的位置和距离的整体模式。因此,嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。它们在密集向量上训练最好,其中所有值都有助于定义对象。

TensorBoard有一个内置的可视化器,称为嵌入式可视化工具(Embedding Projector),用于交互式可视化和分析嵌入等高维数据。嵌入式可视化工具将从我的模型检查点文件中读取嵌入,虽然它对嵌入最有用,但它会加载任何2D张量,包括训练权重。

在这里,我将尝试使用TensorBoard表示高维时尚MNIST数据。在读取数据并创建测试标签后,我使用此代码构建TensorBoard的嵌入投影仪:

from tensorflow.contrib.tensorboard.plugins import projectorlogdir = 'fashionMNIST-logs'# Creating the embedding variable with all the images defined above under X_testembedding_var = tf.Variable(X_test, name='fmnist_embedding')# Format: tensorflow/contrib/tensorboard/plugins/projector/projector_config.protoconfig = projector.ProjectorConfig()# You can add multiple embeddings. Here I add only one.embedding = config.embeddings.add()embedding.tensor_name = embedding_var.name# Link this tensor to its metadata file (e.g. labels).embedding.metadata_path = os.path.join(logdir, 'metadata.tsv')# Use this logdir to create a summary writersummary_writer = tf.summary.FileWriter(logdir)# The next line writes a projector_config.pbtxt in the logdir. TensorBoard will read this file during startup.projector.visualize_embeddings(summary_writer,config)# Periodically save the model variables in a checkpoint in logdir.with tf.Session() as sesh: sesh.run(tf.global_variables_initializer()) saver = tf.train.Saver() saver.save(sesh, os.path.join(logdir, 'model.ckpt')) # Create the sprite imagerows = 28 cols = 28label = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']sprite_dim = int(np.sqrt(X_test.shape[0]))sprite_image = np.ones((cols * sprite_dim, rows * sprite_dim))index = 0 labels = [] for i in range(sprite_dim):for j in range(sprite_dim): labels.append(label[int(Y_test[index])]) sprite_image[ i * cols: (i1) * cols, j * rows: (j1) * rows ] = X_test[index].reshape(28, 28) * -11 index= 1 # After constructing the sprite, I need to tell the Embedding Projector where to find itembedding.sprite.image_path = os.path.join(logdir, 'sprite.png')embedding.sprite.single_image_dim.extend([28, 28])# Create the metadata (labels) filewith open(embedding.metadata_path, 'w') as meta: meta.write('Index\tLabel\n') for index, label in enumerate(labels): meta.write('{}\t{}\n'.format(index, label))

嵌入可视化工具有三种减少数据集维数的方法:两个线性和一个非线性。每种方法都可用于创建二维或三维视图。

主成分分析:主成分分析(PCA)是一种简单的减小尺寸的技术。嵌入可视化工具有10个主要组件。PCA是一种线性可视化效果,通常可用于检查全局几何。

t-SNE:这是一种流行的非线性降维技术是t-SNE。嵌入可视化工具提供二维和三维t-SNE视图。在客户端执行局部动画算法的每个步骤,因为t-SNE通常保留一些局部结构,所以它对于探索局部邻域和寻找聚类是有用的。

自定义(custom):我们还可以根据文本搜索构建专门的线性可视化,以便在空间中找到有意义的方向。首先定义可视轴,接着输入两个搜索字符串或正则表达式。程序计算其标签与这些搜索匹配的点集的质心,并使用质心之间的差矢量作为可视轴。

你可以在此笔记本中查看可视化步骤的完整代码:TensorBoard-Visualization.ipynb

在时尚MNIST上训练CNN模型

现在让我们转到有趣的部分:我将创建各种不同的基于CNN的分类模型来评估Fashion MNIST的表现。我将使用keras框架构建我们的模型,关于它的更多信息,请参阅此处的文档。以下是我将尝试的模型列表,并比较它们的结果:

1.具有1个卷积层的CNN;

2.具有3个卷积层的CNN;

3.有4个卷积层的CNN;

4.VGG-19预训练模型;

对于所有模型(预训练模型除外),这是我常用的方式:

· 将原始训练数据(60,000张图像)分成80%训练集(48,000张图像)和20%验证集(12000张图像)优化分类器,同时保留测试数据(10,000张图像)以最终评估模型对数据的准确性从未见过。这有助于了解我是否过度拟合训练数据,以及如果验证准确度高于训练准确度。

· 训练模型10个epoch,批量大小为256,使用categorical_crossentropy损失函数和Adam优化器。

· 然后,添加数据增强,通过旋转、移动和缩放训练样本生成新的训练样本,并在更新的数据上训练模型另外50个epoch。

这是加载和增强数据的代码:

# Import librariesfrom keras.utils import to_categoricalfrom sklearn.model_selection import train_test_split# Load training and test data into dataframesdata_train = pd.read_csv('data/fashion-mnist_train.csv')data_test = pd.read_csv('data/fashion-mnist_test.csv')# X forms the training images, and y forms the training labelsX = np.array(data_train.iloc[:, 1:])y = to_categorical(np.array(data_train.iloc[:, 0]))# Here I split original training data to sub-training (80%) and validation data (20%)X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=13)# X_test forms the test images, and y_test forms the test labelsX_test = np.array(data_test.iloc[:, 1:])y_test = to_categorical(np.array(data_test.iloc[:, 0]))

在加载和增强数据之后,我通过将它们重新重构为网络所需的形状并对其进行缩放以使所有值都在[0,1]间隔中来对它们进行预处理。例如,以前,训练数据存储在uint8类型的形状(60000,28,28)的数组中,其值在[0,255]间隔中。我将它转换为float32数组形状(60000,28 * 28),其值介于0和1之间。

# Each image's dimension is 28 x 28img_rows, img_cols = 28, 28input_shape = (img_rows, img_cols, 1)# Prepare the training imagesX_train = X_train.reshape(X_train.shape[0], img_rows, img_cols, 1)X_train = X_train.astype('float32')X_train /= 255# Prepare the test imagesX_test = X_test.reshape(X_test.shape[0], img_rows, img_cols, 1)X_test = X_test.astype('float32')X_test /= 255# Prepare the validation imagesX_val = X_val.reshape(X_val.shape[0], img_rows, img_cols, 1)X_val = X_val.astype('float32')X_val /= 255

1-1-Conv CNN

以下是具有1个卷积层的CNN的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dcnn1 = Sequential()cnn1.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn1.add(MaxPooling2D(pool_size=(2, 2)))cnn1.add(Dropout(0.2))cnn1.add(Flatten())cnn1.add(Dense(128, activation='relu'))cnn1.add(Dense(10, activation='softmax'))cnn1.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-1Conv.ipynb

2-3-Conv CNN

以下是CNN与3卷积层的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dcnn3 = Sequential()cnn3.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn3.add(MaxPooling2D((2, 2)))cnn3.add(Dropout(0.25))cnn3.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))cnn3.add(MaxPooling2D(pool_size=(2, 2)))cnn3.add(Dropout(0.25))cnn3.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))cnn3.add(Dropout(0.4))cnn3.add(Flatten())cnn3.add(Dense(128, activation='relu'))cnn3.add(Dropout(0.3))cnn3.add(Dense(10, activation='softmax'))cnn3.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-3Conv.ipynb

3-4-Conv CNN

以下是具有4个卷积层的CNN的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2D, BatchNormalizationcnn4 = Sequential()cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn4.add(BatchNormalization())cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(MaxPooling2D(pool_size=(2, 2)))cnn4.add(Dropout(0.25))cnn4.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.25))cnn4.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(MaxPooling2D(pool_size=(2, 2)))cnn4.add(Dropout(0.25))cnn4.add(Flatten())cnn4.add(Dense(512, activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.5))cnn4.add(Dense(128, activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.5))cnn4.add(Dense(10, activation='softmax'))cnn4.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-4Conv.ipynb

4–迁移学习

对小图像数据集进行深度学习的常用且高效的方法是使用预先训练的网络。一个预先训练网络是以前训练的大型数据集,通常在大型图像分类任务保存的网络。如果这个原始数据集足够大且足够通用,则预训练网络所学习的特征的空间层次结构可以有效地充当视觉世界的通用模型,因此其特征可以证明对于许多不同的计算机视觉问题是有用的。即使这些新问题可能涉及与原始任务完全不同的类。

我试图实现VGG19预训练模型,这是ImageNet广泛使用的ConvNets架构。这是你可以遵循的代码:

import kerasfrom keras.applications import VGG19from keras.applications.vgg19 import preprocess_inputfrom keras.layers import Dense, Dropoutfrom keras.models import Modelfrom keras import modelsfrom keras import layersfrom keras import optimizers# Create the base model of VGG19vgg19 = VGG19(weights='imagenet', include_top=False, input_shape = (150, 150, 3), classes = 10)# Preprocessing the input X_train = preprocess_input(X_train)X_val = preprocess_input(X_val)X_test = preprocess_input(X_test)# Extracting featurestrain_features = vgg19.predict(np.array(X_train), batch_size=256, verbose=1)test_features = vgg19.predict(np.array(X_test), batch_size=256, verbose=1)val_features = vgg19.predict(np.array(X_val), batch_size=256, verbose=1)# Flatten extracted featurestrain_features = np.reshape(train_features, (48000, 4*4*512))test_features = np.reshape(test_features, (10000, 4*4*512))val_features = np.reshape(val_features, (12000, 4*4*512))# Add Dense and Dropout layers on top of VGG19 pre-trainedmodel = models.Sequential()model.add(layers.Dense(512, activation='relu', input_dim=4 * 4 * 512))model.add(layers.Dropout(0.5))model.add(layers.Dense(10, activation="softmax"))# Compile the modelmodel.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

出于视觉目的,我绘制了培训和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:VGG19-GPU.ipynb

总结

时尚领域是一个非常受欢迎的机器学习和计算机视觉应用的战场。由于高度的主观性和所涉及的特征的语义复杂性,该领域中的问题具有挑战性。我希望这篇文章有助于你了解构建自己的卷积神经网络以对时尚图像进行分类的4种不同方法。

本文由阿里云云栖社区组织翻译。

文章原标题《the-4-convolutional-neural-network-models-that-can-classify-your-fashion-images》

作者:James Le 译者:乌拉乌拉,审校:。

    推荐阅读
  • 完美关系在那个台几点播出(你知道吗)

    接下来我们就一起去研究一下吧!完美关系在那个台几点播出当代都市题材电视剧《完美关系》的播出时间:2020年2月18日,首播平台:湖南卫视、爱奇艺、腾讯视频。若是VIP会员24点更新,非会员次日24点观看,2018年7月拍摄,由浙江金溪影视有限公司制作,制作周期12个月,该剧由安建导演,主演:黄轩,佟丽娅,陈数。

  • 堂哥的儿子是我的外甥还是侄子(堂哥的儿子是我的外甥还是侄子呢)

    亦称朋友的儿子,属于客套话,而哥哥的小孩其实就是弟兄的孩子,所以叫“侄子”最恰当不过。姑侄对称,与亲兄弟之子无关。在此之前,兄弟之子称为兄子和弟子,多用作亲属的“转述叙称”称谓。

  • 晨跑和夜跑哪个更减肥瘦身(晨跑和夜跑哪个减肥更快)

    但是对于减肥的人而言,还是要有所限制。

  • 施瓦辛格成功绝非偶然(从穷小子到国际巨星)

    在加入美国国籍后,他就报名参加了美国举办的国际健美比赛,而在本场比赛上,施瓦辛格凭借着接近完美的男性身材而获得了比赛冠军,也因此得到了健美先生的称号。施瓦辛格心里一直有一个梦想——成为美国总统。施瓦辛格弃影从政,成功当选州长施瓦辛格在健美界和影坛所取得的成就也使得他闻名世界,他所积攒下的财富也使得他跻身亿万富翁。另外施瓦辛格还提出了使用清洁能源等政策,为此他还放弃

  • 汉服简介(汉服的介绍)

    与汉人一词类似,汉服中的“汉”字的词义外延亦存在着由汉朝扩大为整个民族指称的过程。汉服“始于黄帝,备于尧舜”,源自黄帝制冕服。定型于周朝,并通过汉朝依据四书五经形成完备的冠服体系,成为神道设教的一部分。汉服还通过华夏法系影响了整个汉文化圈,亚洲各国的部分民族如日本、朝鲜、越南、蒙古、不丹等等服饰均具有或借鉴汉服特征。

  • 山楂的保存方法(山楂的保存方法简述)

    下面内容希望能帮助到你,我们来一起看看吧!山楂的保存方法对于已经切开的山楂,想要保存可以放进盐水中,也可放在阳光下晾晒,让水分尽快蒸发掉。完整的山楂保存可以装入塑料袋中,扎紧袋口放进冰箱冷藏。在容器底部放一层细沙将山楂装入,再放一层细沙密封保存。最简单的方法是放入保鲜膜中,把里面空气放干净,密封袋口保存。

  • 象棋中的马怎么算撇脚(撇脚的具体情况如下)

    以下内容大家不妨参考一二希望能帮到您!象棋中的马怎么算撇脚比如马要向前跳!那马前面也就是马头上如果有棋子就是挡马脚!无论马往哪边跳!马前面有一颗棋子挡着,比如想向前跳,紧挨着马的正前方有一颗棋子,都叫撇脚马,同理,你想向左跳,紧挨着马的左方有一颗棋子也叫撇脚马。

  • 赘婿楼舒婉为什么要杀死家人 赘婿楼舒婉报仇了吗

    在对方强占檀儿时,被宁毅给撞见了,一向有仇必报的他,自然要将楼家给灭掉。之前宣威营的小头目绑走了苏檀儿,最终卖给了楼书恒。之后楼舒婉制作了防水衣送给了刘西瓜,刘西瓜又给了宁毅。之后宁毅发现了防水衣的秘密,急冲冲的跑到了楼家的布店,刚好撞见楼书恒在欺负苏檀儿。如此看来,这一切都是楼舒婉布下的局,就是为了弄死自己的哥哥和父亲。之后他的所作所为,都是为了报复自己之前遭遇的不公。

  • 自制瓷砖胶(瓷砖胶配方及制作方法)

    接下来我们就一起去研究一下吧!自制瓷砖胶先将冷水按比例加入到容器内,开启搅拌机再将胶粉徐徐撒入,高速搅拌10-15分钟即为胶水。批重钙、滑石粉,每1000公斤水加107胶粉13-14公斤、杀菌防腐剂3公斤,或加入甲醛2.5-3公斤,制成胶水。批硅酸盐灰白水泥:每1000公斤水直接加入107胶粉10-11公斤,制成胶水。

  • 研教学评一体化(备教学)

    只有经历这一大循环的教学,才能呈现一种持续评价教与学的目标达成度、教与学的进步度、决定教与学的需求,并实现螺旋上升的态势,使教与学和质量评价更有意义。所以,在“备、教、学、评一体化”教学指导下的教学新格局,应该是一个高效的课堂。