百摩网
当前位置: 首页 生活百科

图像分类卷积神经网络(这四种卷积神经网络模型了解一下)

时间:2023-06-17 作者: 小编 阅读量: 1 栏目名: 生活百科

并测量预测的准确性。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。因此,数据集称为Fashion-MNIST数据集,可以从GitHub下载。相反,它是机器学习利用向量之间的位置和距离的整体模式。因此,嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。在这里,我将尝试使用TensorBoard表示高维时尚MNIST数据。

摘要: 不懂图像分类?这四种卷积神经网络模型了解一下!

服装购买是一种繁重的体验,眼睛被太多的信息占据了。视觉系统吸收了大量信息,我应该去卖哪件H&M卡其裤吗?那是Nike背心吗?

机器能自动检测衬衫、裤子、连衣裙和运动鞋的图片吗?事实证明,用高质量的训练数据对机器进行训练,准确地对时尚物品的图像进行分类是可行的。在本教程中,我们将从头开始构建一个机器学习模型,使用Fashion-MNIST数据集训练它们。我们将介绍如何训练模型、设计类别分类的输入和输出,最后显示每个模型的准确度结果。

图像分类

图像分类是这样的:给定一组全部用单一类别标记的图像,我们要求为一组新的测试图像预测它们到底是什么类别?并测量预测的准确性。这项任务涉及各种挑战,包括视点变化、尺度变化、类内变化、图像变形、图像遮挡、光照条件、背景杂波等。

我们如何编写可以将图像分类为不同类别的算法?计算机视觉研究人员已经提出了一种数据驱动方法来解决这个问题。它们不是试图直接在代码中指定每个感兴趣的图像类别,而是为计算机提供每个图像类的许多示例,然后开发学习算法,查看这些示例并了解每个类的视觉外观。换句话说,他们首先累积标记图像的训练数据集,然后将其提供给计算机,以使其熟悉数据。

鉴于这一事实,完整的图像分类管道可以形式化如下:

· 输入是一个训练数据集,由N个图像组成,每个图像都标有K个不同类别中的一个。

· 然后,我们使用此训练集来训练分类器,以了解每个类的外观。

· 最后,我们通过要求分类器预测从未见过的一组新图像的标签来评估分类器的质量。然后,我们将比较这些图像的真实标签与分类器预测的标签。

卷积神经网络

卷积神经网络(CNN)是用于图像分类问题的最流行的神经网络模型。CNN背后的一个重要思想是,对图像的局部理解是好的。实际的好处是,参数少将大大缩短了学习所需的时间,并减少了训练模型所需的数据量。CNN具有足够的权重来查看图像的小块,而不是来自每个像素的完全连接的权重网络。

比如一个256 x 256的图像。CNN可以通过局部有效地扫描它,例如,用一个5×5的窗口,通常从左到右,从上到下,如下图所示。它如何“快速”滑动称为其步幅。例如,步幅长度2表示5×5滑动窗口一次移动2个像素,直到它跨越整个图像。

卷积是图像的像素值的加权和,事实证明,整个带有权重矩阵的图像的卷积过程会产生另一个图像。

滑动窗口发生在神经网络的卷积层中,典型的CNN具有多个卷积层。每个卷积层通常产生许多交替卷积,因此权重矩阵是5×5×n的张量,其中n是卷积数。

例如,假设图像通过5×5×64的权重矩阵上的卷积层。它通过滑动5×5窗口生成64个卷积。因此,该模型具有5×5×64=1,600个参数,其参数明显少于完全连接的网络,256×256= 65,536个。

CNN的优点在于参数的数量与原始图像的大小无关。你可以在300×300图像上运行相同的CNN,但卷积层中的参数数量不会改变。

数据增强(data augmentation)

图像分类研究数据集通常是非常大的。然而,经常使用数据增强来改善泛化属性。通常,使用重新缩放图像的随机裁剪以及随机水平闪烁和随机RGB颜色和亮度偏移。这其中存在用于重新缩放和裁剪图像的不同方案(即,单一规模与多规模训练)。请注意,随机重新缩放和裁剪的目标是学习不同尺度和位置的每个对象的重要特征,不幸的是Keras没有实现所有这些开箱即用的数据增强技术,

Fashion MNIST数据集

最近,Zalando发布了一个新的数据集,它与众所周知的MNIST手写数字数据库非常相似。该数据集专为机器学习分类任务而设计,包含总共60000个训练和10000个测试图像(灰度),每个28x28像素。每个训练和测试用例与十个标签之一(0-9)相关联。直到这里,Zalando的数据集基本上与原始手写数字数据相同。然而,Zalando的数据不包含数字0-9的图像,而是包含10种不同时尚产品的图像。因此,数据集称为Fashion-MNIST数据集,可以从GitHub下载。这些数据也可以在Kaggle上下载。下图中显示了一些示例,其中每行包含一个时尚项。

10个不同的类别标签是:

1、T恤/上衣;2、裤子;3、套头衫;4、连衣裙;5、外套;

6、凉鞋;7、衬衫;8、运动鞋;9、袋;10、靴子;

据作者称,Fashion-MNIST数据旨在成为旧MNIST手写数字数据的直接替代品,因为手写数字存在若干问题。例如,通过简单地查看几个像素,可以正确地区分几个数字。即使使用线性分类器,也可以实现高分类精度。Fashion-MNIST数据有望更加多样化,因此机器学习(ML)算法必须学习更多高级特征,以便能够可靠地分离各个类。

时尚MNIST的嵌入可视化(Embedding Visualization)

嵌入是一种将离散对象(图像,单词等)映射到高维向量的方法。这些载体中的各个维度通常没有固有的含义。相反,它是机器学习利用向量之间的位置和距离的整体模式。因此,嵌入对于机器学习的输入很重要;因为分类器和神经网络更普遍地用于实数矢量。它们在密集向量上训练最好,其中所有值都有助于定义对象。

TensorBoard有一个内置的可视化器,称为嵌入式可视化工具(Embedding Projector),用于交互式可视化和分析嵌入等高维数据。嵌入式可视化工具将从我的模型检查点文件中读取嵌入,虽然它对嵌入最有用,但它会加载任何2D张量,包括训练权重。

在这里,我将尝试使用TensorBoard表示高维时尚MNIST数据。在读取数据并创建测试标签后,我使用此代码构建TensorBoard的嵌入投影仪:

from tensorflow.contrib.tensorboard.plugins import projectorlogdir = 'fashionMNIST-logs'# Creating the embedding variable with all the images defined above under X_testembedding_var = tf.Variable(X_test, name='fmnist_embedding')# Format: tensorflow/contrib/tensorboard/plugins/projector/projector_config.protoconfig = projector.ProjectorConfig()# You can add multiple embeddings. Here I add only one.embedding = config.embeddings.add()embedding.tensor_name = embedding_var.name# Link this tensor to its metadata file (e.g. labels).embedding.metadata_path = os.path.join(logdir, 'metadata.tsv')# Use this logdir to create a summary writersummary_writer = tf.summary.FileWriter(logdir)# The next line writes a projector_config.pbtxt in the logdir. TensorBoard will read this file during startup.projector.visualize_embeddings(summary_writer,config)# Periodically save the model variables in a checkpoint in logdir.with tf.Session() as sesh: sesh.run(tf.global_variables_initializer()) saver = tf.train.Saver() saver.save(sesh, os.path.join(logdir, 'model.ckpt')) # Create the sprite imagerows = 28 cols = 28label = ['T-shirt/top', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']sprite_dim = int(np.sqrt(X_test.shape[0]))sprite_image = np.ones((cols * sprite_dim, rows * sprite_dim))index = 0 labels = [] for i in range(sprite_dim):for j in range(sprite_dim): labels.append(label[int(Y_test[index])]) sprite_image[ i * cols: (i1) * cols, j * rows: (j1) * rows ] = X_test[index].reshape(28, 28) * -11 index= 1 # After constructing the sprite, I need to tell the Embedding Projector where to find itembedding.sprite.image_path = os.path.join(logdir, 'sprite.png')embedding.sprite.single_image_dim.extend([28, 28])# Create the metadata (labels) filewith open(embedding.metadata_path, 'w') as meta: meta.write('Index\tLabel\n') for index, label in enumerate(labels): meta.write('{}\t{}\n'.format(index, label))

嵌入可视化工具有三种减少数据集维数的方法:两个线性和一个非线性。每种方法都可用于创建二维或三维视图。

主成分分析:主成分分析(PCA)是一种简单的减小尺寸的技术。嵌入可视化工具有10个主要组件。PCA是一种线性可视化效果,通常可用于检查全局几何。

t-SNE:这是一种流行的非线性降维技术是t-SNE。嵌入可视化工具提供二维和三维t-SNE视图。在客户端执行局部动画算法的每个步骤,因为t-SNE通常保留一些局部结构,所以它对于探索局部邻域和寻找聚类是有用的。

自定义(custom):我们还可以根据文本搜索构建专门的线性可视化,以便在空间中找到有意义的方向。首先定义可视轴,接着输入两个搜索字符串或正则表达式。程序计算其标签与这些搜索匹配的点集的质心,并使用质心之间的差矢量作为可视轴。

你可以在此笔记本中查看可视化步骤的完整代码:TensorBoard-Visualization.ipynb

在时尚MNIST上训练CNN模型

现在让我们转到有趣的部分:我将创建各种不同的基于CNN的分类模型来评估Fashion MNIST的表现。我将使用keras框架构建我们的模型,关于它的更多信息,请参阅此处的文档。以下是我将尝试的模型列表,并比较它们的结果:

1.具有1个卷积层的CNN;

2.具有3个卷积层的CNN;

3.有4个卷积层的CNN;

4.VGG-19预训练模型;

对于所有模型(预训练模型除外),这是我常用的方式:

· 将原始训练数据(60,000张图像)分成80%训练集(48,000张图像)和20%验证集(12000张图像)优化分类器,同时保留测试数据(10,000张图像)以最终评估模型对数据的准确性从未见过。这有助于了解我是否过度拟合训练数据,以及如果验证准确度高于训练准确度。

· 训练模型10个epoch,批量大小为256,使用categorical_crossentropy损失函数和Adam优化器。

· 然后,添加数据增强,通过旋转、移动和缩放训练样本生成新的训练样本,并在更新的数据上训练模型另外50个epoch。

这是加载和增强数据的代码:

# Import librariesfrom keras.utils import to_categoricalfrom sklearn.model_selection import train_test_split# Load training and test data into dataframesdata_train = pd.read_csv('data/fashion-mnist_train.csv')data_test = pd.read_csv('data/fashion-mnist_test.csv')# X forms the training images, and y forms the training labelsX = np.array(data_train.iloc[:, 1:])y = to_categorical(np.array(data_train.iloc[:, 0]))# Here I split original training data to sub-training (80%) and validation data (20%)X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=13)# X_test forms the test images, and y_test forms the test labelsX_test = np.array(data_test.iloc[:, 1:])y_test = to_categorical(np.array(data_test.iloc[:, 0]))

在加载和增强数据之后,我通过将它们重新重构为网络所需的形状并对其进行缩放以使所有值都在[0,1]间隔中来对它们进行预处理。例如,以前,训练数据存储在uint8类型的形状(60000,28,28)的数组中,其值在[0,255]间隔中。我将它转换为float32数组形状(60000,28 * 28),其值介于0和1之间。

# Each image's dimension is 28 x 28img_rows, img_cols = 28, 28input_shape = (img_rows, img_cols, 1)# Prepare the training imagesX_train = X_train.reshape(X_train.shape[0], img_rows, img_cols, 1)X_train = X_train.astype('float32')X_train /= 255# Prepare the test imagesX_test = X_test.reshape(X_test.shape[0], img_rows, img_cols, 1)X_test = X_test.astype('float32')X_test /= 255# Prepare the validation imagesX_val = X_val.reshape(X_val.shape[0], img_rows, img_cols, 1)X_val = X_val.astype('float32')X_val /= 255

1-1-Conv CNN

以下是具有1个卷积层的CNN的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dcnn1 = Sequential()cnn1.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn1.add(MaxPooling2D(pool_size=(2, 2)))cnn1.add(Dropout(0.2))cnn1.add(Flatten())cnn1.add(Dense(128, activation='relu'))cnn1.add(Dense(10, activation='softmax'))cnn1.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-1Conv.ipynb

2-3-Conv CNN

以下是CNN与3卷积层的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2Dcnn3 = Sequential()cnn3.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn3.add(MaxPooling2D((2, 2)))cnn3.add(Dropout(0.25))cnn3.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))cnn3.add(MaxPooling2D(pool_size=(2, 2)))cnn3.add(Dropout(0.25))cnn3.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))cnn3.add(Dropout(0.4))cnn3.add(Flatten())cnn3.add(Dense(128, activation='relu'))cnn3.add(Dropout(0.3))cnn3.add(Dense(10, activation='softmax'))cnn3.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-3Conv.ipynb

3-4-Conv CNN

以下是具有4个卷积层的CNN的代码:

from keras.models import Sequentialfrom keras.layers import Dense, Dropout, Flattenfrom keras.layers import Conv2D, MaxPooling2D, BatchNormalizationcnn4 = Sequential()cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=input_shape))cnn4.add(BatchNormalization())cnn4.add(Conv2D(32, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(MaxPooling2D(pool_size=(2, 2)))cnn4.add(Dropout(0.25))cnn4.add(Conv2D(64, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.25))cnn4.add(Conv2D(128, kernel_size=(3, 3), activation='relu'))cnn4.add(BatchNormalization())cnn4.add(MaxPooling2D(pool_size=(2, 2)))cnn4.add(Dropout(0.25))cnn4.add(Flatten())cnn4.add(Dense(512, activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.5))cnn4.add(Dense(128, activation='relu'))cnn4.add(BatchNormalization())cnn4.add(Dropout(0.5))cnn4.add(Dense(10, activation='softmax'))cnn4.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

应用数据增强后,这里是测试损失和测试准确度:

出于视觉目的,我绘制了训练和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:CNN-4Conv.ipynb

4–迁移学习

对小图像数据集进行深度学习的常用且高效的方法是使用预先训练的网络。一个预先训练网络是以前训练的大型数据集,通常在大型图像分类任务保存的网络。如果这个原始数据集足够大且足够通用,则预训练网络所学习的特征的空间层次结构可以有效地充当视觉世界的通用模型,因此其特征可以证明对于许多不同的计算机视觉问题是有用的。即使这些新问题可能涉及与原始任务完全不同的类。

我试图实现VGG19预训练模型,这是ImageNet广泛使用的ConvNets架构。这是你可以遵循的代码:

import kerasfrom keras.applications import VGG19from keras.applications.vgg19 import preprocess_inputfrom keras.layers import Dense, Dropoutfrom keras.models import Modelfrom keras import modelsfrom keras import layersfrom keras import optimizers# Create the base model of VGG19vgg19 = VGG19(weights='imagenet', include_top=False, input_shape = (150, 150, 3), classes = 10)# Preprocessing the input X_train = preprocess_input(X_train)X_val = preprocess_input(X_val)X_test = preprocess_input(X_test)# Extracting featurestrain_features = vgg19.predict(np.array(X_train), batch_size=256, verbose=1)test_features = vgg19.predict(np.array(X_test), batch_size=256, verbose=1)val_features = vgg19.predict(np.array(X_val), batch_size=256, verbose=1)# Flatten extracted featurestrain_features = np.reshape(train_features, (48000, 4*4*512))test_features = np.reshape(test_features, (10000, 4*4*512))val_features = np.reshape(val_features, (12000, 4*4*512))# Add Dense and Dropout layers on top of VGG19 pre-trainedmodel = models.Sequential()model.add(layers.Dense(512, activation='relu', input_dim=4 * 4 * 512))model.add(layers.Dropout(0.5))model.add(layers.Dense(10, activation="softmax"))# Compile the modelmodel.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])

训练模型后,这里是test loss和测试精度:

出于视觉目的,我绘制了培训和验证的准确性和损失:

你可以在此笔记本上查看此型号的完整代码:VGG19-GPU.ipynb

总结

时尚领域是一个非常受欢迎的机器学习和计算机视觉应用的战场。由于高度的主观性和所涉及的特征的语义复杂性,该领域中的问题具有挑战性。我希望这篇文章有助于你了解构建自己的卷积神经网络以对时尚图像进行分类的4种不同方法。

本文由阿里云云栖社区组织翻译。

文章原标题《the-4-convolutional-neural-network-models-that-can-classify-your-fashion-images》

作者:James Le 译者:乌拉乌拉,审校:。

    推荐阅读
  • 梦见飞禽有什么征兆(梦见飞禽的寓意)

    接下来我们就一起去了解一下吧!梦见飞禽有什么征兆出行的人梦见飞禽,建议照原计划进行,平安往返。做生意的人梦见飞禽,代表运迟得财,不急为要。梦中听见鸟叫,预示会有喜事临门。梦见欢蹦乱跳的小鸟在飞,会与有权威的人士交朋友。梦见鸟飞入自己怀中,男人将会有晋升、获重用、赢得财富等喜事,女人则是怀孕的胎梦。梦见成群的小鸟,会成为大名鼎鼎的人物。

  • 蚂蚁花呗额度会提高吗(蚂蚁降低部分用户)

    近期,一些网友发帖,自己的花呗额度被降到了2000元或3000元以下。有网友在社交媒体上晒出截图,表示自己的花呗额度被降低了:额度直接降了一半、一万多元被降到了3000元以下。12月21日,微众银行回应称,微众银行“微粒贷”产品个人消费贷款授信最高额度将调整至20万元。有的机构甚至给缺乏还款能力的学生过度放贷,出现违约之后进行强制性催收,引发一系列社会问题。对此,我们坚持对同类业务统一监管标准,坚决制止监管套利。

  • 野生猕猴桃根的功效与作用

    2、祛风除湿风湿骨痛和风湿性关节炎是现代人类的高发疾病,疾病会危害人类的骨关节健康,容易让人们失去生活自理能力,野生猕猴桃根在入药以后对人类的风湿骨痛和风湿性关节炎都有明显治疗作用,它能祛风除湿,疏通经络,不论是把它煎汤服用,还是把它泡成药酒后服用都能让人类风湿骨痛的症状很快好转。

  • 鲁迅先生谈人性(从鲁迅笔下看人性)

    而故事中的祥林嫂,作为中国底层社会的一位女性人物,她的形象便是被欺压,被摧残的。第二次婚姻,祥林嫂失去丈夫后,被扫地出门,成了彻底的“无产者”。不过,不幸的是,她并没有等来幸福,而是两度失去丈夫,最终在跨年之际,悲惨地结束了一生。在道德义气和利益之间,鲁四老爷显然选择了利益。然而,她的这种“反抗”,并不是彻底的,更甚者说恰恰体现了根深蒂固的奴性。面对如此让人窒息的压力,祥林嫂几近失语。

  • 曾校园暴力的明星(著名童星邵一卜遭校园欺凌跳楼)

    但,仅是这一点,老实巴交的梁积倩还不会做出如此惨案!我们就以邵一卜事件为例,解读一下这些孩子们的行为。

  • 李书香是什么电视剧(电视搞笑又欢喜)

    李书香是什么电视剧李书香是《半个萝卜一个坑》电视剧里面的一个人物。带着一头雾水走马上任的李书香,干出一系列让人啼笑皆非的事。结婚八年要不上孩子的军务参谋长周明山,被怀疑是近亲结婚的士官牛新刚和牛燕子,找不到女友的连长赵大正,一件件事让李书香弄的鸡飞狗跳。

  • 煮猪皮的做法(煮猪皮的做法介绍)

    我们一起去了解并探讨一下这个问题吧!煮猪皮的做法猪皮和食盐适量。取出猪皮把上面剩余的肥膘用刀刮掉,一定刮干净。放入没过猪皮两指的清水里再次煮,大火烧开,小火慢煮1小时。煮至汤汁浓稠关火,加盐拌匀。倒入保鲜盒加盖,放冰箱冷藏一夜即可成型。取出成型的皮冻,切片后加入醋、葱丝或自己喜欢的调味料即可。

  • cas命令操作大全(CA定义以及功能说明)

    CA是Internet的重要组成部分。CA会收取少量费用以完成验证流程并颁发证书,该证书可证明企业组织的身份,并保护用户与服务器之间传输数据的安全。CA会审核证书申请者提供的企业信息,也会从第三方平台调查审核该企业是否真实合法。目前CA可发行多种类型的数字证书,每种证书在PKI中扮演不同的角色。但是,如果CA在颁发的证书到期之前就宣布该证书失效,那么CA将会把该证书添加到吊销列表中。

  • 古希腊情侣有哪些(向古代阿拉伯三大情侣)

    向古代阿拉伯三大情侣中国古代有牛郎与织女、梁山伯与祝英台这样的爱情,西方则有罗密欧与朱丽叶那样的永恒经典爱情而在阿拉伯古代,也同样有可歌可泣、扣人心弦的爱情故事阿拉伯半岛上很早就有诗歌的传统,伊斯兰教诞生之前的贾西利亚时。

  • 魔兽世界8.3特质装获取途径(魔兽8.1.5新团本)

    单次超过52348伤害的攻击会消耗守卫,并为目标恢复52348点血。血量低与90%时,你的攻击有几率恢复5534生命值。风暴造成的过量治疗会变成自然伤害弹到附近的敌人。风暴滑翔之靴装备:你的自动攻击有几率获得“莫挨老子”15秒,叠加最多15次。受到伤害移除所有的“莫挨老子”层数。潜伏者的狡猾礼物使用:拥抱恩佐斯的礼物,增加你的精通1054点持续30秒。每秒获得痛苦,造成966暗夜伤害。再次使用放弃恩佐斯的礼物,失去两种效果。