深度学习从入门到精通——GoogLeNetV1分类算法-天翼云

深度学习从入门到精通——GoogLeNetV1分类算法

2024-11-06 07:12:42 阅读次数：28

模型优势

引入了Inception结构（融合不同尺度的特征信息）
使用1x1的卷积核进行降维以及映射处理
添加两个辅助分类器帮助训练
丢弃全连接层，使用平均池化层（大大减少模型参数）
利用平均池化来做输出
完整模型图：

不同尺度的特征信息

在inception中如何体现特征信息

深度学习从入门到精通——GoogLeNetV1分类算法

利用不同的卷积核与池化操作来获得尺度信息，最后合并特征传入下一层网络中。

class Inception(nn.Module):
    def __init__(self, in_channels, ch1x1, ch3x3red, ch3x3, ch5x5red, ch5x5, pool_proj):
        '''

        :param in_channels:  输入的通道数
        :param ch1x1: 1x1 卷积核通道数
        :param ch3x3red:
        :param ch3x3:
        :param ch5x5red:
        :param ch5x5:
        :param pool_proj: 池化输出通道
        '''
        super(Inception, self).__init__()

        self.branch1x1 = BasicConv2d(in_channels=in_channels,out_channels= ch1x1, kernel_size=1)

        self.branch3x3 = nn.Sequential(
            BasicConv2d(in_channels=in_channels, out_channels=ch3x3red, kernel_size=1),
            BasicConv2d(in_channels= ch3x3red, out_channels=ch3x3, kernel_size=3, padding=1)   # 保证输出大小等于输入大小
        )

        self.branch5x5 = nn.Sequential(
            BasicConv2d(in_channels=in_channels, out_channels=ch5x5red, kernel_size=1),
            BasicConv2d(in_channels=ch5x5red, out_channels=ch5x5, kernel_size=5, padding=2)   # 保证输出大小等于输入大小
        )

        self.pool = nn.Sequential(
            nn.MaxPool2d(kernel_size=3, stride=1, padding=1),
            BasicConv2d(in_channels=in_channels, out_channels=pool_proj, kernel_size=1)
        )

    def forward(self, x):
        branch1 = self.branch1x1(x)
        branch2 = self.branch3x3(x)
        branch3 = self.branch5x5(x)
        branch4 = self.pool(x)

        outputs = [branch1, branch2, branch3, branch4]
        return torch.cat(outputs, 1)

采用了1*1卷积

11 卷积在像素上，由于尺度大小是11，所以在像素层面计算基本不会变化，但是根据卷积的原理，11卷积之后，会进行通道上的混洗，因此11卷积额外提供了特征升维的功能。
通过控制1*1卷积核的个数，可以合理的控制输出的大小，还提供了升维能力

池化层

利用平均池化化来代替全连接：

可以直接输入不同形状的图片
计算量大大减少
完整inceptionV1

import torch.nn as nn
import torch
import torch.nn.functional as F


class GoogLeNet(nn.Module):
    def __init__(self, num_classes=1000, aux_logits=True, init_weights=False):
        super(GoogLeNet, self).__init__()

        self.aux_logits = aux_logits

        # 7*7,stride=2
        self.conv1 = BasicConv2d(3, 64, kernel_size=7, stride=2, padding=3)
        self.maxpool1 = nn.MaxPool2d(3, stride=2, ceil_mode=True)

        # 1*1+3*3+maxpool
        self.conv2 = BasicConv2d(64, 64, kernel_size=1)
        self.conv3 = BasicConv2d(64, 192, kernel_size=3, padding=1)
        self.maxpool2 = nn.MaxPool2d(3, stride=2, ceil_mode=True)

        #  枝丫a
        self.inception3a = Inception(192, 64, 96, 128, 16, 32, 32)
        #  枝丫a
        self.inception3b = Inception(256, 128, 128, 192, 32, 96, 64)
        self.maxpool3 = nn.MaxPool2d(3, stride=2, ceil_mode=True)


        self.inception4a = Inception(480, 192, 96, 208, 16, 48, 64)
        self.inception4b = Inception(512, 160, 112, 224, 24, 64, 64)
        self.inception4c = Inception(512, 128, 128, 256, 24, 64, 64)
        self.inception4d = Inception(512, 112, 144, 288, 32, 64, 64)
        self.inception4e = Inception(528, 256, 160, 320, 32, 128, 128)
        self.maxpool4 = nn.MaxPool2d(3, stride=2, ceil_mode=True)

        self.inception5a = Inception(832, 256, 160, 320, 32, 128, 128)
        self.inception5b = Inception(832, 384, 192, 384, 48, 128, 128)

        # 辅助分类器
        if self.aux_logits:
            self.aux1 = InceptionAux(512, num_classes)
            self.aux2 = InceptionAux(528, num_classes)

        # 平均池化
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.dropout = nn.Dropout(0.4)
        self.fc = nn.Linear(1024, num_classes)
        if init_weights:
            self._initialize_weights()

    def forward(self, x):
        # N x 3 x 224 x 224
        x = self.conv1(x)
        # N x 64 x 112 x 112
        x = self.maxpool1(x)
        # N x 64 x 56 x 56
        x = self.conv2(x)
        # N x 64 x 56 x 56
        x = self.conv3(x)
        # N x 192 x 56 x 56
        x = self.maxpool2(x)

        # N x 192 x 28 x 28
        x = self.inception3a(x)
        # N x 256 x 28 x 28
        x = self.inception3b(x)
        # N x 480 x 28 x 28
        x = self.maxpool3(x)
        # N x 480 x 14 x 14
        x = self.inception4a(x)
        # N x 512 x 14 x 14
        if self.training and self.aux_logits:    # eval model lose this layer
            aux1 = self.aux1(x)

        x = self.inception4b(x)
        # N x 512 x 14 x 14
        x = self.inception4c(x)
        # N x 512 x 14 x 14
        x = self.inception4d(x)
        # N x 528 x 14 x 14

        if self.training and self.aux_logits:    # eval model lose this layer
            aux2 = self.aux2(x)

        x = self.inception4e(x)
        # N x 832 x 14 x 14
        x = self.maxpool4(x)
        # N x 832 x 7 x 7
        x = self.inception5a(x)
        # N x 832 x 7 x 7
        x = self.inception5b(x)
        # N x 1024 x 7 x 7

        x = self.avgpool(x)
        # N x 1024 x 1 x 1
        x = torch.flatten(x, 1)
        # N x 1024
        x = self.dropout(x)
        x = self.fc(x)
        # N x 1000 (num_classes)
        if self.training and self.aux_logits:   # eval model lose this layer
            return x, aux2, aux1
        return x

    def _initialize_weights(self):

        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
                if m.bias is not None:
                    nn.init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                nn.init.normal_(m.weight, 0, 0.01)
                nn.init.constant_(m.bias, 0)


class Inception(nn.Module):
    def __init__(self, in_channels, ch1x1, ch3x3red, ch3x3, ch5x5red, ch5x5, pool_proj):
        '''

        :param in_channels:  输入的通道数
        :param ch1x1: 1x1 卷积核通道数
        :param ch3x3red:
        :param ch3x3:
        :param ch5x5red:
        :param ch5x5:
        :param pool_proj: 池化输出通道
        '''
        super(Inception, self).__init__()

        self.branch1x1 = BasicConv2d(in_channels=in_channels,out_channels= ch1x1, kernel_size=1)

        self.branch3x3 = nn.Sequential(
            BasicConv2d(in_channels=in_channels, out_channels=ch3x3red, kernel_size=1),
            BasicConv2d(in_channels= ch3x3red, out_channels=ch3x3, kernel_size=3, padding=1)   # 保证输出大小等于输入大小
        )

        self.branch5x5 = nn.Sequential(
            BasicConv2d(in_channels=in_channels, out_channels=ch5x5red, kernel_size=1),
            BasicConv2d(in_channels=ch5x5red, out_channels=ch5x5, kernel_size=5, padding=2)   # 保证输出大小等于输入大小
        )

        self.pool = nn.Sequential(
            nn.MaxPool2d(kernel_size=3, stride=1, padding=1),
            BasicConv2d(in_channels=in_channels, out_channels=pool_proj, kernel_size=1)
        )

    def forward(self, x):
        branch1 = self.branch1x1(x)
        branch2 = self.branch3x3(x)
        branch3 = self.branch5x5(x)
        branch4 = self.pool(x)

        outputs = [branch1, branch2, branch3, branch4]
        return torch.cat(outputs, 1)


class InceptionAux(nn.Module):
    def __init__(self, in_channels, num_classes):
        super(InceptionAux, self).__init__()
        self.averagePool = nn.AvgPool2d(kernel_size=5, stride=3)
        self.conv = BasicConv2d(in_channels, 128, kernel_size=1)  # output[batch, 128, 4, 4]

        self.fc1 = nn.Linear(2048, 1024)
        self.fc2 = nn.Linear(1024, num_classes)

    def forward(self, x):
        # aux1: N x 512 x 14 x 14, aux2: N x 528 x 14 x 14
        x = self.averagePool(x)
        # aux1: N x 512 x 4 x 4, aux2: N x 528 x 4 x 4
        x = self.conv(x)
        # N x 128 x 4 x 4
        x = torch.flatten(x, 1)
        x = F.dropout(x, 0.5, training=self.training)
        # N x 2048
        x = F.relu(self.fc1(x), inplace=True)
        x = F.dropout(x, 0.5, training=self.training)
        # N x 1024
        x = self.fc2(x)
        # N x num_classes
        return x


class BasicConv2d(nn.Module):

    def __init__(self, in_channels, out_channels, **kwargs):
        super(BasicConv2d, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, **kwargs)
        self.relu = nn.ReLU(inplace=True)

    def forward(self, x):

        x = self.conv(x)
        x = self.relu(x)
        return x


if __name__ == '__main__':
    model = GoogLeNet()
    print(model)

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

深度学习从入门到精通——GoogLeNetV1分类算法

深度学习从入门到精通——GoogLeNetV1分类算法

模型优势

不同尺度的特征信息

采用了1*1卷积

池化层

相关文章

机器学习项目的流程：从数据到部署

图神经网络与图表示学习: 从基础概念到前沿技术

优化线性回归模型的代价函数

基于数据分析与PyTorch框架实现天气未来温度预测

人工智能与AI生成内容：探索AI大模型的无限可能

AI大模型的战场 通用大模型 vs. 垂直大模型

机器学习和深度学习的区别

深度学习中的核心概念详解

知识图谱概念模型解析

如何设计知识图谱的模型层

作者介绍

最新文章

机器学习和深度学习的区别

知识图谱概念模型解析

人工智能中的学习方法详解

机器学习算法的分类

机器学习算法的核心理论小总结

大数据、人工智能、机器学习、深度学习关系联系前言

热门文章

为什么基于树的机器学习方法在表格数据上优于深度学习？

大模型：合成数据、安全挑战与知识注入

深度学习之超分辨率算法——FRCNN

尺度函数在数据分析中的应用与实现

【数模智能算法】BP神经网络基本算法原理

图卷积神经网络

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

尺度函数在统计分析中的应用

【数模智能算法】BP神经网络基本算法原理

数学建模--什么是数学建模？数学建模应该怎么准备？

自编码模型（下）

尺度函数在数据分析中的应用与实现

人工智能中的学习方法详解

AI大模型的战场通用大模型 vs. 垂直大模型