VGG

2019. 2. 8. 10:07Deep Learning/Backbone Networks

Very Deep Convolutional Networks For Large-Scale Image Recognition

Karen Simonyan, Andrew Zisserman

Opinion

AlexNet은 최초로 SVM 기반의 classifier를 이겼다는 점에서 시사하는 바가 컸고, Drop Out, ReLU 2가지의 핵심적인 기법을 소개했는데, VGGNet 이후로는 점점 더 deep network architecture를 만드는 데 초점을 두고 연구가 진행된다.

Main Focus : Deep Network! Less Parameters !

Contribution

Deep Nerual Network를 설계하는데에 있어, Kernel Size의 중요성을 설명해주는 좋은 Architecture 이다.

AlexNet에서 사용되었던 Convolution Filter 의 사이즈를 3x3으로 줄여 연산량을 크게 줄였다.

VGG Network 에서 중요한 한 가지를 꼽으라 하면 바로 Filter의 사이즈 일 것이다.

    Kernel Magic
    • 개인적으로 아이디어에 감동을 받아, Kernel Magic으로 이름 지었다.
    • 같은 receptive field를 가지면서 parameter를 줄이기 위한 방법이다. 아래 그림은 5x5 convolution filter와 3x3 convolution filter 2개를 serial하게 놓은 것이 같은 receptive field를 가진다는 것을 보여준다.
    • 어떻게 보면 VGG Network에서는 이 Kernel Magic 외에는 시사하는 점이 크지 않은 것 같다.


3x3 convolution filter 2개로 5x5 convolution filter를 만들 수 있고, 3x3 convolution filter 3개로 7x7 convolution filter를 만들 수 있다.

아래 그림은 parameter의 수를 비교하는 그림이다.



  1. Local Response Normalization(LRN)
    • AlexNet에서 사용된 LRN이 성능 향상에 별로 의미가 없고 메모리 소비, 계산시간의 증가를 초래한다고 주장한다.

Architecture

VGG Network에서 자주 사용되는 구조는 VGG-16, VGG-19이다.

Experiments & Results


위의 그림은 실험에서 사용한 5가지의 구조를 나타낸다. C의 구조를 보면 1x1 convolution filter를 사용한 것을 볼 수 있다. 1x1 convolution filter를 사용하여 receptive field에 영향을 미치지 않으면서, non-linearity를 증가 시켰다는 점에서 의의를 가진다.


이 network 이후에는 이 1x1 filter 사용하여 다른 기능을 수행하지만, 여기서는 다루지 않기로 한다.

A, A_LRN을 비교해보면 LRN의 효과가 미미하다는 것을 알 수 있다.



위의 train set, test set 의 사이즈를 다양하게 하여 테스트 한 결과이다.


'Deep Learning > Backbone Networks' 카테고리의 다른 글

SENet  (0) 2019.02.08
ResNet  (0) 2019.02.08
GoogLeNet  (0) 2019.02.08
AlexNet  (0) 2018.06.16