Abstract
기존 CNN에서 Width (Convolution 채널의 개수, 3x3 Conv을 몇개를 사용할 것인가), depth (레이어의 개수), resolution (해상도)를 최적 상태로 변경한다면 압도적으로 성능이 좋아진다. 3가지 변수들을 최적 상태로 만들기 위해 Compound Scaling을 제안한다.
Summary
변인 통제를 위해 모델을 고정하고 depth, width, resolution 3가지를 조절해야 하는데, 모델은 AutoML을 통해 모델을 탐색했다. 이를 EfficientNet-B0로 명명한다. B0 구조는 다음과 같다.

Compound Scailing : 아래 수식을 참조하자. 노란색으로 강조한 등식을 유지하며 알파 , 베타, 감마와 파이를 변경해준다. 이때 알파는 d를 2배 키울 때 FLOPS(GPU의 초당 부동소수점 연산량)도 2배 늘어나서 1제곱이지만, 베타와 감마는 각각 w와 r이 두배 늘어날 때 FLOPS가 제곱으로 늘어나 2제곱을 설정했다.
논문에서는 먼저 파이를 1로 설정 후 해당 등식을 만족하는 최적의 알파, 베타, 감마값을 찾았다. (알파 : 1.2, 베타 : 1.1, 감마 : 1.15) 그런 다음 파이를 정수배로 늘려가며 모델의 사이즈를 키웠다.

결과적으로 기존 CNN과 비슷한 정확도를 보이면서 parameter수와 FLOPS 수를 상당히 절약했다. 또 ImageNet 데이터셋에서 최고등급을 기록한 GPipe보다 정확도가 더 높았다. 결과표는 다음과 같다.
