덕라쿤

GAN 시리즈 - VQGAN

duckracoon5z — Mon, 25 Aug 2025 16:51:02 +0900

1. VAE(Variational Autoencoder)

VAE는 확률적 생성 모델의 대표 주자이다. 단순한 Autoencoder는 입력을 압축했다가 복원하는 데 집중하지만, VAE는 잠재 공간(latent space)을 확률 분포로 학습한다는 점이 다르다. AutoEncoder는 Image를 Encoding 하여 Embedding Vector 즉 latent vector를 만든 후 이를 Decoder의 input으로 넣어 이미지를 reconstruction 한다. VAE는 이러한 AutoEncoder 방식을 사용하여 input 데이터의 분포 자체를 학습하여 데이터를 생성한다.

구조

Encoder: 입력 이미지를 평균과 분산(μ, σ²)으로 표현
Decoder: 샘플링된 latent vector로부터 이미지를 복원

장점 : 압정적인 학습, 잠재 공간의 해석 가능성

단점 : 생성된 이미지가 상대적으로 블러리하고 디테일 부족

2. VQ-VAE(Vector Quantized VAE)

VAE의 한계를 개선하기 위해 나온 것이 VQ-VAE이다. VQ는 벡터 양자화라는 뜻으로 모델이 강력한 autogressice decoder와 짝을 이룰 때 latent들이 무시되는 'Posterior Collapse' 문제를 피할 수 있다.

VAE에서 내부적으로 취급하는 분포는 대개 Gaussian 분포를 따른다고 가정한다. 확장 버전은 autoregressive prior, posterior model, normalising flow, inverse autoregressive posterior 등을 포함하기도 한다.

VQ-VAE는 여기에 이산 표현을 다루도록 한다. VQ른 사용하면서, posterior과 prior distribution은 categorical하며, 이 분포로부터 생성된 sample은 embedding table을 indexing한다. 이 embeddings는 decoder의 입력으로 들어간다.

VQ-VAE의 구조를 보면, 인코더의 출력을 바로 사용하는 것이 아니라, embedding space(code book)라는 곳에 인코더의 출력 벡터들과 차원이 같은 여러 벡터를 미리 생성해놓고, embedding space에서 인코더의 출력 벡터와 가장 비슷한 벡터를 선택해 교체한다.

위 그림에서 embedding $e \in R^{K \times D}$ 가 이산표현을 나타낸다. 이를 codebook이라 하며, $K$ 는 이산 표현 공간의 크기( $K$ -way categorical과 같음), $D$ 는 각 embedding vector $e_{i}$ 의 차원이다.

즉 $e_{i} \in R^{D}, i \in 1, 2, \dots, K$ 이며, embedding vector가 $K$ 개가 있는 것이다.

모델의 encoder는 입력 $x$ 를 받아 $z_{e} (x)$ 를 출력한다. 이산표현벡터 $z$ 는 embedding space $e$ 에서 가장 가까운 embedding vector를 찾는다(look-up).

그래서 이 모델을 VAE라 할 수 있으며(논문 주장), $\log p (x)$ 를 ELBO로 bound할 수 있다. 제안한 분포 $q (z = k | x)$ 는 deterministic하고 $z$ 에 대해 단순균등 prior를 정의함으로써 KL divergence를 상수( $\log K$ )로 얻을 수 있다.

표현 $z_{e} (x)$ 는 식 1, 2에 주어진 대로 임베딩 $e$ 중 가장 가까운 원소를 찾고 discretisation bottlenect으로 전달된다.

Forward에서는 $z_{q} (x)$ 가 decoder로 전달된다.

Backward에서는 gradient $\nabla_{z} L$ 이 encoder로 그대로 전달된다.

Encoder의 출력과 Decoder의 입력은 $D$ 차원의 같은 공간에 존재하여, gradient가 어떻게 변화해야 하는지 정보를 줄 수 있다. 전체 objective는 다음 식으로 표현된다.

첫 번째 항은 reconstruction loss으로 위에서 설명한 estimator를 통해 decoder와 encoder를 모두 최적화한다. 실제 이미지와 생성된 이미지 간의 차이를 구하는 loss로 생성된 이미지가 실제 이미지와의 차이가 없도록 만드는 것을 목적으로 한다.

다음으로 VQ loss는 codebook만 update 하는 loss로 codebook vector가 encoder의 출력과 비슷하게 만들도록 하는 목적을 가진다. 여기서 sg는 stop gradient 라는 표기로 encoder ze(x)를 update하지 않는다.

마지막으로 commitment loss이다. commitment loss 는 Encoder만 update 하는 loss로 Encoder의 출력이 codebook vector와 가까운 값을 출력하는 것이 목적인 loss이다.

장점

latent space 덕분에 보다 선명하고 구조적인 이미지 복원 가능
이후 Transformer나 Autoregressive 모델과 결합하기 쉬움

단점

여전히 이미지의 fine detail을 복원하는 데 부족

3. VQ-GAN(Vector Quantized GAN)

VQGAN은 VQ-VAE의 구조적 장점을 유지하면서, GAN의 Adversarial loss를 도입하여 더 디테일한 이미지를 생성하는데 목적을 두었다. VQGAN은 CNN으로 Locality 를 잘 반영하는 codebook을 학습하고, Transformer의 풍부한 표현력으로 Image Synthesis를 이룬다. VQGAN은 2-stage 모델로 첫번째 stage 에선 codebook을 학습하여 Transformer에 사용하기 위한 이미지의 구성요소를 학습하는 것이고, 2번째 stage에선 이러한 codebook을 바탕으로 구성된 구성요소들로 transformer를 이용하여 이미지를 구성하는 것이다.

3-1 stage 1

첫번째 stage는 codebook 학습하는 단계로 이미지 구성 요소를 학습하는 과정이다. VQGAN의 첫번째 stage는 VQ-VAE와 매우 유사하다. 그러나 VAE와 달리 adversarial learning을 사용하여 학습을 진행한다. VQ-VAE 처럼 Encoder에서 나온 vector 값과 codebook 간의 유클리디안 distance를 비교한 후 distance가 가장 작은 vector zq들의 값으로 quantized vector 를 구성한다. 이렇게 구성한 zq를 decoder에 넣어 reconstruction image를 생성한다. 그리고 이를 discriminator에 넣어 patch 단위로 real 인지 fake 인지 판단한다.

VQ loss

VQ loss

VQ loss에서 달라진 것은 reconstruciont loss이다. 이는 단순 L2 loss 가 아닌 perceptual loss로 VGG 16 기반으로 real image와 fake image를 넣어서 모델 중간중간의 feature map 간의 loss를 구해서 update하는 것이다.

GAN loss

GAN loss

다음으로 Discriminator를 학습하는 loss는 Vanilla GAN loss와 동일하다. 그래서 이 LVQ와 LGAN을 합쳐 최종적인 loss를 설정한다.

Total loss

최종 loss

위에서 lambda의 경우, adaptive weight을 의미하며, 이를 바탕으로 VQLoss와 GANLoss 사이에서 어느 하나에 치우치지 않도록 만들어준다. lambda는 Decoder의 마지막 layer에서의 GANLoss, VQLoss의 변화율을 바탕으로 연산된다. 즉, Gan Loss의 변화율이 커질경우 lambda를 작게 유지하여 최종 loss 계산에서 Gan Loss에 패널티를 주는 방식으로 작동한다. 이로서, VQLoss와 GANLoss의 균형을 유지하도록 한다.

3-2 stage 2

Transformer는 앞서 언급했듯이 풍부한 표현력을 갖고 있다. 따라서 본 논문에서는 이러한 특성을 이용하여 Transformer를 Image Synthesis 하는데 사용한다. Transformer는 codebook의 index를 전에 나왔던 값을 기반으로 auto-regressive 하게 예측한다.

위 그림처럼 i 번째 보다 작은 값들을 이용하여 i 번째의 index를 예측하는 것이다. 따라서 이렇게 예측한 i 번째 index 값을 codebook 과 mapping 하여 생성하는 이미지 다음 patch vector를 구성하는 방식이다. 여기서 Transformer는 첫번째 stage 에서 학습한 zq를 label 값으로 삼아 NLL로 학습을 한다.

이러한 Transformer는 unconditional한 상태 뿐만 아니라 conditional한 상태에서도 동일하게 진행이 된다.

여기서 condition은 depth map이나 semantic segmentation map, keypoint , image class 등이 될 수 있다. 이러한 condition은 input 과 마찬가지로 1-stage에서 학습을 하여 각각의 codebook Z와 Zc를 생성한다. 그 후 이를 바탕으로 codebook Zc를 조건으로 주어 다음의 patch 를 예측하게 된다.

3-3 Sliding Attention Window

위 그림처럼 검은색 크기의 임의의 window size를 설정한 후 window size 안에 있는 인접한 patch 들과만 attention을 진행해주는 것이다. 이로 인해 모든 관계를 학습 하는 것이 아닌 주변에 있는 patch 들만을 이용하여 attention을 진행하여 computation을 줄일 수 있다. 하지만 이러한 방법은 landscape 이미지에선 잘 동작이 되지만 공간적인 정보가 많이 변하는 이미지에 대해선 잘 동작이 안되는 한계점이 있다. 이러한 방법을 바탕으로 High-Resolution Image를 잘 만들어 낼 수 있다고 한다.

정리 :

VAE → 잠재 공간을 확률 분포로 학습 (안정적이지만 블러리)
VQ-VAE → 잠재 공간을 이산적 코드북으로 변환 (더 선명, 구조적 표현 가능)
VQGAN → VQ-VAE + GAN (디테일 강화, 텍스트 조건부 확장 가능)

기존의 모델은Transformer의 많은computation으로 인해low-resolution image generation에서만 적용을 하였는데, VQGAN은Transformer를High Resolution생성에 적용할 수 있는 방법론을 제시하였다. 또한 Adversarial learning을 통해서 이미지의 중요한 local structure를 담은 codebook을 생성하는 방식을 제안하였다.

참조

https://blog.naver.com/gypsi12/222977571589

VQ-VAE 간단 정리(+시각화)

목차 1. VAE의 문제점 2. VQ-VAE 아이디어 요약 3. 실제 처리 과정 시각화 4. 학습 방법 5. 이미지...

blog.naver.com

https://greeksharifa.github.io/discrete%20representation/2021/11/07/VQVAE/

Python, Machine & Deep Learning

Python, Machine Learning & Deep Learning

greeksharifa.github.io

https://jjonhwa.github.io/booststudy/2021/12/24/booststudy-paper-VQGAN/

[논문리뷰] VQGAN: Taming Transformers for High-Resolution Image Synthesis

VQGAN: Taming Transformers for High-Resolution Image Synthesis를 읽고 이에 대하여 논의한다.

jjonhwa.github.io

https://bigdata-analyst.tistory.com/349

Taming Transformers for High Resolution Image Synthesis (VQGAN)

https://arxiv.org/abs/2012.09841 Taming Transformers for High-Resolution Image Synthesis Designed to learn long-range interactions on sequential data, transformers continue to show state-of-the-art results on a wide variety of tasks. In contrast to CNNs, t

bigdata-analyst.tistory.com

https://arxiv.org/abs/2012.09841

Taming Transformers for High-Resolution Image Synthesis

Designed to learn long-range interactions on sequential data, transformers continue to show state-of-the-art results on a wide variety of tasks. In contrast to CNNs, they contain no inductive bias that prioritizes local interactions. This makes them expres

arxiv.org

GAN 시리즈 - StyleGAN

duckracoon5z — Wed, 20 Aug 2025 17:17:55 +0900

1. StyleGAN

StyleGAN(A Style-Based Generator Architecture for Generative Adversarial Networks), CVPR 2019에 소개되었으며 추후 다양한 후속 연구 및 생성 모델 연구에 큰 기여를 한 논문이다. PGGAN의 논문의 저자들이 progressive growing의 아이디어와 함게 style transfer의 architecture로부터 영감을 받아 혁신적인 generator를 고안해냈다.

1-1 PGGAN

GAN을 이용해 고해상도 이미지를 생성하는 것은 쉽지 않다. 따라서 latent vector에서 한번에 고해상도의 이미지를 생성하기보다는, 낮은 해상도의 이미지(4x4)를 생성하는 것부터 학습해서 점진적으로(progressive) 레이어를 추가하며 고해상도 이미지(1024x1024)를 만드는 방법을 학습한다.

레이어를 추가할 때는 fade in 방식으로 부드럽게 끼워 넣는다. 아래 그림의 (a) -> (b) -> (c) 순서로 레이어 추가가 진행된다.

(b) 그림이 레이어 추가 과정을 보여준다. 이전 레이어의 output과, 새로운 레이어의 output을 적절하게 더해서 최종 output으로써 discriminator에 전달하는 것이다.

weight $α$ 는 0부터 1로 linear하게 증가한다.
toRGB operation은 feature을 RGB(num_channel=3)로 만드는 1x1 conv이다.
이러한 구조는 StyleGAN2 부터는 사용하지 않는다.

문제점

ProGAN의 경우 latent vector가 generator에 바로 입력으로 들어간다. 이 경우 GAN은 latent space를 학습 데이터의 분포에 맞춰 학습하게 되고, entangle한 latent space를 갖게 된다.

https://blog.promedius.ai/stylegan_1/

학습 데이터셋의 분포가 전체 데이터의 분포를 다 담지 못하고 비어있는 공간이 있는 경우, latent space가 학습 데이터셋의 분포에 맞춰지려 하다 보니 curved한 mapping을 학습하게 되는 것이다 (warping). Warping이 발생하게 되면 각 style이 급진적으로 변화하게 되어, 생성된 이미지 역시 급격하게 변하게 되는 특성이 존재한다.

풀어 말하자면, 하나의 유전자를 바꿔도 여러 특성에 영향을 주는 것처럼, 인풋을 조금이라도 조정하게 되면 동시에 여러 특징에 영향을 미치게되어 구체적인 특징을 컨트롤하는 능력은 매우 제한적이다.

1-2 StyleGAN

StyleGAN은 Generator의 구조에 초점이 맞추어진 논문이다. 이 Generator architecture에서 주목할만한 부분이 여러 개 있다.

1. Mapping Network

# Disentanglement

Mapping Network에 대해 정리하기 앞서, 이 mapping network를 이용하는 이유인 entanglement에 대해 먼저 정리하려고 한다. Entanglement란 '꼬여있는 것'을 의미하며 그 반대인 Disentanglement는 '풀려있는 것'을 의미한다. 즉, 주로 생성모델에서의 Entangle과 Distangle은 다양한 특징들이 서로 얽혀있는 것과 풀려있는 것을 말한다.

이미지 생성에 있어 예를 들자면, 남성 이미지를 생성할 때 대부분 짧은 머리를 가지고 수염이 있는 데이터가 많기에 머리가 짧고 수염이 있는 이미지가 생성되는 것이다. 다시 말해, 성별들이라는 특징과 수염, 머리카락 길이 등의 특징이 얽혀있는 상황이다. 이는 feature간의 correlation을 가지고 있는 것이다.

만일 여성의 사진이 있을 때, 해당 여성이 수염을 기른 모습의 이미지를 생성해내고 싶은 상황에서, 만약 feature들이 얽혀있지 않는(Disentanglement) 상황이라면 위의 이미지처럼 여성에서 수염만 추가된 이미지가 나와야 한다. 하지만 얽혀있다면(Entanglement) 아래와 같이 수염을 추가했지만 남성의 사진을 만들어 내는 것이다. 이는 수염이라는 특징이 성별, 머리카락 등의 특징과 얽혀있기 때문이다.

기존의 GAN은 학습 데이터의 분포를 따르도록 학습이 된다. 따라서, 학습 데이터에서 보기 힘든 데이터들을 잘 생성해내지 못하고, 그러다 보니 전형적인 데이터셋 및 입력 잠재 분포로부터 feature가 완전히 disentangled하게 학습할 수 없는 것이다.

여기서 (a)는 training set의 feature 분포를 시각화한 것이고, 그 두 개의 축이 머리카락의 길이와 성별이라고 가정했다. 이때 (a)의 시각화된 모습에서 실제 데이터셋에서는 머리카락이 긴 남성은 존재하지 않기 때문에 좌상단 부분은 비어있다. 즉 학습 데이터셋에서 확인하기 어려운 데이터의 밀도가 적은 부분인 것이다. 이러한 학습 데이터 분포를 학습해서 Z latent space에서의 2 factor variation 분포를 시각화한다면 (b)와 같은 원형의 모습을 보일 것이다. 그 이유는 학습에 사용하는 latent vector z가 normal distribution에서 샘플링되기 때문이다. 학습 데이터 분포를 동그란 분포에 맞추려고 하다 보니 그림과 같이 왜곡이 일어나게 된다. 즉, 특정한 분포를 가진 Z-space에서의 각 factor들의 조합의 확률은 학습 데이터에서 해당하는 density와 일치하도록 학습하기 때문에, 위와 같이 왜곡이 발생하고 각각의 factor이 완전히 분리되지 않는 entangled 상태가 발생하는 것이다.

따라서 저자들은 기존의 방식으로는 distanglement를 만들어낼 수 없다고 생각하였다. 저자들이 Disentanglement의 목적성을 고려해 정의한 바는 'latent space가 하나의 variation factor를 컨트롤할 수 있는 linear subspace들로 구성된 상태'이다. 즉, latent space 상에서 하나의 variation factor가 linear하게 움직이고 이 때 다른 factor들은 컨트롤되면 안된다는 것이다. (a)의 학습 데이터셋처럼 두 개의 factor가 각각 linear하게 움직이고 있는 상황이 distangle한 상황이고, 왜곡된 (b)와 같은 latent space는 각각의 factor가 곡선으로 왜곡되어서 움직이는 것을 확인할 수 있으며, 이는 entanglement한 상황이라는 것이다.

이에 저자들은 기존의 Z-space를 non-linear mapping을 학습하는 Mapping Network를 통해서 기존의 학습 데이터 분포의 density를 더 잘 반영하고 variation factor가 더 linear하게 움직일 수 있는 W-space로 mapping 해주게 된다. 즉, 이미지를 더 잘 생성하기 위해서 학습을 하면서 이러한 Z-space를 disentanglement한 latent space로 mapping을 해주는 방식을 mapping network가 학습하도록 하는 것이다. 이렇게 함으로써 Generator는 disentangled representation에 기반해 더 사실적인 이미지를 잘 만들도록 학습이 되는 것이다.

Style based Generator의 구조를 보면 기존의 Generator의 구조와는 다르게 latent code로부터 이미지가 생성되지 않고 constant input으로부터 이미지가 생성되면서 latent code로부터 스타일을 만들어 이러한 스타일을 이미지 생성 과정에 주입시켜줌으로써 새로운 이미지를 생성해낸다.

latent code z를 곧바로 쓰는 대신, 먼저 mapping network를 거쳐 intermediate latent code w로 변환한다. 이렇게 하면 원래의 공간처럼 얽혀 있는(entangled) 표현이 아니라, 데이터 분포에 더 잘 맞고 서로 다른 요인들이 더 분리(disentangled)된 w 공간을 얻을 수 있다. 그 결과, 생성되는 이미지 품질이 좋아지고, 얼굴의 나이·표정 같은 고수준 속성들도 더 쉽게 분리해서 제어할 수 있게 된다.

2. AdalN

일반적으로 딥러닝에서 네트워크를통해 데이터로부터 feature를 학습한다. AdalN은 style-transfer를 위한 Normalization Method로 위의 풍경과 같은 입력 영상에서 딥러닝 인코더 네트워크로부터 추출된 high-level feature map가 아래의 화풍과 같은 style이 입혀진 style-transfer된 이미지를 얻을 수 있다.

이러한 방식을 Image Generation에 도입한 것이다. 생성모델이 만들어내는 영상은 우리가 아는 다양한 스타일들의 조합으로 생각할 수 있다. 여기서 스타일은 w를 fc layer을 거쳐 input channel과 동일한 크기의 ys, yb라는 scaling factor, bias factor로 들어가게 될 것이다.

AdaIN에서 정규화를 할 때마다 한 번에 하나씩만 w가 기여하므로 하나의 style이 각각의 scale에서만 영향을 미칠 수 있도록 분리를 해주는 효과를 갖는다. 따라서 style을 분리하는 방법으로 AdaIN이 효과적으로 사용될 수 있다.

또한, generator의 매 layer마다 AdaIN을 통해 새로운 style을 입히게 되므로, 특정 layer에서 입혀진 style은 바로 다음 conv layer에만 영향을 끼친다. 따라서 각 layer의 style이 특정한 시각적 특성만 담당하는 것이 용이해진다.

3. Constant Input

기존처럼 random noise를 사용안하는 이유는 바로 네트워크를 통해서 이미지를 생성한는 것은 비교적으로 학습하기 어렵기 때문이다. StyleGAN에서 style들을 받아서 이미지를 생성해낼 때 초기의 4X4 영상 데이터의 전체적인 identity 혹은 특성을 배우면 네트워크가 더 쉽게 학습할 수 있을 것이다. 예를 들어 고양이 데이터셋을 학습한다고 생각해보면 constant가 배울 것은 전체적인 고양의 형태와 같은 것을 배울 것이다. 만약 기존처럼 random noise를 사용한다면 이러한 노이즈를 바탕으로 그냥 이미지를 생성해내는 법을 네트워크가 배워야 하므로 네트워크의 부담이 커질 것이다. 따라서 learnable input을 넣어줌으로써 네트워크가 학습하면서 이미지를 생성함에 있어 좋은 초기 모델을 학습해 constant c를 구축하고 이를 생성 과정에서 고정해서 사용하는 것이다.

4. Noise Ingection(Stochastic variation)

이미지를 생성함에 있어서 중요한 부분 중 하나는 randomness이다. 이미지는 사실적이면서도 다채로움을 가져야 한다. noise injection을 통해서 생성모델은 사람 얼굴에서 머리카락이나 수염, 주근깨, 모공과 같은 stochastic(확률적인)한 특성을 가지는 부분들이 생성된 fake image의 identity나 인지적인 특성에 영향을 주지 않고 randomness를 가지고 바뀌게 함으로써 생성되는 이미지의 사실성과 다양성을 증대시키는데 도움이 된다. 실제로는 노이즈 g의 각 convolution layer 뒤에서 주입시켜주면서 이미지를 만들게 된다.

일반적인 generator에서는 이러한 stochastic variation을 네트워크가 학습하도록 했다. 즉, 수염과 같은 생성되는 이미지의 randomized aspects들의 randomness를 generator network가 구조적으로 이미지를 만드는 것을 학습함과 동시에 사실성과 다양성을 위한 randomness 또한 학습해야 하는 것이다. 따라서 어차피 random한 부분이라면 네트워크 학습할 필요 없이 외부에서 줌으로써 이러한 문제를 피하려고 하였다.

어떻게 이러한 noise가 identity나 인지적인 특성에 영향을 주지 않고 randomness를 가지고 세세한 부분을 바꿀 수 있을까? StyleGAN에서 style 정도(latent w)는 AdaIN을 통해 feature map 전체에 scaling, biasing을 적용한다. 이것은 feature map 전체에 똑같이 적용되기 때문에, 얼굴 모양, 성별, 머리 스타일 같은 global effect를 조절한다. 이런 효과는 채널 단위 평균 분산 같은 통계값으로 표현되는 style 정보와 연결돼 있다. 즉, 공간적으로 어디든 동일하게 적용된다는 뜻이다. 반면 noise의 경우는 다르게 동작한다. noise는 각 픽셀 위치마다 독립적으로 주입되기 때문에, 특정 위치에서만 랜덤한 변화를 줄 수 있다. 그래서 머리카락 한 올 한 올, 피부에 있는 점 그리고 주름 같은 세세하고 우연적인 디테일(stochastic variation)을 만들어낸다. 다시 말하자면, global structure는 낮은 해상도 feature map에서 이미 결정되었고, noise는 높은 해상도 층에서 들어오기 때문에 큰 구조를 건들 수 없으므로 위치 차원 그리고 역할이 분리되어 있다는 것이다.

Figure 4(c). 100장의 사진을 그대로 두고 노이즈 값을 다르게 했을 때 표준편차의 모습 / Figure 5. (a): noise를 모든 layer에 줌. (b) noise를 안줌. (c) noise를 fine layer에만 줌 (d) noise를 coarse layer에만 줌

5. Progressive Growing

PGGAN에서 확인한 것처럼, low resolution image(4X4)부터 학습을 시작하여 점진적으로 layer를 추가해가면서 resolutionㅇ르 올려가며 학습을 해나감으로써 GAN이 처음에는 상대적으로 단순한 문제를 풀고 점진적으로 상태적으로 어려운 문제를 풀어나가기에 학습이 안정적이고, 고해상도 이미지를 잘 만들어내게 된다. 결국 StyleGAN은 PGGAN의 progressice growing 구조를 바탕으로 만들어진 것이다.

6. Style Mixing

두 style들을 조합하여 사용한다고 할 때, 하나의 w만으로 학습하다보면 붙어 있는 레벨의 style들 간의 correlation이 생길 수 있다. 이는 저차원의 feature에서 얼굴의 모양과 같은 attribute를 받고, 고차원에서 얼굴의 포즈와 같은 attribute를 받는데, 이 둘의 상관관계가 생기면 두 특징이 독립적이지 못하고 localization을 잘 못하게 되어 모양이 바뀌면서 pose가 바뀔 수 있는 것이다.

이런 상황을 줄이기 위해 Mixing Regularization을 진행한다. Mixing Regularization은 서로 다른 이미지를 생성해내는 intermediate latent vector w1과 w2의 특정 level을 기준으로 이전까지는 w1의 style 정보를 이후부터는 w2의 style 정보를 넣어 이미지를 생성하도록 학습시키는 것이다. 즉 w1의 style에는 상대적으로 coarse한 정보가 w2의 style은 fine한 정보가 반영되었다는 것이다. 이로써 인접한 두 level의 style 간의 correlation이 생기는 것을 막도록 하는 일종의 Regularization을 해줌으로써 localization이 개선된다.

참조

https://airsbigdata.tistory.com/217

[논문 리뷰] StyleGAN: A Style-Based Generator Architecture for GANs

이번에 소개해 드릴 논문은 A Style-Based Generator Architecture for Generative Adversarial Networks으로 StyleGAN으로 자연스러운 고해상도 이미지를 만들면서 많이 알려지게 된 논문입니다. 해당 논문은 NVDIA 팀이

airsbigdata.tistory.com

https://comlini8-8.tistory.com/11

진짜 같은 고화질 가짜 이미지 생성하기, StyleGAN

https://towardsdatascience.com/explained-a-style-based-generator-architecture-for-gans-generating-and-tuning-realistic-6cb2be0f431 Explained: A Style-Based Generator Architecture for GANs - Generating and Tuning Realistic… NVIDIA’s novel architecture f

comlini8-8.tistory.com

https://bo-10000.tistory.com/158

[StyleGAN 시리즈] ProGAN/PGGAN, StyleGAN, StyleGAN2

ProGAN부터 StyleGAN2까지, style transfer에서 가장 유명한 모델인 StyleGAN의 변천사와 각 모델의 특징을 간단히 정리해 보고자 한다. 1. ProGAN/PGGAN (ICLR 2018) Paper: Progressive Growing of GANs for Improved Quality, Stabil

bo-10000.tistory.com

https://hyoseok-personality.tistory.com/entry/StyleGAN-A-Style-Based-Generator-Architecture-for-Generative-Adversarial-Networks-%EB%A6%AC%EB%B7%B0-1%EC%84%B8%EC%84%B8%ED%95%9C-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0

[Paper Review] StyleGAN : A Style-Based Generator Architecture for Generative Adversarial Networks (1)

StyleGAN ( A Style-Based Generator Architecture for Generative Adversarial Networks ), CVPR 2019에 소개되었으며 추후 다양한 후속 연구 및 생성 모델 연구에 큰 기여를 한 논문입니다. ProGAN 혹은 PGGAN으로 불리는 논문

hyoseok-personality.tistory.com

GAN 시리즈 - BigGAN

duckracoon5z — Tue, 19 Aug 2025 16:03:55 +0900

conditional GAN은 많은 발전을 해왔지만 SOTA 모델(SAGAN)조차 아직 실제 이미지(ImageNet)와 차이가 크며, 실제 이미지의 Inception Score인 233에 비교해 SAGAN은 52.5의 Inception Score에 그친다.

우선 BigGAN의 구조가 되는 SAGAN에 대해 설명한다.

1. SAGAN(Self-Attention GAN)

SAGAN은 convolution을 self-attention으로 대체해 long-range dependency 모델링이 가능하도록 제안된 모델이다. 전통적인 GAN들은 낮은 해상도 feature map들 안 공간적인 지역 포인트만을 함수로 쓰는 고해상도 디테일을 생성한다. 그러나 SAGAN을 통해 모든 feature 지역들로부터 단서들을 사용해 디테일들이 생성된다. 따라서, Discriminator은 영상의 먼 부분에서 매우 자세한 feature들이 서로 일치하는지 확인할 수 있다.

이전 대부분의 모델들은 다른 이미지 영역들에 걸쳐 의존성을 모델링하기 위해 convolution에 크게 의존한다. conv operator은 local receptive field를 가지고 있기 때문에 장기 의존성은 여러 conv layer들을 통과한 후에만 처리할 수 있다. 이는 다양한 이유로 장기 의존성에 대한 학습을 막을 수 있다. 작은 모델은 그것들을 표현하지 못할 수 있고, 최적화 알고리즘은 의존성을 포착하기 위해 여러 layer들을 조심스럽게 조정하는 파라미터 값들을 발견하는데 어려움을 겪을 수 있고, 이 파라미터화들은 통계적으로 불안정하고 이전에 보지못한 입력에 대해서 적용할 때 실패하는 경향이 있다. conv kernal 크기를 증가시키는 것은 네트워크 표현 용량을 증가시킬 수 있지만 그렇게 함으로써 지역적 conv 구조를 사용함으로써 얻은 계산 및 통계적 효율성을 잃을 수 있다. 그에 반해 Self-attention은 장기의존성 모델의 능력과 계산 및 통계 효율 사이에서 더 나은 균형을 보여준다. Self-attention 모듈은 weight 또는 attention 벡터들이 작은 계산 비용으로 계산되는 모든 위치에서 feature들의 weight 합으로 반응을 계산한다.

convolution layer를 통과한 feature map( $x$ )를 입력으로 받아 key에 해당하는 $f (x)$ , query에 해당하는 $g (x)$ 와 value에 해당하는 $h (x)$ 를 각각 입력 값 $x$ 에 kernel_size=1인 1x1 convolution으로 계산한다. attention map은 픽셀 간의 관계를 나타내는데, 수식의 $β_{j, i}$ 는 $j$ 번째 영역을 합성 할 때 모델이 $i$ 번째 위치에 어느 정도 관심을 기울이는지를 나타낸다.

Image feature들은 두 개의 feature space f와 g로 attention이 계산된다. 그 후 beta를 통해 softmax로 값을 구함으로써 attention map을 구성한다. 그 후 또 다른 feature space h간의 곱을 통해 self-attention feature map을 구성한다. attention layer의 결과를 scale parameter와 곱하고 input feature map을 더하였다.

최종 결과는 계산한 self-attention feature map인 $o$ 와 입력 값 $x$ 를 더해 출력한다. 이때 학습 가능한 스칼라 값으로 0으로 초기화된 $γ$ 를 $o$ 에 곱해 self-attention feature map의 크기를 계산하는데, 논문에서는 학습 가능한 $γ$ 를 사용함으로써 네트워크가 처음에는 local 주변의 신호에 의존하다 점차 학습이 진행되며 non-local 신호에 더 많은 가중치를 부여하는 방법을 학습할 수 있다고 한다. 논문에서 $γ$ 를 0으로 초기화한 것에 대해서는 직관으로 쉬운 일을 먼저 학습하고 복잡성을 점진적으로 증가시켜 학습하기를 원했기 때문이라고 설명한다.

LOSS

SVM hyperplane을 사용한 Geometric GAN. 판별 모델 : 빨간 화살표의 방향 / 생성 모델 : 파란 화살표의 방향 업데이트

위의 수식이 SAGAN에서 사용하는 adversarial hinge loss다. 판별 모델 $D$ 의 경우 $(x, y) p_{d a t a}$ 인 실제 데이터 $(x, y)$ 를 입력으로 받는다면 $D (x, y) < 1$ 인 경우 1 이상의 값을, 생성 모델이 생성한 $G (z)$ 를 입력으로 받는다면 $D (G (z), y) > - 1$ 인 경우 출력으로 -1 이하의 값을 만들어 판별값의 절대값이 커지도록(hyperplane에서 멀어지도록) 업데이트하는 것이 목표다. 반대로 생성 모델 $G$ 는 $G$ 가 생성한 이미지 $G (z)$ 를 $D$ 에게 입력으로 준 결과가 hyperplane에 가까워지도록 만드는 것이 이상적이다.

Stabilize

- Spectral Normalization

각 layer의 spectral norm을을 특정 상수로 제한하는 것으로 판별 모델의 Lipschitz 상수를 제한하는 방법으로 모든 가중치 레이어의 spectral norm은 1로 설정하는 것이 지속적으로 잘 수행되기 때문에 다른 normalization 방법과 비교해 추가적인 hyperparameter 튜닝을 필요로 하지 않는다 한다. 또한 계산 비용이 적은 것이 장점이다.

SAGAN은 생성 모델에도 Spectral normalization을 적용하는 것으로 생성 모델의 파라미터 크기의 상승을 방지하고 비정상적인 gradient를 피할 수 있어 Spectral normalization을 생성 모델과 판별 모델 모두에 적용한다. 이후 생성 모델과 판별 모델 모두의 Spectral normalization이 안정적인 학습을 보여줄 뿐만 아니라 생성 모델 업데이트 당 판별 모델 업데이트 수를 더 적게 만드는 것이 가능해 학습에 대한 계산 비용을 크게 감소시킨다는 것을 발견했다. SAGAN은 판별모델의 learning rate는 0.0004로, 생성 모델의 learning rate는 0.0001을 사용해 판별 모델과 생성 모델 업데이트 비율을 1:1로 학습한다.

-TTUR

Two Time-Scale Update Rule(TTUR)은 생성 모델과 판별 모델에 별도의 learning rate를 사용하는 방법이다. 판별 모델 학습 : 생성 모델 학습 = 5 : 1과 같이 판별 모델의 느린 학습 문제를 보완하기 위해 SAGAN에서는 TTUR을 사용했다. TTUR을 사용해 판별 모델 학습 : 생성 모델 학습 = 1 : 1로 학습이 가능하며 판별 모델의 학습 step 수를 더 적게 사용하므로 동일한 시간에서 더 나은 결과를 얻고자 했다.

2. BigGAN

BigGAN이란 이름에서도 Big을 쓰는만큼 나타내는 것처럼 BigGAN은 기존 GAN의 파라미터의 2~4배의 파라미터를 가지고 있으며 batchsize를 8배 이상 키운 것이 특징이다. BigGAN은 GAN에서 생성된 이미지들과 실제 이미지인 ImageNet 간의 fidelity(품질), variety(다양성) 격차를 줄인다는 목표를 가진다. 다음은 BigGAN이 사용한 구조와 결정들이다.

- hinge loss를 adversarial loss로 사용한 SAGAN 구조 사용

- class 정도 conditioning을 위해 Shared embedding을 사용

- Exponential Weight Average를 G에 적용

- orthogonal Initialization/Regularization을 사용

SAGAN과 마찬가지로 adversarial loss로 hinge loss를 사용하며 $G$ 와 $D$ 모두에 Spectral Normalization을 사용한다. SAGAN에서는 G와 D의 학습 step 수를 1:1로 설정해 동일한 시간에서 더 나은 결과를 얻고자 한 것이 특징이지만 BigGAN에서는 $G$ 와 $D$ 학습 step 수를 1:2로 수정한 것을 사용한다.

(a) BigGAN의 G 의 대표적인 구조 (b) BigGAN의 G 에 사용되는 Residual Block (c) BigGAN의 D 에 사용되는 Residual Block

BigGAN은 class 정보를 $G$ 와 $D$ 에 제공하기 위해 $G$ 에는 Shared embedding, hierarchical latent space를 사용하고 $D$ 에는 Projection Discriminator를 사용한다.

$G$ 에는 single shared class embedding으로 Conditional Batch Normliazation(CBN)과 skip connection(skip-z)를 사용한다.

$z$ 는 모델 입력에서 한번만 쓰이는게 일반적이지만 BigGAN은 Residual Block마다 class 정보와 함께 입력되며 (a)와 (b)에서 구조를 확인할 수 있다. latent vector $z$ 가 channel 차원에 따라 동일한 크기로 분할되고 각 분할된 $z$ 는 shared class embedding인 CBN과 연결되어 residual block에 conditioning vector로 전달된다. 이 $z$ 가 여러 층에 전달되기에 이를 hierarchical latent space라 하고 skip connection처럼 layer를 뛰어넘어 concat되는 $z$ 를 skip-z라고 한다. skip-z 사용으로 약 4% 성능 향상과 함께 학습 속도 또한 18% 향상시켰다고 한다.

$D$ 는 Projection Discriminator 방식을 사용한다. Residual Block과 Scalar function을 사용해 class 정보를 사용하는 것이 특징이다.

Shared embedding & CBN - G

왼 : batch normalization / 오 : conditioanl batch normalization

CBN은 기존의 Batch Normalization의 learnable parameter인 $γ$ , $β$ 에 class 정보가 영향을 미칠 수 있도록 해 conditional 정보를 BN에 주는 방법이다. 주고자 하는 condition에 해당하는 $e_{q}$ 를 MLP layer에 통과시켜 channel 수 마다 2개의 값 $Δ β$ 와 $Δ γ$ 를 계산한다. 이후 Batch Normalization의 $β$ , $γ$ 에 계산된 값을 더한 $\hat{β_{c}}$ 와 $\hat{γ_{c}}$ 를 Conditional Batch Normalization으로 사용한다.

Projection - D

(d) BigGAN Projection Discriminator

(d) 수식

$ϕ$ 는 BigGAN에서 Residual network를 사용하며 $ψ$ 은 $ϕ$ 와 연결되는 scalar function으로 입력된 이미지가 진짜인지 가짜인지 판별하는 함수로 이미지 판별 결과 값 하나를 출력하기 때문에 scalar function이다.

수식으로는 복잡해 보이지만 $ψ (ϕ (x; θ_{Φ}); θ_{Ψ})$ 는 Residual network $ϕ$ 에 이미지 $x$ 를 입력하고 결과 값을 activation(scalar function) $ψ$ 에 연결해 이미지가 진짜인지 가짜인지 판별하는 구조이다.

$V$ 는 $y$ 의 embedding matrix로 $y^{T} V$ 가 Figure의 (d)에서 $y$ 가 입력되는 부분을 의미한다. Residual network $ϕ$ 에 $x$ 가 입력되었을 때의 feature map이 두 갈래로 나뉘어 하나는 activation(scalar function)인 $ψ$ 로 입력되고 다른 한 갈래는 condition에 해당하는 $y$ 의 embedding과 계산되어 이후 두 갈래로 나눠져 계산된 값들이 합쳐져 결과로 출력된다.

EMA

$G$ 의 weight에 moving average를 사용하는데, learning rate를 decay하도록 따로 설정하지는 않지만 $G$ 의 출력을 시각화하기 위해 Exponential Weight Average(Exponential Moving Average)를 사용한다고 한다. Exponential Weight Average는 지금까지 계산된 weight를 모두 사용해 weight를 업데이트하는 방법으로 가장 최신의 weight의 가중치를 더 크게 반영하고 오래된 weight의 영향을 감소시키기 위해 이전의 weight들은 iteration이 반복될 때마다 decay이 곱해져 축적된다. BigGAN에서는 decay 값으로 0.999가 사용되며 축적된 weight의 average 값이 가중치로 사용된다.

Orthogonal Initialization

신경망은 학습 초기에 가중치 분포가 잘 잡혀 있어야 gradient가 폭주/소실하지 않고 안정적으로 흐른다. 특히 BigGAN처럼 채널 수가 수천 단위인 대규모 네트워크에서는 작은 불안정이 쉽게 증폭된다. Orthogonal initinalized matrix의 고윳값은 하나이기 때문에 vanishing gradient를 방지하는데 도움을 준다. 따라서 가중치 행렬을 직교 행렬로 초기화 함으로서 입력을 변형하더라고 벡터의 norm(길이)을 크게 왜곡하지 않는다. 이로써 안정된 forward/backward 전달이 가능하다.

Orthogonal Regularization

초기에는 직교더라도, 학습하면서 W가 점점 비직교로 되며, 이는 중복된 feature 방향과 상관성을 증가시켜 표현력이 떨어지고 불안정함을 야기한다. 특히 GAN에서는 mode collapse로 이어질 위험이 있다. 따라서 Orthogonal Regularization을 통해 학습 중에도 가중치가 거의 직교를 유지하도록 term을 추가한다. Orthogonal Regularization이란 overfitting에 의해 모델의 성능 저하를 예방하는 정규화 방법의 하나이다. BigGAN에서 직교 정규화 외에도, CNN의 학습효율을 향상시키는 방법 중 하나인 Skip connection도 사용된다.

W는 weight matrix이고 람다는 하이퍼파라미터로 weight를 orthogonal하게 제한하도록 orthogonal regularization이 제안되었으나, 직교 정규화는 singular valur에 상관 없이 모든 singular value를 1로 설정하기 때문에 spectrum 정보를 파괴하는 문제가 있다고 하여 BigGAN에서는 변형된 버전을 사용하였다.

1은 모든 요소가 1로 설정된 행렬이다.

Truncated Trick

cGAN에서뿐아니라 GAN에서는 입력 노이즈는 N(0,1)부터 샘플링하지만, 이 샘플링한 값 중 Threshold를 넘는 것은 재샘플링하여 Threshold 안에 포함되도록한다. 즉, 정규분포에서 멀리 떨어진 극단적인 값을 가지는 z의 분포를 잘라 안정적인영역의 z만 쓰도록 제한하는 것을 Truncated Trick이라고한다. 따라서, Threshold가 작으면 작을수록(0에 근접) 노이즈의 분산은 좁게 된다. 그럼 이 Threshold의 값을 변경시켜가며 FID나 IS를 구하는 것이 될까? 그것에 대한 그림은 아래와 같다. 이것은 Threshold의 값을 변화시켜가면서 Generator의 출력을 보여주는 것이다. Threshold의 값은 2.0에서 0.004 사이로 변화하여, 오른쪽으로 갈수록 Threshold의 값이 작아지고 있다. Threshold의 값이 최고 작아질 때는 다양성이 손실되고, 최대화 될 때는 질이 떨어진다.

Threshold를 작게하면 IS와 FID가 크게 된다. 즉, 적당한 Threshold를 찾을 필요가 있다.(Thruncated Trick에서 Orthogonal Regularization을 할 필요가 있음)

참조

https://engineer-mole.tistory.com/44

[논문] GAN ; BigGAN (Large Scale GAN Training for High Fidelity Natural Image Synthesis)

1. 도입 BigGAN는 512x512의 고해상도 조건이 있는 이미지 생성(예를 들어 ImageNet을 학습하여 ImageNet의 라벨을 입력 노이즈에 부수적으로 부여하여 그 라벨에 상당하는 이미지를 생성하는 작업)을 실

engineer-mole.tistory.com

https://solee328.github.io/gan/2023/09/27/sagan_paper.html

SAGAN - 논문 리뷰

이번 논문은 self-attention을 Generative model에 적용한 SAGAN(Self-Attention Generative Adversarial Network)입니다. 사실 BIGGAN 논문을 보다 해당 논문이 SAGAN 모델을 바탕으로 한 걸 알게 되어서 SAGAN를 먼저 하게 되

solee328.github.io

https://aigong.tistory.com/150

SAGAN 논문 Full Reading - Self-Attention Generative Adversarial Networks

SAGAN 논문 Full Reading - Self-Attention Generative Adversarial Networks 저자 : Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generative adversarial networks. https://arxiv.org/abs/1805.08318 2020.12.20일 기준 citat

aigong.tistory.com

https://solee328.github.io/gan/2023/11/03/biggan_paper.html

BigGAN - 논문 리뷰

이번 논문은 Large Scale GAN Training for High Fidelity Natural Image Synthesis로 BigGAN이라 불리는 논문입니다.

solee328.github.io

GAN 시리즈 - PGGAN

duckracoon5z — Wed, 13 Aug 2025 20:18:46 +0900

1. PGGAN(Progressive Growing of GAN)

PGGAN은 고해상도의 이미지를 생성하기 위해 제안된 획기적인 기술이다. 이미지를 해상도 별로 학습시켜 비교적 고해상도에서도 안정적인 학습이 가능하다. 왜 Progressive하게 학습시킬까? 일반 GAN을 곧장 고해상도로 학습하면 Discriminator은 초반부터 세밀한 픽셀 잡음까지 구분하려고 해서 학습이 불안정 해지며, Generator은 전역 구조를 배우기도 전에 세부 노이즈에 과적합이 된다. 따라서 PGGAN를 통해 먼저 큰 모양부터 질감의 순서로 배우게 하여 안정화와 성능을 동시에 얻는다.

PGGAN에는 크게 4가지 아이디어가 있다,

1. Progressive Growing : 점진적으로 해상도를 높여가며 학습

2. Pixel Norm : 기존에 많이 쓰이는 BatchNorm과는 달리 픽셀 별로 정규화 작업을 수행

3. Equalized Learning Rate : 가중치를 2/입력개수 로 나누어 모든 가중치가 동일한 속도로 학습될 수 있도록 함

4. Minibatch Std : Discriminator의 마지막 블록에 해당 레이어를 추가하여 모드 붕괴 현상을 완화

- toRGB : 특징 벡터를 RGB 색상으로 투영하는 레이어(1X1 컨볼루션 레이어)

- fromRGB : toRGB의 반대(1X1 컨볼루션 레이어)

저해상도에서 시작하여 새로운 layer을 조금씩 추가하고 고해상도의 이미지를 생성해 나가는 것이 PGGAN의 핵심이다.

a)→b)

16X16 해상도를 학습 후 32X32 레이어를 끼어넣을 때, 생성망이 만들어낸 16X16 이미지를 2배 업스케일링한 이미지와, 32X32 컨볼루션 레이어에서 새롭게 만들어낸 이미지와 합치게 된다. 해상도 전환 중에 두 해상도 사이를 보간하여 결합하게 되는데, 전이 구간에서는 0~1 사이의 값을 가지는 alpha값에 따라 (1-a) : a의 비율로 합쳐지게 된다.

판별망에서는 가장 가까운 이웃 필터링과 평균 풀링을 각각 사용하여 이미지 해상도를 절반으로 줄여서 실제 이미지와 비교하여 판별하게 된다. 점진적으로 학습이 진행됨에 따라 alpha 값은 선형적으로 0에서 1까지 도달하게 되고, c)처럼 되면서 32X32 레이어에서 생성하는 이미지를가지고 판별하게 된다.

이처럼 a → b → c → b → c ... 의 전이와 안정화의 과정을 반복적으로 거치면서 점진적으로 새로운 레이어를 추가해가고 고해상도의 이미지를 생성하고 판별할 수 있는 G와 D를 학습시켜 나갈 수 있다.

참조

https://rgbitcode.com/blog/senspond/70

GAN의 문제점과 PGGAN 논문 리뷰

PGGAN이라는 논문을 읽고 공부한 내용을 정리해 본 글입니다.

rgbitcode.com

GAN 시리즈 - CycleGAN

duckracoon5z — Wed, 13 Aug 2025 16:47:52 +0900

1. CycleGAN

image to image translation이란 이미지 데이터셋을 사용하여 input 이미지와 output 이미지를 mapping하는 것을 목표로 하는 생성 모델의 한 분야다. 대표적 모델로 Pix-2-Pix, Cycle GAN, Style GAN 등이 있다. Pix-2-Pix가 처음 등장하였고 이후 Pix-2-Pix의 단점을 해결하기 위해 Cycle GAN이 등장하였다. 또한 Style GAN은 Cycle GAN을 베이스로 하여 개발되었다.

이해를 돕기 위해 간단하게 Pix-2-Pix에 대해 먼저 알아본다.

1-1 Pix-2-Pix

Pix2Pix는 image를 image로 변환하도록 generator을 학습한다. 예를 들어, generator의 입력값으로 스케치 그림을 입력하면 완성된 그림이 나오도록 학습할 수 있다. 기존 GAN과 비교하여 설명하자면, Pix2Pix는 기존 GAN의 noise 대신에 스케치 그림을 입력하여 학습을 하는 것이다.

Image-to-Image Translation은 보통 GAN의 변형 중 CGAN(Conditional GAN)을 기반으로 한다. 가령, 위 그림에서는 edge를 조건으로 받아 실제 이미지를 생성하고, 판별자 또한 이 edge와 생성 이미지를 받아 판별하면서 모델을 발전시키게 된다.

CGAN

CGAN의 손실 함수는 위와 같다. 최적의 Generator를 얻기 위해서는 L(G,D)를 최소화하는 방향으로, Discriminator은 최대화하는 방향으로 학습을 진행한다. 그러나 이 Loss를 단순히 사용하기 보다 L1, L2 Norm과 같은 traditional Loss를 추가해 사용한다면 조금 더 나은 이미지를 생성할 수 있다.

위 식은 에 관한 식이다. 즉, 판별자 에 대해서 사용하지는 않고, 단지 생성자 가 생성 이미지를 타겟 이미지와 가까워지게끔 추가한 LOSS이라 할 수 있다. L1 loss가 더 좋다고 판단하여 최종적인 loss를 아래와 같이 정의한다.

pix2pix-Generator

pix2pix 연구에서 Generator로는 인코더-디코더 구조에 스킵커넥션이 추가된 U-Net을 사용한다.

즉, 인코더와 디코더가 대칭적으로 연결되어 있다. 그래서 U-Net은 skip connection을 (대칭적으로) 추가해 이 경로를 통해 얕은 layer의 경우 조금 fine(local)한 정보를 담고 있고, 깊은 layer의 경우 corase(global)한 정보를 담게 된다.

이러한 구조를 통해 정보 손실을 낮추고, 기존의 Localization(details, fine)과 Context(semantic, global)의 trade-off 관계를 해결할 수 있게 된다.

pix2pix-Discriminator

pix2pix2의 판별자로는 PatchGAN을 사용한다.

ImageGAN : 일반적인 GAN은 이미지 전체에 대한 진위 여부를 판단한다.
PatchGAN : cGAN에서는 종종 PatchGAN을 사용하게 되는데, 이 때는 사이즈의 이미지 패치 단위에 대한 진위 여부를 판단하게 된다.
PixelGAN : 이미지 픽셀 단위에서 진위 여부를 판단한다.

L1 loss만을 사용할 경우 이미지의 Low-frequency(픽셀의 변화 정도) 성분들을 잘 검출해내는 특징을 지닌다. 따라서 Discriminator에서 high-frequency의 검출을 진행한다. 또한 이를 위해서는 이미지 전체가 필요 없고 local image patch를 사용해 판별을 진행해도 무방하다(디테일한 부분을 파악하는 데 전체 이미지는 필요 없음).

문제는 Pix-2-Pix를 학습시키기 위해 paired image 데이셋이 필요하다는 것이다. 아래 그림처럼 말 사진에 얼룩말이 가진 특징을 씌워서 얼룩말로 변환하려면 말 사진과 동일한 포즈와 크기의 얼룩말 사진, 즉 paired image를 가지고 학습을 시켜야 다.

이런 단점을 해결하기 위해 등장한 모델이 Cycle GAN이다.

1-2 Cycle GAN

Image-To-Image Translation은 pair 형태의 train 이미지를 활용해 input과 output을 매핑하는 것이 목표다. 하지만, pair 형태의 학습 이미지를 구하는 일은 쉽지 않기 때문에 CycleGAN은 X라는 도메인으로부터 얻은 이미지를 타깃 도메인 Y로 변환하는 방법을 활용하였다. 즉, 한 이미지 집합에서 고유한 특징들을 포착하고 이 특징을 다른 이미지 집합으로 전이시키는 것이다. 이러한 방법을 통해 CycleGAN을 활용하였을 때, 다음과 같은 결과물을 얻을 수 있다.

Cycle GAN의 구조

unpaired image 데이터를 가지고 image to image translation를 하는 것이 cycle GAN의 목적이다. 이때 모델의 loss function을 GAN의 Loss function으로 사용하는 경우 Mode collapse라는 문제가 발생한다. 이를 해결하기 위해 기존의 Generator G 외에 Generator F를 추가한 순환구조가 등장한다.

X에서 Y의 이미지를 만들어주는 Generator와 이 이미지가 진짜인지 판단하는 Discriminator, 그리고 역방향 학습까지 고려하기 때문에 2개의 GAN을 필요로 한다.

파이프라인을 구축하기 위한 Component는 다음과 같다.

- Generator G : X → Y mapping

- Generator F : Y → X mapping

- Discriminator Dy : 실제 도메인 Y의 이미지 y와 G가 생성한 y_hat=G(x)을 구분

- Discriminator Dx : 실제 도메인 X의 이미지 x와 F가 생성한 x_hat=F(y)을 구분

함수 G : X → Y와 Dy에 대해서는 아래와 같은 목적함수를 적용한다.

여기서, G는 위의 함수를 최소화 D는 위의 함수를 최대화시키고자 하며 이는 다음과 같이 나타낼 수 있다.

마찬가지로, 함수 F : Y → X와 Dx에 대해서도 다음과 같이 나타낼 수 있다.

Unpaired data는 이미지 간의 대응 관계가 너무 많기 때문에 만들어진 이미지가 실제 이미지와 한 쌍이라고 확정지을 수 없다. 오히려 mapping의 제약이 적기 때문에 mode-collapse를 초래할 수 있다. 이러한 문제를 해결하기 위해 cycle consistency loss를 도입하였다.

cycle consistency loss는 각각 생성한 이미지를 다시 원본으로 복구할때 원본과 복구 값 간의 거리를 구하는 것으로,

생성된 이미지가 다시 원본으로 대응될 수 있게끔 학습하면서 다양성을 최대한 제공하도록 한다.

cycle consistency loss가 유도한 결과는 다음과 같으며, 재건된 이미지 F(G(X))가 input 이미지 x와 유사함을 확인할 수 있다.

앞서 설명한 loss를 합치면 전체 목적 함수는 다음과 같다.

λ는 두 함수(= 위 식에서의 첫 번째 항과 두 번째 항)의 상대적인 중요도에 따라 결정되며, 풀고자 하는 목표는 다음과 같다.

즉, X → Y GAN의 Adversarial Loss와 Y → X GAN의 Adversarial Loss를 더하고 각각 다시 원본으로 복구하는 cycle consistency loss 값을 더해준 값이 최종 Loss값이며, 이를 최소화하는 방향으로 G와 F를 학습하는 것이다.

Cycle GAN의 한계

CycleGAN은 획기적인 방식으로 부족한 데이터 문제를 해결했지만, 당연히 한계도 존재한다.

CycleGAN은 주로 분위기나 색상을 바꾸는 것으로 스타일을 학습하여 다른 이미지를 생성한다. 따라서, 기하학적인 모양을 변경하는 데는 어려움이 있다. 또한, 데이터셋의 분포가 불안정하면 이미지를 제대로 생성할 수 없다.

참조

https://bo-10000.tistory.com/116

[GAN Overview] GAN 주요 모델 정리 (GAN survey 논문 리뷰)

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy (CSUR 2021) 을 바탕으로, 중요한 GAN 모델들을 정리해 보고자 합니다. 논문에는 더 다양한 모델들이 소개되어 있으나, 그 중 일부만 정리하였

bo-10000.tistory.com

https://baobao.tistory.com/66

GAN 겉햙기 (GAN 종류)

GAN 은 그 종류가 엄청 많고 또 종류마다 그 쓰임새가 다르다고 말할수 있습니다. 그렇다면 그 GAN 들의 종류는 무엇이며 또 어떤 역할을 하는걸까요? Deep Convolution (DCGAN) 머신러닝과 딥러닝은 생성

baobao.tistory.com

https://wikidocs.net/146366

5) Cycle GAN

**image to image translation이란** 이미지 데이터셋을 사용하여 input 이미지와 output 이미지를 mapping하는 것을 목표로 하는 생성 모델의 한…

wikidocs.net

https://dacon.io/forum/405902

[GAN] CycleGAN 논문 리뷰

dacon.io

GAN 시리즈 - WGAN

duckracoon5z — Wed, 13 Aug 2025 15:16:15 +0900

1. WGAN(Wasserstein GAN)

WGAN, 즉 Wasserstein GAN은 전통적인 GAN(Generative Adversarial Network)의 학습 안정성 문제를 해결하기 위해 제안된 모델이다. WGAN의 가장 중요한 특징은 목적 함수와 판별자(discriminator)를 수정하여, 생성자(generator)와 판별자 사이의 경쟁이 더 안정적으로 이루어지도록 한 점에 있다.

WGAN의 핵심 개념은 세 가지가 있다,

1. Wasserstein 거리 사용

2. Discriminator의 마지막 층에서 시그모이드 활성화 함수 제거, critic으로 기능( 크리틱의 목적은 실제 이미지에 대해서는 높은 값을, 생성된 이미지에 대해서는 낮은 값을 출력한다. 즉, critic은 단순히 '진짜/가짜'를 분류하는 것이 아니라, 데이터의 'realness score'를 출력한다)

3. Weight Clipping

1-1 Wasserstein 거리 (Earth Mover’s 거리)

GAN의 학습 과정에서는 실제 데이터 분포와 generator의 샘플 분포 사이의 거리를 측정해야 한다.

1) Total Variation (TV) distance

두 확률 분포 간의 최대 차이를 측정하는 거리이다. 즉, 가능한 측정 값들 중 차이가 가장 큰 값으로 정의된다.
두 분포가 완전히 겹치면 0, 겹치지 않으면 1이 된다.
불연속적인 변화가 발생하여 gradient descent 기반의 학습이 어렵다.

2) The Kullback-Leibler (KL) divergence

두 확률 분포 $P$ 와 $Q$ 간의 상대 엔트로피를 측정한다.
한 분포가 다른 분포를 얼마나 잘 설명하는지를 나타내는 지표이다.
분포가 겹치지 않으면 KL divergence는 무한대가 된다.

3) The Jensen-Shannon (JS) divergence

KL divergence를 대칭적으로 변형한 거리이다.
두 분포가 완전히 동일하면 0, 겹치지 않으면 1이 된다.
분포가 조금만 차이가 나도 gradient가 거의 0이 되어 학습에 어려움이 있다.

4) The Earth-Mover (EM) distance or Wasserstein-1

두 확률 분포 간의 차이를 측정하는 방식으로, 한 확률 분포에서 다른 확률 분포로 이동하는 최소 비용을 의미한다.
한 확률 분포를 다른 확률 분포로 변환하는 데 필요한 최소한의 작업량을 기반으로 거리 계산이 이루어진다.
Gradient가 연속적인 값을 가지므로 gradient descent를 통한 학습이 가능하다.
기존 JS/KL divergence보다 더 부드러운 거리를 제공하여 학습 안정성을 향상시켜 분포 간의 차이를 보다 정확하게 반영한다.

Wasserstein GAN은 Wasserstein distance를 최적화하는 것이 목표이며 기존 GAN의 학습 문제를 해결한다.

Kantorovich-Rubinstein duality를 이용하여 $W$ 를 위와 같이 설정한다. 여기서 sup 아래의 의미는 $f$ 가 1-Lipschitz 함수(두 점 사이의 거리를 일정 비 이상으로 증가시키지 않는 함수)라는 것을 나타낸다. 만약 $f$ 가 1-Lipschitz가 아니라 어떤 상수 $k$ 에 대해 K-Lipschitz 조건을 만족하는 경우 아래와 같이 변형된다. 즉, $f$ 가 엄격한 1-Lipschitz가 아니더라도, 적절한 K-Lipschitz 조건을 만족하면 Wasserstein distance를 최적화할 수 있다.

WGAN에서는 최대화 문제를 푸는 함수를 신경망을 이용해 근사하는데 $f$ 를 학습하는 critic network를 정의하고, 이 critic의 weight $w$ 를 최적화하여 Wasserstein distance를 최대화한다.

신경망의 가중치 $w$ 가 compact space $W$ 에 놓여 있다고 가정한다.
최적화 과정에서 $E_{z p (z)} [▽_{θ} f_{w} (g_{θ} (z))]$ 를 이용해 backpropagation을 수행한다.

이 과정에서 기존 GAN의 훈련 과정과 유사하지만 차이점이 있는데, WGAN에서는 critic이 제한 없는 scalar 값을 출력하여 Wasserstein distance를 근사한다. Lipschitz 조건을 만족시키기 위해, weight clipping 또는 gradient penalty를 사용한다.

1-2 WGAN의 학습 과정

1) Critic 학습 단계

목표 분포 $P_{r}$ 와 latent 분포 $P (z)$ 를 각각 미니배치 크기만큼 샘플링.
Critic의 loss function을 이용하여 weight $w$ 를 업데이트.
Weight clipping 수행: Lipschitz 조건을 강제하기 위해 $w$ 를 [ $- c, c$ ] 범위로 제한.

2) Generator 학습 단계

Generator는 critic이 제공하는 Wasserstein distance를 줄이는 방향으로 업데이트
Critic이 최적화될수록 더 안정적인 gradient 정보를 제공하여 generator 학습을 지원

1-3 Weight Clipping의 한계점 및 문제점

1) $c$ 가 너무 큰 경우

clipping 범위가 넓은 경우
Lipschitz constraint가 약해지면서 최적의 critic을 찾는 데 오랜 시간이 걸린다.
즉, training이 비효율적이 될 수 있다.

2) $c$ 가 너무 작은 경우

clipping 범위가 좁은 경우
Critic의 weight들이 작은 값에 제한되어 gradient vanishing 현상이 발생.
즉, gradient가 너무 작아져 학습이 제대로 진행되지 않는다.

WGAN의 weight clipping은 Lipschitz 조건을 강제하는 방식이지만, 한계가 존재한다. 이 문제를 해결하기 위해 WGAN-GP가 제안되는데 weight clipping 대신 gradient penalty를 추가하여 Lipschitz 조건을 만족하도록 개선한다.

(아직 이해가 안가서 추후 수정 예정)

참조

https://bo-10000.tistory.com/116

[GAN Overview] GAN 주요 모델 정리 (GAN survey 논문 리뷰)

bo-10000.tistory.com

https://baobao.tistory.com/66

GAN 겉햙기 (GAN 종류)

baobao.tistory.com

https://blog.outta.ai/221

[2025-1] 김유현 - Wasserstein GAN

https://arxiv.org/abs/1701.07875 Wasserstein GANWe introduce a new algorithm named WGAN, an alternative to traditional GAN training. In this new model, we show that we can improve the stability of learning, get rid of problems like mode collapse, and prov

blog.outta.ai

GAN 시리즈 - CGAN

duckracoon5z — Wed, 13 Aug 2025 15:09:23 +0900

1. Conditional GAN (cGAN)

CGAN 도식화

Conditional GAN(CGAN)은 GAN의 확장 모델로, 데이터 생성 시 조건을 입력으로 추가해 보다 제어 가능한 생성 결과를 만들어낸다.

위 수식은 기존 GAN의 수식이다. 반면 CGAN의 경우, G와 D가 추가 정보 $y$ 라는 조건이 붙는다면 조건부 생성모델을 만들 수 있다. $y$ 는 어떤 보조 정보라도 될 수 있는데, class label이나 다른 modality의 데이터 등이다. 우리는 $y$ 를 G와 D의 input layer에 추가로 같이 집어넣음으로써 이를 수행할 수 있다.

G에서는 input noise $p_{z} (z)$ 와 $y$ 가 합쳐진 형태가 된다. 이 적대적 학습 framework는 이 hidden representation이 어떻게 생겼는지에 별 영향을 받지 않는다. D에서는 $x$ 와 $y$ 가 input으로써 들어가게 된다. 따라서 위 수식을 Conditional 버전으로 변경해보면 아래와 같이 된다.

CGAN은 원하는 속성의 데이터가 생성 가능하다는 점, 라벨이 있는 데이터셋을 활용하여 제어 가능한 생성이 가능하다는 점 그리고 이미지 뿐만 아니라 텍스트 음성 등 다양한 모달리티에도 적용 가능하다는 장점이 있다.

다만 한계점으로는 무라벨 데이터에서는 적용이 어렵다는 점, 학습이 부족하면 생성물이 조건을 반영하지 못할 수 있다는 점 그리도 단순 GAN 보다 학습이 어렵다는 점을 꼽을 수 있다.

참조

https://bo-10000.tistory.com/116

[GAN Overview] GAN 주요 모델 정리 (GAN survey 논문 리뷰)

bo-10000.tistory.com

https://baobao.tistory.com/66

GAN 겉햙기 (GAN 종류)

baobao.tistory.com

GAN 시리즈 - DCGAN

duckracoon5z — Wed, 13 Aug 2025 15:09:14 +0900

1. DCGAN(Deep Convolution GAN)

DCGAN은 위 GAN에서 직접적으로 파생된 모델로, 생성자와 구분자에서 합성곱 신경망(convolution)과 전치 합성곱 신경망(convolution-transpose)을 사용했다는 것이 차이점이다. 이 모델을 사용한 후 화질이 개선되었고, 간단하면서도 잘 작동한다.

CNN을 사용해서 Discriminator를 구현하고, deconvolutional network(fearure map 크기 증가)를 통해 Generator를 만든 모델이다.

Fully connected layer와 Pooling layer를 최대한 배제하고 Strided Convolution과 Transposed Convolution으로 네트워크 구조를 만들었다. Fully connected layer와 Max-pooling layer는 매개변수의 수를 줄일 수 있지만 이미지의 위치 정보를 잃어 버릴 수 있다는 단점이 있다.
Generator와 Discriminator에 배치 정규화(Batch Nomalization)을 사용하였다. 이는 입력 데이터가 치우쳐져 있을 경우의 평균과 분산을 조정해주는 역할을 한다. 따라서 back propagation을 시행했을 때 각 레이어에 제대로 전달되도록해 학습이 안정적으로 이루어지는데 중요한 역할을 하였다.
마지막 layer를 제외하고 생성자의 모든 layer에 ReLU activation를 사용하였다. 마지막 layer에는 Tanh를 사용하였다.
Discriminator의 모든 레이어에 LeakyReLU를 사용하였다.

출처: UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS

위의 이미지는 안경 낀 남자 - 안경 안 낀 남자 + 안경 안 낀 여자 = 안경 낀 여자 와 같은 실험의 결과이다.

잠재 공간에서 산술연산을 했을 때 그 결과가 이미지 공간에 반영된다. 위의 예시처럼, 산술연산에서 사용한 latent vector이라는 것은 모델에서 생성된 이미지 중 안경 낀 안자, 안경 안 낀 남자, 안경 안 낀 여자 그룹을 만들고 각 그룹에서 latent vactor의 평균을 구한 값을 의미한다.

DCGAN의 Generator 구조

궁금한 점 : DCGAN에서 왜 Generator와 Discriminator의 활성화 함수 선택이 다르게 설계되었나?

(이 이하는 ChatGPT를 통한 답변입니다)

1. Generator: ReLU + 마지막 Tanh

(1) ReLU를 쓰는 이유

양의 출력에서만 활성화되므로 gradient vanishing 위험이 적음
생성 단계에서 점점 해상도가 높아질수록(업샘플링) 밝은 영역을 적극적으로 만들어내는 데 유리
ReLU는 계산이 단순하고, 깊은 네트워크에서 기울기 흐름이 원활

(2) 마지막 레이어에 Tanh를 쓰는 이유

픽셀 값을 -1 ~ 1 범위로 제한 → 이미지 정규화에 맞춤
출력 범위가 고정되므로 Discriminator가 학습하기 쉬움
Sigmoid보다 gradient saturation이 덜 심함

2. Discriminator: Leaky ReLU

(1) Leaky ReLU를 쓰는 이유

일반 ReLU는 음수 입력에서 gradient가 0 → "Dead Neuron" 문제 발생
Leaky ReLU는 음수에서도 작은 기울기를 남겨 gradient flow를 유지
Discriminator는 진짜/가짜 이미지 둘 다 잘 구분해야 하므로, 음수 영역의 정보도 버리지 않는 게 유리

(2) 왜 Generator에는 안 쓰고 Discriminator에만 쓰나?

Generator는 latent vector를 점점 복잡하게 변형해서 이미지를 만들어야 하므로, 중간 단계에서 음수 값은 굳이 살릴 필요 없음 (ReLU로 양수만 적극적으로 사용)
반면 Discriminator는 입력 이미지에서 나오는 모든 특징(양수/음수 모두)을 살려야 하므로 Leaky ReLU가 유리

DCGAN은 당시 GAN 학습 안정성을 크게 개선했지만, 여전히 몇 가지 한계가 존재하였다:

- 모드 붕괴(Mode Collapse)

Generator가 데이터 분포의 일부 모드만 학습하여 비슷한 이미지만 반복 생성하는 현상이 발생한다. DCGAN의 구조적 개선에도 불구하고 근복적인 GAN 손실 구조 문제는 해결 못하였다.

- 훈련 불안정성

학습 도중 loss가 발산하거나, Generator와 Discriminator가 균형을 잃는다. 이는 Generator가 너무 강하면 Disciminator 또한 무의미해지기 때문이며 그 반대 또한 그러하다. 다음은 Tanh 출력 범위 제한과 배치 정규화를 통해 안정화하였으나 여전히 하이퍼파라미터에 민감하다는 문제점이 있다.

-고해상도 이미지 생성 한계

64*64 같은 저해상도에서는 잘 작동하지만, 고해상도로 갈수록 품질 저하의 문제가 있다. 이는 Upsampling에서 이미지에 바둑판 무늬 같은 패턴이 생기는 Checkerboard Artifact가 발생하기 때문이며 깊은 네트워크로 확장하면 학습 불안정성이 심해지는 이유도 있다.

참조

https://bo-10000.tistory.com/116

[GAN Overview] GAN 주요 모델 정리 (GAN survey 논문 리뷰)

bo-10000.tistory.com

https://baobao.tistory.com/66

GAN 겉햙기 (GAN 종류)

baobao.tistory.com

https://jaejunyoo.blogspot.com/2017/02/deep-convolutional-gan-dcgan-1.html

초짜 대학원생의 입장에서 이해하는 Deep Convolutional Generative Adversarial Network (DCGAN) (1)

Deep Convolutional GAN (DCGAN)에 대한 쉬운 설명 및 소개 / Easy introduction to Deep Convolutional Generative Adversarial Network (DCGAN)

jaejunyoo.blogspot.com

GAN 시리즈 - GAN

duckracoon5z — Wed, 13 Aug 2025 15:09:00 +0900

1. GAN(Generative Adversarial Networks)

GAN(생성적 적대 신경망)은 2014년 Ian Goodfellow에 의해 발표된 기술로, 딥러닝 분야에서 매우 중요한 위치를 차지하고 있다. GAN은 구조 자체의 이해가 어렵지 않기 때문에, 다양한 분야에서 많은 연구자들에 의해 연구가 되어왔다. 아래 이미지는 GAN이 제시된 2014년부터 2020년까지 GAN을 주제로 한 논문 수를 나타내는 차트로, 상당히 빠른 속도로 많은 사람들에게 연구가 되어오고 있음을 확인할 수 있다.

1-1 GAN 기본 개념

위조지폐범과 경찰

위에 그림은 GAN을 설명할 때 자주 등장하는 그림이다. 지폐 위조범은 최대한 진짜같은 지폐를 만들어 경찰을 속이고, 경찰은 위조지폐범이 만들어낸 지폐와 진짜 지폐를 대조하면서 둘을 구분할 수 있는 차이점을 계속해서 찾아내게 된다. 이 과정에서 위조지폐범은 점점 더 정교한 지폐를 만들어 경찰을 속이기 위해 노력하고 경찰은 완벽히 판별하기 위해 더 노력하게 된다. 서로 경쟁적인 학습이 계속되다보면, 어느순간 경찰이 진짜 지폐와 구분할 수 없을 정도로 비슷한 지폐를 만들 수 있게 될 것이다. 이처럼 GAN에서도 생성모델(generator)은 최대한 진짜 같은 데이터를 만들기 위한 학습을 진행하고, 분류모델(discriminator)은 진짜와 가짜를 판별하기 위한 학습을 진행한다. 이 적대적인 관계는 두 모델이 동시에 발전하도록 자극하며, 결과적으로 더 정교하고 현실적인 데이터를 생성할 수 있게 만든다. 이러한 적대적 학습 방식은 GAN의 독창성과 성능의 핵심이다.

Generator & Discriminator

1-2 GAN 원리

확률밀도함수(PDF, Probability Density Function)

먼저 위에 확률밀도함수에 대해 알아보자. 확률밀도함수는 확률변수의 분포를 나타내느 것으로 연속확률변수 x에 대한 f(x)를 의미하는 것이라고 볼 수 있다. 데이터셋들을 학습시킬 때마다 각기 다른 벡터를 가지게 된다.

실데이터 학습을 통한 확률 변수의 분포와 모델이 생성한 이미지가 가지는 확률 변수

이렇게 확률밀도함수가 있을 때, GAN 모델이 생성한 이미지가 가지는 확률밀도함수와 둘 사이의 차이가 줄어들면 줄어들 수록 원래의 실제 이미지와 같아지는 원리라고 할 수 있다. 지폐 위조범이 지폐를 만들 때 임의의 종이가 필요한 것처럼, 실제 GAN의 구현에서도 종이의 역할을 하는 noise가 필요하다. 즉 generator가 하는 가짜 데이터를 만드는 일은 noise로부터 진짜 이미지로 맵핑하는 것이라고 볼 수 있다.

GAN 학습 과정

검은 점선: 원 데이터의 확률분포
녹색 점선: 생성자가 만들어 내는 확률분포
파란 점선: 판별자의 확률분포

파란 점선인 판별자(Discriminator)는 학습이 진행됨에 따라 GAN이 만들어내는 녹색 점선(Generator)와 분포가 동일해지는 것을 확인할 수 있다. 따라서 (d)의 단계에서는 판별자가 진위를 분류하게 되어도 확률이 같기 때문에 분류를 해도 소용 없게 되며 생성자는 실제 데이터와 매우 흡사하게 이미지를 생성할 수 있게 된다.

1-3 GAN 학습 과정

GAN은 생성자와 판별자의 경쟁구도이며, 경쟁을 통해 균형점(nash equilibrium)을 찾는 것이 목표라 할 수 있다. GAN에서 사용되는 수식은 아래와 같이 간단한 형태이다. G(Generator)를 minimize하고 D(Discriminator)를 maximize한다고 생각하면 된다.

x : 실제 데이터 포인트
z : 잠재 공간(latent space)에서 샘플링된 랜덤 노이즈 벡터
G(z): 생성자 G가 랜덤 노이즈 z를 입력받아 생성한 가짜 데이터(이미지)
D(x): 판별자 D가 입력 데이터 x에 대해 출력하는 해당 데이터가 진짜일 확률

- 진짜 이미지가 입력인 경우

진짜 이미지를 진짜로 판단한 경우

D(x) = 0.9 (실제 이미지 x에 대해 판별자가 0.9의 값을 출력)
손실 값: -log(0.9)≈ 0.105

진짜 이미지를 가짜로 판단한 경우(높은 Loss이어야 함)

D(x) = 0.1
손실 값: -log(0.1) = 1.0

- 가짜 이미지가 입력인 경우

가짜 이미지를 가짜로 판단한 경우

D(G(z)) = 0.2
손실 값: -log(1–0.2) = -log(0.8) ≈ 0.223

가짜 이미지를 진짜로 판단한 경우(높은 Loss이어야 함)

D(G(z)) = 0.8
손실 값: -log(1–0.8) = -log(0.2) = 1.609

따라서 판별자의 최종 손실은 진짜 이미지와 가까 이미지에 대한 손실 값을 모두 합하여 계산된다.

첫 번째 항은 실제 데이터 x에 대해 판별자가 1에 가까운 값을 출력하도록 한다(최대화)

두 번째 항은 생성된 가짜 데이터 G(z)에 대해 판별자가 0에 가까운 값을 출력하도록 한다(최소화)

Case 1: D(x)를 1로 만드는 경우 (판별자가 모든 것을 분류 가능한 경우)

D(x)=1인 상황은 logD(x)를 0으로 만드려는 것과 같다. D(x)=1이라는 의미는 판별자가 모든 것을 다 올바르게 Real/Fake 분류를 할 수 있음을 의미한다. 이렇게 되면 동시에 D(G(z))=1이 된다. 그 이유는 G가 아무리 진짜와 같은 이미지를 생성하더라도 D가 100%의 확률로 전부 잡아낼 수 있기 때문이다. 결과적으로 수식의 앞 부분은 logD(x)는 0이 되어 사라지고, 뒷 부분은 log(1-1)이 되어 무한에 수렴하게 된다. (log 함수 그래프 참조)

Case 2: G(z)를 1로 만드는 경우 (판별자가 모든 것을 분류하지 못하는 경우)

G(z)=1인 상황은 생성자 G가 실제와 구분하지 못할 정도로 흡사하게 만들어 판별자 D가 하나도 구분하지 못하는 상황과 같다. 이렇게 되면 수식의 앞 부분인 logD(x)는 log0이 되어 무한에 수렴하게 되고, 뒷 부분인 log(1-D(G(z))는 0이 되어 사라지게 된다. (이 상황의 경우 minmax요소가 바뀜. min→D, max→G)

1-3 GAN의 장단점

장점

- 고품질의 이미지 생성

GAN은 매우 정교하고 현실적인 이미지를 생성할 수 있다.

- 다양한 응용 가능성

이미지 생성, 데이터 증강, 스타일 변환 등 다양한 분야에 활용할 수 있다.

단점

- 학습 불안정성

GAN epoch에 따른 loss

GAN은 generator와 discriminator가 서로가 서로를 속이는 과정에서 generator가 data distribution에 근사하는것을 목적으로 한다. 하지만, 번갈아가면서 업데이트를 진행하는 특성상 generator가 좋아지면 discriminator도 좋아지고, discriminator가 좋아지면 generator도 좋아지고, 서로가 서로의 분포에 근사해가면서 끝나지않는 숨바꼭질을 무한히 반복하게 된다. 이로인해 discriminator, generator 모두 서로 자리를 바꾸어가며 쫓아다니게 되고, global optimum에 수렴하지 못하게 된다. 이런 현상을 oscilation이라고 한다.

- 모드 붕괴

상 : unrolledGAN, 하 : vanilla GAN

GAN을 training 할 때 보여주는 많은 수의 training set 중에서 우연히 딱 하나의 training image 와 비슷한 image 를 generation 했다고 가정해본다. 그렇게되면, 그 이미지와 비슷한 결과물을 냈으니 그 이미지와 최대한 비슷하게 만드는 쪽으로 gradient update가 일어나게 되고 , 상당히 많은 수의 training set을 보여줬음에도 불구하고 몇 가지 이미지에 대해서만 비슷한 결과물을 생성하게 된다.

- 손실값 모니터링의 어려움

GAN의 손실 함수를 모니터링하기 어려워 학습 과정을 추적하는 데 어려움이 있다.

1-4 GAN 실습 코드

https://colab.research.google.com/drive/12CqGv89Z14jXR5RHLFI9XAEXQ4YhlK5R?source=post_page-----a073a5425ef2---------------------------------------#scrollTo=GwIcTTcmRejK

[Hands-On] Understanding GAN and Implementation.ipynb

Colab notebook

colab.research.google.com

2. GAN 시리즈

GAN의 종류는 많고 또 그 종류마다 쓰임새 또한 다르다고 말할 수 있다.

참조

https://medium.com/@hugmanskj/gan%EC%97%90-%EB%8C%80%ED%95%9C-%EC%9D%B4%ED%95%B4-a073a5425ef2

GAN에 대한 이해

생성적 적대 신경망(GAN)의 기본 개념, 훈련 방법, 응용 사례를 실용적인 예제와 구현 팁과 함께 살펴보세요.

medium.com

https://roytravel.tistory.com/109

[컴퓨터 비전] All About GAN (Generative Adversarial Nets)

1. GAN 모델 개요 GAN이란 무엇인가? GAN은 Generative Adversarial Nets이라는 논문을 통해 나온 모델로 위와 같이 진짜와 동일해 보이는 이미지를 생성하는 모델이다. 그렇다면 우선 GAN은 언제 만들어졌고

roytravel.tistory.com

https://woochan-autobiography.tistory.com/935

GAN (Generative Adversarial Network)

GAN (Generative Adversarial Network) GAN은 Data를 만들어내는 Generator와 만들어진 Data를 평가하는 Discriminator가 서로 대립(Adversarial)적으로 학습해가며 성능을 점차 개선해 나가자는 개념이다. 여기서 GAN의

woochan-autobiography.tistory.com

https://bo-10000.tistory.com/116

[GAN Overview] GAN 주요 모델 정리 (GAN survey 논문 리뷰)

bo-10000.tistory.com

https://wikidocs.net/146217

2) Generative Adversarial Networks (GANs)

## Background GAN은 2014년, Ian Goodfellow의 "Generative Adversarial Network"라는 논문에서 처음 제시되었습니다. CNN의 …

wikidocs.net

https://baobao.tistory.com/66

GAN 겉햙기 (GAN 종류)

baobao.tistory.com

OCR

duckracoon5z — Thu, 31 Jul 2025 17:00:53 +0900

1. OCR(Optical Character Recognition)

1-1 OCR이란?

OCR(광학 문자 인식)은 자동화된 데이터 추출을 사용하여 텍스트 이미지를 기계가 읽을 수 있는 형식으로 빠르게 변환하는 기술이다. OCR 모델의 구조는 text detection(글자 위치 찾기)와 text recognition(어떤 글자 인지를 인식) 이렇게 두 개로 구성되어있다.

OCR은 스캐너를 사용하여 문서의 물리적 형태를 편집 가능한 디지털 텍스트로 재처리한다. 그 순서는 아래와 같다 :

이미지 획득 : 모든 문서 페이지를 복사한 다음 OCR 엔진이 디지털 문서를 2색 또는 흑백 버전으로 변환 후, 밝은 영역과 어두운 영역 분석한다.

전처리 : 디지털 이미지를 정리하여 외부 픽셀을 제거한다.

텍스트 인식 : 어두운 영역을 기준으로 한 번에 하나의 문자, 단어 또는 텍스트 블록을 대상으로 작업한다. 그 다음 패턴 인식 또는 기능 인식의 두 가지 알고리즘 중 하나를 통해 식별한다.

- 패턴 인식 : OCR 프로그램은 스캔한 문서 또는 이미지 파일의 템플릿과 비교하여 문자를 인식할 수 있도록 다양한 글꼴과 형식의 텍스트 예시에 대해 학습되었다. 이 기능이 작동하기 위해서는 OCR 프로그램에서 이미 학습된 글꼴로 되어 있어야 한다. 다양한 문자를 사용하는 언어를 고려할 때 모든 글꼴과 언어 조합에 대한 학습은 엄청난 시스템 소모가 된다.

- 기능 인식 : OCR 프로그램이 학습되지 않은 글꼴을 분석할 때 사용한다. OCR은 스캔한 문서의 문자를 인식하기 위해 특정 문자 도는 숫자의 기능에 관한 규칙을 적용한다. 기능에는 문자의 사선, 교차선, 루프 도는 곡선의 수가 포함된다. 문자가 식별되면 컴퓨터 시스템에서 추가 조작을 처리하는 데 사용하는 ASCII코드로 변환된다.

레이아웃 인식 : 페이지를 텍스트 블록, 표 또는 이미지와 같은 요소로 나눈다.선은 단어로 구분된 다음 문자로 구분된다. 문자가 선별되면 프로그램은 이를 일련의 패턴 이미지와 비교한다. 일치할 가능성이 있는 모든 항목을 처리한 후 프로그램은 인식된 텍스트를 반환한다.

후처리 : 수집된 정보는 편집 가능한 형식 또는 PDF인 디지털 파일로 저장된다. 일부 시스템은 보다 완벽한 문서 관리를 위해 입력 이미지와 OCR 이후 버전을 모두 유지한다.

1-2 OCR 알고리즘 유형

1) Two stage algorithm : OCR Text Dectetion과 Text Recognition을 분리해서 학습 Pipeline 구성

우선 글자를 검출하는 Text Detection은 Object Detection 테스크를 문자 찾기로 확장한 영역이다. Input에는 전체 이미지를 넣고, Output으로는 텍스트가 있는 Bounding Box를 뽑아낸다. 이 때 CNN 기반 모델 알고리즘을 활용한다.

다음 글자를 인식하는 Text Recognition은 검출된 문자가 텍스트로 무엇인지 가려내는 단계이다. Input으로는 텍스트만 있는 이미지가 들어가고, Output으로는 텍스트가 출력된다. 이 때 활용되는 모델로는 attention을 활용한 RNN 계열 모델, Transformer 그리고 CRNN이 있다.

이 알고리즘에서 발생할 수 있는 문제점으로는 글자 검출에서 Bounding Box가 잘못된 경우 글자 인식도 잘못될 경우가 있다. 그 다음은 두 단계가 각자 다른 backbone(특징 추출기)을 쓸 수 있다. 예를 들자면 Detection은 CNN 기반의 ResNet으로 특징을 뽑고, Recognition은 또 다른 CNN+RNN 기반의 구조에서 다시 이미지를 처리한다는 말이다. 이는 즉 같은 이미지를 두 번 다르게 처리하는 구조가 되는 것이다. 이 둘을 하나로 합치는 접근 방식이 E2E OCR 방법론이 된다.

2) End-to-End Scene Text Detection & Recognition : Detection과 Recognition 한번에 E2E OCR 방법론

이 방식의 특징으로는 Input으로 전체 이미지를 넣고 Output으로 텍스트가 있는 Bounding Box와 텍스트를 같이 추출한다. 검출과 인식을 한번에 진행함으로서 모델 학습 업데이트 측면에서 편리하게 된다. Image Backbone을 공유함으로서 두 번의 Image Backbone Forward를 거칠 필요가 없어진다. 예시 알고리즘으로는 FOTS(Fast Oriented Text Spotting with a Unified Network) 그리고 DEER (Detection agnostic End to End Recognizer)이 있다.

(FOTS와 DEER 아래 참조)

https://cat-uni.tistory.com/37

FOTS : Fast Oriented Text Spotting with a Unified Network

-개요 / 차별점- 기존에는 Text Detection -> Text Recognition 의 2 stage 모델이 많이 발전했다면, 이 논문에서 말하는 Text Spotting 은 두 stage 를 한번에 하는 것이다. 이렇게 Text Spotting 을 하게 되면, 1. cost 를

cat-uni.tistory.com

https://ainotes.tistory.com/22

DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting

" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 이번글에는 NAVER Clova 팀에서 발표한 DEER: Detection-agnostic End-to-End Recognizer for Scene Text Spotting 라는 모델에 대해 정리해봤습니다.DETR을 기반으로

ainotes.tistory.com

2. OCR-VQA

OCR-VQA는 OCR 기술을 기반으로, 이미지 내의 텍스트 정보를 이해하고 해당 정보를 바탕으로 질문에 응답하는 시각 질문응답 과제이다. 이를 위해 OCR-VQA 모델은 이미지 입력을 받아 텍스트 추출 알고리즘을 적용하고, 추출된 텍스트를 자연어 처리 기술을 이용하여 의미 분석을 수행한다. 그리고 질문과 이미지 속 텍스트를 비교하여 정확한 답변을 도출한다.

OCR-VQA 모델은 주로 딥러닝과 자연어 처리 기법을 사용하여 구축되며, 이미지 처리와 텍스트 처리를 결합한 형태다. OCR-VQA 모델은 미리 학습된 신경망을 구성하여 이미지 속 텍스트를 추출하고, 추출된 텍스트와 질문의 의미를 분석하여 답변을 생성한다. OCR-VQA 모델의 훈련 방법은 크게 이미지 속 텍스트 추출 및 분석, 질문과 텍스트의 비교, 답변 생성 과정으로 나뉜다. 훈련 데이터로는 이미지와 그에 대한 질문, 그리고 정답으로 구성된 데이터셋이 사용된다. 이 데이터셋을 이용하여 OCR VQA 모델을 학습시키고, 정확한 답변을 생성할 수 있도록 한다.

3. OCR-VQA와 TextVQA와의 상관관계

구분	설명
공통점	- 둘 다 이미지 내 텍스트 인식(OCR)이 필수다 - 시각 정보와 문자를 결합해 이해하는 능력을 요구된다 - 대부분 scene-text 기반 VQA 모델로 해결된다
기술 공유	- OCR 인식기 + VQA 모델이라는 파이프라인을 유사하게 사용된다 - 문자를 추출한 후 텍스트 reasoning 수행하는 구조가 동일하다 - TrOCR, M4C, Donut 같은 모델은 양쪽에 모두 적용 가능하다
차이점으로 인한 보완성	- OCR-VQA는 문서에 가까운 이미지이기 때문에, 정형 텍스트 기반 reasoning - TextVQA는 자연 이미지이므로 비정형 텍스트 + 장면 이해가 필요하다. 따라서 하나만으로는 전체 scene-text 이해가 부족하다
공통 목표	- "이미지 속 문자와 문맥을 모두 활용한 질문 응답"이라는 목표 공유하고 있다 - 결국 둘 다 텍스트 인식 + 시각적 맥락 reasoning의 문제로 귀결된다

예를 들자면 TextVQA의 경우,

[가게 사진]

Q : 이 가게의 이름은 무엇인가요?

= 이미지 속 간판에 있는 글자를 OCR로 읽고, 맥락과 함께 해석이 필요하다

반면에 OCR-VQA의 경우,

[책 표지 이미지]

Q : 이 책의 저저는 누구인가요?

= OCR로 텍스트를 읽은 뒤, 제목/저자/출판사 등을 구분하여 reasoning이 필요하다

결국 둘 다 OCR기반이며 문맥적 reasoning이 필요하지만, 적용 장면과 데이터 도메인이 다르다. 다만 OCR-VQA와 TextVQA는 모두 이미지 내 텍스트를 기반으로 질문에 답하는 테스크이며, 기술적 구조와 목표가 유사하여 서로 높은 상관관계를 가진다.

참조

https://www.ibm.com/kr-ko/think/topics/optical-character-recognition

광학 문자 인식(OCR)이란 무엇인가요? | IBM

광학 문자 인식은 자동화된 데이터 추출과 스토리지 기능을 활용하여 시간, 비용 및 기타 리소스를 절약합니다.

www.ibm.com

https://huidea.tistory.com/312

[1] OCR(Optical Character Recognition) 의 모델 구조, 평가 방법, 사용가능한 API

이번 게시물에서는 OCR(Optical Character Recognition) 의 모델 구조, 평가 방법, 사용가능한 API 종류에 대해 설명하고 다음 게시물에서 각 API 별 장단점과 실제 데이터로 성능을 비교한 결과를 공유하

huidea.tistory.com

https://www.themoonlight.io/ko/review/viocrvqa-novel-benchmark-dataset-and-vision-reader-for-visual-question-answering-by-understanding-vietnamese-text-in-images

[논문 리뷰] ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese

## ViOCRVQA 논문 상세 분석 (한국어) 안녕하세요! ViOCRVQA 논문에 대한 깊이 있는 분석을 요청하셨습니다. 자세한 설명과 함께 핵심 방법론을 기술적인 용어로 풀어 설명드리겠습니다. **1. 논문 개요

www.themoonlight.io

https://www.toolify.ai/ko/ai-news-kr/m3u7ls5gmgcgyqarr7wxczlmgprtdjvg-435241

이미지 내 텍스트 읽기에 의한 시각적 질문 답변 (연구 논문 요약)

이미지 내 텍스트 읽기에 의한 시각적 질문 답변 (연구 논문 요약) var pageOptions = { "pubId": "partner-pub-6153228957310599", "styleId": "1388998650", "relatedSearchTargeting": "content", "resultsPageBaseUrl": "https://www.toolify.ai

www.toolify.ai

https://ocr-vqa.github.io/

OCR-VQA

Bibtex If you use this dataset, please cite: @InProceedings{mishraICDAR19, author = "Anand Mishra and Shashank Shekhar and Ajeet Kumar Singh and Anirban Chakraborty", title = "OCR-VQA: Visual Question Answering by Reading Text in Images", booktitle = "ICDA

ocr-vqa.github.io