October 6, 2025By 최호2 min read378 words

Generative Adversarial Nets

Technology

🧠 Generative Adversarial Networks: 생성 모델의 전환점

Ian Goodfellow et al., “Generative Adversarial Nets,” NeurIPS 2014.

1️⃣ 서론 — 생성 모델의 새로운 패러다임

딥러닝의 급격한 발전 이후, 연구의 초점은 “인식(recognition)”에서 “생성(generation)”으로 옮겨갔다.

기존의 확률적 생성 모델(예: Variational Autoencoder, Boltzmann Machine)은

모델링 과정의 복잡성과 likelihood 계산의 어려움으로 인해 실용적 한계를 보였다.

2014년 Goodfellow가 제안한 Generative Adversarial Network (GAN) 은

이러한 제약을 극복하며 명시적 확률분포 없이 데이터를 직접 생성하는 새로운 접근 방식을 열었다.

GAN은 두 네트워크 간의 적대적 학습(adversarial training) 을 통해

고차원 데이터 분포를 근사하는 비지도 학습 프레임워크다.

2️⃣ 기본 원리 — 적대적 학습(Adversarial Training)

GAN은 Generator (G) 와 Discriminator (D) 로 구성된다.

Generator G(z):

잠재 벡터 z∼pz(z)z \sim p_z(z)z∼pz(z)를 입력받아 데이터 공간으로 매핑, 가짜 샘플 생성
Discriminator D(x):

입력 xxx가 실제 데이터인지, 생성된 가짜인지 판별

두 네트워크는 다음의 미니맥스 게임으로 정의된다.

min⁡Gmax⁡DV(D,G)=Ex∼pdata(x)[log⁡D(x)]+Ez∼pz(z)[log⁡(1−D(G(z)))]\min_G \max_D V(D, G) = \mathbb{E}{x \sim p{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]

GminDmaxV(D,G)=Ex∼pdata(x)[logD(x)]+Ez∼pz(z)[log(1−D(G(z)))]

이 과정에서

D는 진짜 데이터를 올바르게 분류하려 하고,
G는 D를 속일 수 있는 데이터를 만들어낸다.

학습이 충분히 진행되면,

이론적으로 pg=pdatap_g = p_{data}pg=pdata일 때 D(x) = 0.5 가 되어 더 이상 구분 불가능한 상태에 도달한다.

3️⃣ 학습의 불안정성과 개선 시도

GAN의 가장 큰 약점은 학습 불안정성이다.

두 네트워크의 학습 균형이 맞지 않으면 gradient vanishing 또는 mode collapse 현상이 발생한다.

(1) Mode Collapse

→ Generator가 특정 패턴만 반복 생성, 다양성이 사라짐

(2) Gradient Vanishing

→ Discriminator가 과도하게 우세할 경우, Generator의 학습 신호가 사라짐

이 문제를 해결하기 위해 수많은 변형 모델이 제안되었다.

4️⃣ 주요 변형 모델 및 기술적 진화

연도	모델	주요 기여	핵심 기술
2015	DCGAN	CNN 기반 구조 제안	Conv/Deconv, BatchNorm
2017	WGAN	학습 안정화, 지표 개선	Wasserstein Distance, Weight Clipping
2017	WGAN-GP	Gradient Penalty 도입	Lipschitz 제약 완화
2017	CycleGAN	비지도 이미지 변환	Cycle Consistency Loss
2018	StyleGAN	스타일 제어 기반 생성	Style-based architecture, AdaIN
2019	BigGAN	대규모 학습 안정화	Spectral Norm, Orthogonal Reg.

💬 DCGAN (Radford et al., 2015)

CNN 구조를 이용해 GAN 학습을 안정화.

Fully Connected Layer를 제거하고, BatchNorm과 LeakyReLU를 도입함으로써

이미지 생성 품질이 비약적으로 향상되었다.

💬 WGAN (Arjovsky et al., 2017)

Jensen–Shannon divergence 대신 Wasserstein distance (Earth Mover’s distance) 사용.

이로써 학습 안정성과 loss와의 상관성이 확보되어

“GAN loss가 의미 있는 수렴 곡선”을 갖게 되었다.

W(pdata,pg)=inf⁡γ∈Π(pdata,pg)E(x,y)∼γ[∥x−y∥]W(p_{data}, p_g) = \inf_{\gamma \in \Pi(p_{data}, p_g)} \mathbb{E}_{(x, y) \sim \gamma} [|x - y|]

W(pdata,pg)=γ∈Π(pdata,pg)infE(x,y)∼γ[∥x−y∥]

💬 StyleGAN (Karras et al., 2019)

Latent space를 스타일 공간으로 변환해,

세부 수준별 제어가 가능한 “style-based generator” 구조를 도입했다.

이를 통해 얼굴 합성, 질감 변형 등에서 인간 수준의 사실감을 달성했다.

5️⃣ 평가 지표의 진화

GAN의 품질을 객관적으로 평가하기 위해 다양한 지표가 제안되었다.

지표	의미	단점
Inception Score (IS)	다양성과 명확도 평가	실제 분포와의 차이 반영 불가
Fréchet Inception Distance (FID)	두 분포 간 거리	이미지 도메인 종속성 존재
Precision & Recall for GANs	생성 다양성/품질 동시 평가	계산 복잡도 높음

현재는 FID가 가장 널리 사용되는 표준 지표로 자리잡았다.

6️⃣ GAN의 응용 영역

이미지 합성 및 변환: DeepFake, Face Aging, Super Resolution
데이터 증강: 의료 영상, 자율주행 데이터 보강
도메인 전환: 낮↔밤, 여름↔겨울 이미지 변환
Representation Learning: 비지도 특징 추출

최근에는 GAN이 Diffusion Model에 비해 주목도는 줄었으나,

샘플 효율성과 실시간성 측면에서 여전히 강점을 보인다.

7️⃣ Diffusion Model과의 비교

항목	GAN	Diffusion
학습 안정성	낮음	높음
학습 속도	빠름	느림
생성 품질	일부 노이즈 잔존	매우 고품질
샘플링 속도	빠름 (1-step)	느림 (수백 step)

Diffusion이 품질 면에서는 우위지만,

GAN은 여전히 실시간 영상 생성, 모바일 환경, 제한된 데이터셋 학습에 유리하다.

8️⃣ 결론 및 전망

GAN은 생성 모델 연구의 방향성을 완전히 바꿔놓은 기념비적 기술이다.

그 자체의 한계(불안정한 학습, 평가 지표의 모호성)에도 불구하고

생성적 패러다임의 서막을 연 모델이라는 점에서 그 의의는 여전히 크다.

최근 연구들은 GAN을 완전히 대체하기보다는,

Diffusion 모델과의 하이브리드 구조(예: Diffusion-GAN, MaskGIT 등)로 진화하는 추세다.

결국 GAN은 “끝난 기술”이 아니라,

생성 인공지능의 근본 철학을 담고 있는 출발점이라 할 수 있다.

📚 참고문헌

Goodfellow, I. et al. Generative Adversarial Nets. NeurIPS 2014.
Radford, A. et al. DCGAN: Unsupervised Representation Learning with Deep Convolutional GANs. arXiv 2015.
Arjovsky, M. et al. Wasserstein GAN. ICML 2017.
Karras, T. et al. A Style-Based Generator Architecture for GANs. CVPR 2019.
Heusel, M. et al. GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium. NeurIPS 2017.