티스토리 뷰

용어 정리

ViT

duckracoon5z 2025. 7. 28. 22:51

1. ViT

ViT

 

ViT(Vision Transformer)는 이미지 분류 및 기타 컴퓨터 비전 테스크에 사용되는 딥러닝 모델이다. 전통적인 CNN과 달리, ViT는 트랜스포머 아키텍처를 기반으로 한다. 트랜스포머는 원래 자연어 처리(NLP) 분야에서 사용되었지만, ViT는 이를 이미지 분석에 적용한다. 이 모델은 입력 이미지를 작은 패치로 나누고, 이 패치들을 시퀀스 데이터처럼 처리한다. 각 패치는 Transformer의 인코더에 입력되어 상호 관계와 중요도를 학습한다. ViT는 이미지의 글로벌한 컨텍스트를 효과적으로 포착할 수 있어, 특히 대규모 데이터셋에서 뛰어난 성능을 보인다.  

 

2. ViT vs CNN

ViT와 CNN은 모두 컴퓨터 비전의 기본 아키텍처이지만 접근 방식은 크게 다르다:

 

귀납적 편향

CNN은 컨볼루션과 풀링 레이어를 통해 지역성 및 번역 등가성과 같은 강력한 귀납적 편향(데이터에 대한 가정)을 가지고 있다. ViT는 귀납적 편향이 훨씬 약하기 때문에 더 유연하지만 데이터에서 직접 학습 패턴에 더 많이 의존한다.

 

데이터 의존성

편향성이 약하기 때문에 일반적으로 ViT는 방대한 데이터 세트 (예: ImageNet-21k)나 광범위한 사전 학습을 통해 최신 CNN을 능가하는 성능을 발휘할 수 있다. 데이터 세트가 작을수록 CNN이 더 잘 일반화되는 경우가 많다. 이것이 바로 전이 학습이 ViT에 중요한 이유이다.

 

글로벌 컨텍스트와 로컬 컨텍스트

CNN은 로컬 패턴에서 글로벌 패턴에 이르기까지 계층적 특징을 구축한다. 반면, ViT는 가장 초기 계층부터 패치 간의 글로벌 상호작용을 모델링할 수 있으므로 특정 작업에 대해 더 광범위한 컨텍스트를 더 효과적으로 포착할 수 있다.

 

계산 비용

인공 지능 트레이닝은 계산 집약적일 수 있으며, 종종 상당한 GPU 리소스를 필요로 한다.

 

3. Method

# 시각적으로 잘 설명되어서 아래 참조

 

https://discuss.pytorch.kr/t/vision-transformer-a-visual-guide-to-vision-transformers/4158

 

Vision Transformer에 대한 시각적 설명 (A Visual Guide to Vision Transformers)

:pytorch:PyTorchKR🇰🇷 Data Scientist이자 Software Engineer인 Dennis Turp의 허락 하에, 그가 작성한 Vision Transformer(ViT)에 대한 시각적 설명 글(A Visual Guide to Vision Transformers)을 번역하였습니다. Vision Transformer(V

discuss.pytorch.kr

 

4. 분야

 

ViT는 특히 글로벌 컨텍스트를 이해하는 것이 중요한 다양한 애플리케이션에서 탁월한 성능을 보여줬다.

  • 의료 영상 분석: ViT는 MRI나 조직 병리 이미지와 같은 의료 스캔을 분석하는 데 매우 효과적이다. 예를 들어, 종양 검출에서 ViT는 멀리 떨어진 조직 간의 관계를 식별하여 국소적인 질감에만 초점을 맞춘 모델보다 종양을 더 정확하게 분류할 수 있다.
  • 자율 주행: 자율주행차에서 ViT는 복잡한 장면을 분석하여 물체를 감지하고 세분화할 수 있다. 전체 장면을 전체적으로 처리함으로써 차량, 보행자, 인프라 간의 상호 작용을 더 잘 이해할 수 있으며, 이는 여러 자동차 AI 연구에서 자세히 설명한다.

ViT의 성공은 하이브리드 아키텍처에도 영감을 줬다. RT-DETR과 같은 모델은 효율적인 특징 추출을 위한 CNN 백본과 객체 관계를 모델링하기 위한 Transformer 기반 인코더-디코더를 결합한다. 이 접근 방식은 CNN의 효율성과 트랜스포머의 글로벌 컨텍스트 인식이라는 두 가지 장점을 모두 확보하는 것을 목표로 한다.

 

참조

https://wikidocs.net/219121

 

ViT: Vision Transformer (비전 트랜스포머)

ViT(Vision Transformer)는 [이미지 분류](120210) 및 기타 [컴퓨터 비전](120067) 태스크에 사용되는 딥러닝 모델이다. 전통적인 [컨볼루셔널 신경망…

wikidocs.net

https://www.ultralytics.com/ko/glossary/vision-transformer-vit

 

비전 트랜스포머(ViT) 설명 | Ultralytics

컴퓨터 비전에서 비전 트랜스포머(ViT)의 강력한 성능을 알아보세요. 글로벌 이미지 컨텍스트를 캡처하여 CNN보다 뛰어난 성능을 발휘하는 방법을 알아보세요.

www.ultralytics.com

https://daebaq27.tistory.com/108

 

[Paper Review] Vision Transformer (ViT)

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 오늘 리뷰할 논문은 Vision Transformer입니다. 이미지 분류에 Transformer 구조를 성공적으로 적용시킨, 매우 유명한 논문입니다. 2021년 ICLR에서

daebaq27.tistory.com

 

'용어 정리' 카테고리의 다른 글

VQA 시리즈  (3) 2025.07.30
LLM, LMM, LAM  (3) 2025.07.29
CLIP과 BLIP  (5) 2025.07.23
SOTA(State Of The Art)  (0) 2025.07.23
Diffusion Model과 Stable Diffusion  (0) 2025.07.23
최근에 올라온 글
링크
글 보관함