LLM, LMM, LAM

티스토리 뷰

용어 정리

LLM, LMM, LAM

duckracoon5z 2025. 7. 29. 16:23

1. LLM(Large Language Model)

대형 언어 모델(LLM)은 주로 텍스트 데이터를 기반으로 하는 모델이다. 이 모델의 기본 목표는 자연어 처리를 통해 텍스트를 이해하고 생성하는 것이다. GPT-4와 같은 모델이 대표적인 예로, LLM은 방대한 양의 텍스트 데이터를 학습하여 언어 구조를 이해하고 자연스러운 문장을 생성할 수 있다. LLM은 텍스트 데이터를 분석하고, 그 속의 패턴을 학습해 새로운 텍스트를 생성하는 데 특화되어있다. 이는 질문에 답변하거나 문장을 번역하고 특정 주제에 대해 글을 작성하는 등의 작업에 적용된다.

2024년 LLM 기술의 주요 발전 방향은 크게 네 가지로 요약할 수 있다. 첫째, 모델의 성능 향상이다. GPT-4o와 Google의 Gemini 모델이 LMSYS Chatbot Arena 리더보드에서 공동 1위를 차지할 정도로 성능이 향상되었다. 둘째, 개발자를 위한 기능이 수렴되었다. 함수 호출, 제약 디코딩 등 공통 기능이 표준화되기 시작했다. 셋째, 효율성의 향상이다. 단순히 모델 크기를 키우는 것이 아니라 파라미터 효율성을 높이는 방향으로 연구가 진행되었다. 마지막으로 소형 언어 모델(Small Language Models)의 등장이다. 대형 모델의 능력을 유지하면서도 더 작은 크기와 비용으로 운영할 수 있는 모델들이 개발되었다.

2025년 초, LLM 시장은 성숙기에 접어들고 있으며 OpenAI의 GPT-4.5 Orion과 같은 모델들은 에너지 소비 감소, 개선된 추론 능력, 더 긴 컨텍스트 윈도우 등의 특징을 같출 것으로 예상된다. 그러나 이러한 발전에도 불구하고 LLM은 여전히 텍스트 기반의 제한적인 상호작용만 가능하다는 한계가 있으며, 이는 LMM과 LAM의 등장 배경이 되었다.

LLM의 기술적 아키텍처는 주로 트랜스포머 기반의 인코더-디코더 구조를 사용한다. 이러한 구조는 대규모 텍스트 데이터를 효과적으로 처리할 수 있게 해주지만, 이미지나 오디오와 같은 다른 형태의 데이터를 직접 처리하기에는 한계가 있다. 이런한 한계를 극복하기 위해 등장한 것이 LMM이다.

2.LMM(Large Multimodal Model)

대형 멀티모달 모델(LMM)은 텍스트 뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 통합적으로 처리할수 있는 인공지능 모델이다. 멀티모달이란 서로 다른 형태의 데이터를 동시에 이해하고 처리할 수 있는 능력을 의미하며, LMM은 이를 통해 LLM보다 더 풍부하고 다양한 정보 처리가 가능하다.

LLM의 작동 원리는 크게 세 가지 모듈로 나눌 수 있다. 첫째, 입력 모듈은 각 모달리티 별로 특화된 신경망을 통해 데이터를 처리하낟. 텍스트는 자연어 처리 모델, 이미지는 합성 신경망(CNN), 오디오는 RNN 또는 트랜스포머 등이 사용된다. 둘째, 퓨전 모듈은 각 입력 모듈의 출력을 단일 표현으로 결합한다. 마지막으로 출력 모듈은 이 병합된 표현을 예측, 결정 또는 응답 형태로 변환한다.

Flamingo는 2022년 발표된 모델로, 사전 학습된 이미지 인코더와 언어 모델을 결합하여 대화형 형식으로 이미지에 대한 질문에 답할 수 잇는 능력을 갖추었다. BLIP-2는 2023년 초에 발표되었으며, Q-Former라는 구성 요소를 사용하여 이미지 인코더와 LLM을 연결한다.

LLaVA는 2023년에 발표된 LMM으로, 클립 사전 학습된 시각적 인코더와 LLM 간에 단일 선형 투영 레이어만 있는 간단한 아키텍처를 갖추고 있다. 이 모델은 복잡한 추가 구성 요소 없이도 뛰어난 결과를 달성하며, 부분적으로 합성 데이터로 학습될 때 우수한 성능을 발휘한다.

LMM은 LLM에 비해 더 풍부한 정보 처리가 가능하지만, 모델 복잡도와 계산량 측면에서는 더 많은 자원을 필요로 한다는 한계가 있다. 또한 양질의 멀티모달 데이터셋 수집과 정제의 어려움, 분산 학습 기술의 필요성, 블랙박스적 특성으로 인한 설명 가능성 부족 등의 도전 과제가 존재한다. 이러한 한계에도 불구하고 LMM은 의료 영상 분석, 자율주행 자동차, 교육 엔터테인먼트 등 다양한 분야에서 혁신을 가져올 것으로 기대된다.

3.LAM(Large Action Model)

대형 액션 모델(LAM)은 인공지능 발전의 가장 최근 단계로, 인간의 의도를 이해하고 이를 특정 환경이나 시스템 내에서 행동으로 옮길 수 있는 AI 모델이다. LAM은 단순히 텍스트나 멀티모달 콘텐츠를 생성하는 것을 넘어 실제 작업을 수행할 수 이는 능력을 가지고 있다.

LAM의 작동 원리는 크게 세 단계로 구성된다. 첫째, Grounding Stage(환경 입력)에서 LAM은 주변 환경을 관찰하고 사용자의 행동 패턴, 화면 상태 등을 파악한다. 둘째, Analyse Stage(프롬프트 엔지니어링)에서는 관찰한 정보를 분석하고 사용자의 필요를 파악한다. 마지막으로 Exeution Stage(실행)에서는 실제로 행동을 취하고 그 결과를 평가한다. 이 과정을 통해 LAM은 자체 개선을 특징으로 하는 관찰, 의사 결정, 액션, 개선의 순환 구조를 갖는다.

LAM의 기술적 구현은 여러 계층으로 이루어져 있다. 기반 계층으로 강력한 LLM을 통합하여 자연어 입력을 이해하고 사용자 의도를 추론한다. 멀티모달 입력 처리 계틍에서는 텍스트, 이미지 등 다양한 형태의 입력을 처리하며, 목표 추론 계층에서는 사용자의 요청을 분석하여 수행할 행동을 결정한다.

LAM과 LLM의 가장 큰 차이점은 행동 수행 능력이다. LLM이 텍스트를 생성하는 데 초점을 맞춘다면, LAM은 사용자의 의도를 파악하고 이를 실제 행동으로 옮길 수 있다. LLM은 아직 초기 단계이지만, 향후 고객 서비스, 헬스 케어, 교육 등 다양한 분야에서 혁신을 가져올 것으로 예상된다.

4. LLM & LMM & LAM

항목	LLM	LMM	LAM
주된 입력	텍스트	텍스트 + 이미지 등	멀티모달 + 사용자 피드백
주된 출력	텍스트	텍스트 또는 멀티모달	정렬된 출력 (인간 선호 기반)
대표 기술	GPT, LLaMA 등	CLIP, Flamingo, GPT-4V	AlignGPT, OpenFlamingo with RLHF 등
주요 목적	언어 이해 및 생성	복합 정보 이해	사용자 의도에 부합
사용 위치	대부분의 AI 챗봇	이미지 이해 AI	강화학습 기반 튜닝 단계

참조

https://blog.naver.com/ehostidc2004/223244385670

[IT 기본학습] 대형언어모델(LLM)과 대형멀티모달모델(LMM)의 정의, 그리고 GPT-4V

안녕하세요. 이호스트ICT입니다. 챗GPT가 출시되며 현재 전세계는 AI 붐입니다. AI관련 기사를 ...

blog.naver.com

https://m.blog.naver.com/woongjinmkt/223322694894

AI트렌드에 개념더하기: LLM부터 LMM까지

2024년 기술 경쟁의 핵심은 AI(Artificial Intelligence)임이 공고해 보입니다. 올해 CES에서는 일...

blog.naver.com

https://rainbowwave.tistory.com/entry/LLM-LMM-LAM%EC%9C%BC%EB%A1%9C-%EC%9D%B4%EC%96%B4%EC%A7%80%EB%8A%94-%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98%EC%9D%98-%EB%B0%9C%EC%A0%84-%EA%B8%B0%EC%88%A0-%EC%A7%84%ED%99%94%EC%99%80-%EB%AF%B8%EB%9E%98-%EC%A0%84%EB%A7%9D

LLM, LMM, LAM으로 이어지는 인공지능 알고리즘의 발전: 기술 진화와 미래 전망

목차1. 서론2. 본론 2.1. 대형 언어 모델(LLM): 현대 AI의 기반 2.2. 대형 멀티모달 모델(LMM): AI의 인식 능력 확장 2.3. 대형 액션 모델(LAM): 이해와 행동의 연결 2.4. 기술적 한계와 미래 도전 과제3. 결론

rainbowwave.tistory.com

https://aidalab.tistory.com/264

대형 액션 모델(LAM, Large Action Model)

며칠 전인 12월 20일, LG AI연구원에서 AI 에이전트용 대형 액션 모델(LAM, Large Action Model)을 개발중이라는 기사가 올라왔습니다. https://www.aitimes.com/news/articleView.html?idxno=166395 LG AI연구원 "AI 에이전

aidalab.tistory.com

'용어 정리' 카테고리의 다른 글

InstructBLIP (3)	2025.07.30
VQA 시리즈 (3)	2025.07.30
ViT (2)	2025.07.28
CLIP과 BLIP (5)	2025.07.23
SOTA(State Of The Art) (0)	2025.07.23

최근에 올라온 글

링크

글 보관함

덕라쿤

티스토리 뷰

LLM, LMM, LAM

1. LLM(Large Language Model)

2.LMM(Large Multimodal Model)

3.LAM(Large Action Model)

4. LLM & LMM & LAM

참조

'용어 정리' 카테고리의 다른 글

티스토리툴바