GPT (Generative Pre-trained Transformer)
pretrained된 모델로, 이후 fine-tuning 과정 없이, 즉 별도의 추가적인 데이터 없이 다양한 task에서 뛰어난 성능을 보였다. 모델 이름에 Generative가 들어가있듯이, 다음에 올 토큰을 '생성'하는 언어 모델이다. fine-tuning을 위한 추가적인 데이터는 학습하지 않지만, 대신 자연어로 이루어진 예제를 제공하는 방식으로 task를 해결한다.
Few shots 방법에서는 여러 개의 예시를 주며, 이때 파라미터 업데이트는 일어나지 않으므로 학습이 일어나지는 않는다. 이외에도 one shot, zero shot이 있는데, one shot은 오직 하나의 예시만을 제공하는 경우, zero shot은 예시를 주지 않고 문제를 설명하는 자연어 문구만 주는 경우이다. (ex. 영화 리뷰 감정을 분석하라.)
기존 Transformer 구조에서 decoder만 사용하는 decoder-only model이다.

하나씩 살펴보면,
1. Input
- GPT는 다음에 올 토큰을 예측하는 것이므로, future mask를 사용. (attention mask) - transformer decoder와 동일
- Input을 임베딩하고, (torch.nn.Embedding) positional embedding을 추가한다.
- Dropout
2. Layer
- Layer Normalization : 한 샘플에 있는 값들을 정규화
- Masked multi-head self attention: 각 토큰들이 Query, Key, Value 값을 가진다.

3. Add (Skip Connection) & Layer Normalization
4. Feed Forward Neural Network
5. Add(skip Connection)
6. Predict Next Token
- Output Embedding, Softmax를 사용하여 다음에 각 토큰이 올 확률을 구한다.
BERT vs GPT (아래 유튜브 영상 추천!)
https://www.youtube.com/watch?v=cbge57N1s5o&t=795s
BERT, GPT 모두 pretrained model(unsupervised, self-supervised); 많은 양의 지식 학습
BERT 계열: 이미 풀고자 하는 task가 있을 때, 즉 정답 label이 새겨진 데이터셋이 준비되어있다고 가정하고, 이걸 가지고 fine-tuning을 거쳐서 모델이 완성됨. 즉, pretraining 이후에 새로운 데이터가 조금이라도 더 주어지므로, 그것에 대한 학습이 진행됨. 즉, pretraining이후 fine-tuning을 통해 파라미터 업데이트가 일어남.
-> 여러 가지 task가 있을 때 각각에 adaptation이 된 언어모델을 fine-tuning을 통해 만들어내서 사용하자!
GPT 계열: pre-training 이후 relatively small size 데이터를 또 주고 fine-tuning을 하는 것이 아니라, 자연어 형태로 곧바로 질문을 함. 즉, In-context (learning) inference (Few-shot). pretraining 과정 이후 추가적인 지식 습득 과정 x, 즉 파라미터 업데이트가 이뤄지지 않음(실제로 학습이 일어나는 것이 아님)
-> 한 개의 super 모델을 만들어서 모든 task에 대해 퀴즈 형태(자연어 형태)로 물어봐서 좋은 답을 얻어내자!
참고) BERT, GPT 등 현대의 언어 모델 모두 Subword Tokenize 방식을 사용
GPT 내용 참고한 블로그)
GPT (Generative Pre-trained Transformer) 학습시키기
들어가며 오늘은 Generative Pre-trained Transformer (GPT) 의 구조에 대해 자세히 글을 써보려고 한다. 아래의 링크들은 참고하면 좋을만한 사이트들이다. 특히 유튜브 영상은 ETRI 임준호 박사님이 GPT-3에
ainote.tistory.com
'deep learning' 카테고리의 다른 글
| [논문공부] Learning Transferable Visual Models From Natural Language Supervision - CLIP 논문 (0) | 2025.11.18 |
|---|---|
| [논문 공부] Generative Adversarial Nets (0) | 2025.11.03 |
| BERT 구조 이해하기 (2) | 2025.08.08 |
| [논문 리뷰] Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps (0) | 2025.05.10 |