BERT 구조 이해하기

~~Geneformer 코드를 살펴보던 중, transformer를 기반으로 한 BERT 모델을 불러온 것을 확인하였다.~~

~~Geneformer를 더 잘 이해하려면 BERT 부터 알아야할 것 같다.~~

~~Transformer는 공부한 적이 있지만, BERT는 구조를 살펴본 적이 없어서 여기다가 정리해보려고 한다.~~

BERT: Bidirectional Encoder Representations from Transformers

BERT는 pretrained model.

근본적으로 Language Representation을 해결하기 위해 고안된 구조

즉, 단어, 언어를 어떻게 표현?에 초점을 맞춘 모델

왜 Bidirectional?

문장을 앞->뒤 뿐만 아니라 뒤->앞 으로도 파악하기 위해.

Transformer 구조 사용

단, encoder-only model

(아래 그림에서 왼쪽 부분만 사용했다는 뜻. task에 적용이 아니라, 말그대로 '표현'에 필요한 부분만 가져다가 사용한듯)

그렇다면 encoder를 어떻게 학습시켰는지 알아보자.

1. Token Embeddings

2. Segment Embeddings

3. Position Embeddings

1,2,3 임베딩을 더한 임베딩이 최종 input으로 사용된다.

두 가지 unsupervised 방식을 사용하여 문장 표현 학습

1. Masked Language Model (MLM)

-> context 학습 가능

2. Next Sentence Prediction (NSP)

-> 문장 사이의 관계 학습 가능

cf. pretrained model간 비교

BERT vs OpenAI GPT vs ELMo

위의 그림에서 볼 수 있다싶이 OpenAI GPT, ELMo와 다르게 BERT만 양방향 context 파악 가능

다음에는 Geneformer 코드에서 BERT 불러오는 부분을 다시 살펴볼 예정 (구조 파악)

[논문공부] Learning Transferable Visual Models From Natural Language Supervision - CLIP 논문 (0)	2025.11.18
[논문 공부] Generative Adversarial Nets (0)	2025.11.03
GPT 구조 이해하기 (0)	2025.08.11
[논문 리뷰] Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps (0)	2025.05.10

코딩 끄적끄적