본문 바로가기

deep learning

(5)
[논문공부] Learning Transferable Visual Models From Natural Language Supervision - CLIP 논문 논문 제목: Learning Transferable Visual Models From Natural Language Supervision출판 학회: ICML? Open AI 논문출판 연도: 2021년 Abstract기존의 computer vision: 추가 라벨링 데이터가 필요한 supervised learning 형태대안으로, 이미지에 대한 raw text로부터 다이렉트하게 학습하는 것이 제안되었다.본 논문에서는, 어떤 캡션이 어떤 이미지와 짝을 이루는지를 예측하는 단순한 사전학습 과제가, 이미지 표현을 스크래치부터 학습하기 위한 효율적인 방법을 보여준다. 사전학습 시에, 400만개의 (이미지, 텍스트) pair 데이터셋을 사용했고, 사전학습 이후에는 학습된 visual concept들을 지칭하는데 자..
[논문 공부] Generative Adversarial Nets adversarial process를 이용한 generative model두 개의 모델을 동시에 train1. generative model G데이터 분포 captureD가 실수할 확률을 maximize하도록 train화폐 위조자2. discriminative model D샘플이 training data(실제 데이터, G가 생성한 데이터X) 로부터 나왔을 확률 추정화폐 위조자를 detect하는 경찰=> 이 둘이 서로 경쟁하는데, G에서 생성된 게 진짜 데이터와 구별할 수 없을때까지 반복 이 논문에서는 특별한 case: adversarial nets에 대해 다룸.- generative model: multilayer perceptron을 통해 random noise를 passing하면서 샘플 생성- dis..
GPT 구조 이해하기 GPT (Generative Pre-trained Transformer) pretrained된 모델로, 이후 fine-tuning 과정 없이, 즉 별도의 추가적인 데이터 없이 다양한 task에서 뛰어난 성능을 보였다. 모델 이름에 Generative가 들어가있듯이, 다음에 올 토큰을 '생성'하는 언어 모델이다. fine-tuning을 위한 추가적인 데이터는 학습하지 않지만, 대신 자연어로 이루어진 예제를 제공하는 방식으로 task를 해결한다. Few shots 방법에서는 여러 개의 예시를 주며, 이때 파라미터 업데이트는 일어나지 않으므로 학습이 일어나지는 않는다. 이외에도 one shot, zero shot이 있는데, one shot은 오직 하나의 예시만을 제공하는 경우, zero shot은 예시를 주지..
BERT 구조 이해하기 Geneformer 코드를 살펴보던 중, transformer를 기반으로 한 BERT 모델을 불러온 것을 확인하였다.Geneformer를 더 잘 이해하려면 BERT 부터 알아야할 것 같다. Transformer는 공부한 적이 있지만, BERT는 구조를 살펴본 적이 없어서 여기다가 정리해보려고 한다. BERT: Bidirectional Encoder Representations from Transformers BERT는 pretrained model. 근본적으로 Language Representation을 해결하기 위해 고안된 구조즉, 단어, 언어를 어떻게 표현?에 초점을 맞춘 모델 왜 Bidirectional?문장을 앞->뒤 뿐만 아니라 뒤->앞 으로도 파악하기 위해. BERT의 기본 구조Tran..
[논문 리뷰] Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps *논문 정보제목: Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps저자: Karen Simonyan, Andrea Vedaldi, Andrew Zisserman연도: 2014학회명: ICLR카테고리: XAI *용어saliency map: 컴퓨터 비전 분야에서 모델이 어떤 입력의 어떤 부분을 중요하게 생각했는지를 시각화한 지도 → 모델의 설명 가능성을 높이므로 XAI 기법에 해당deconvolutional networks: 이미지 복원/생성하는 네트워크(CNN과 반대방향). 즉, high level feature → 원래 이미지처럼 복원 Abstract이 논문은 deep Convolutio..