GPT3 왜 나왔는가? 기존 PLM (pre-trained model) 은 사전 학습 이후 fine-tuning해서 사용. Downstream Task에 수천~수만 건이 데이터가 필요함 fine-tuning은 기존의 지니고 있던 일반화 성능을 저하시킨다. 실제 성능보다 SQuAD같은 특정 벤치마크에서 과대평가될 수 있다. (이것도 성능의 일반화 문제) 각 Task마다 fine-tuning된 모델이 필요하게 된다. (모델의 기능이 복합적이지 못함) GPT3의 특징 Few-shot learning이 가능 (매우 적은 수의 데이터로도 downstream task 학습이 가능함을 의미) GPT 모델의 작동 방식을 살펴보면 엄연히 말해서 학습한다고 말하기도 애매함 추가적인 파라미터 업데이트 없이 다양한 task ..