DistilBERT 사전 학습된 Large BERT의 성능은 확실히 뛰어나지만 그에 걸맞는 무게를 자랑한다. 그렇기에 downstream task를 위해 fine-tuning을 마친 모델 또한 부담스럽고 무거운 모델이 되므로 주어진 컴퓨팅 리소스 내에서 모델을 실행하기가 어려울 수 있다. 가령 모바일 환경에서 모델을 실행해야할 경우 말이다. 이 문제를 해결하기 위해 지식 증류라는 개념이 도입되었고, 이를 기반으로 제작된 모델이 DistilBERT이다. DistilBERT는 BERT에서 레이어 수를 줄이면서 성능 저하를 최소화 하는 방향으로 설계되었다고 한다. 결과적으로 BERT 모델 사이즈의 40% 수준으로 감소할 수 있었고, 97% 수준의 성능을 유지하면서 60% 가량 빠른 속도를 뽑아낼 수 있다고 한..