BERT의 파생 모델 ALBERT A Lite version of BERT의 줄임말로 BERT의 라이트 버전이다. BERT모델 학습 및 추론 시 소비되는 시간 감소, 컴퓨팅 리소스 감소를 위한 모델 리소스 감소를 위해 아래 두 가지 방법을 제안한다 - factorized embedding parameterization - cross-layer parameter sharing Factorized embedding parameterization 논문에서는 토큰이 임베딩 레이어를 거치는 것은 맥락과는 독립적인 representation(임베딩 벡터) 학습을 거치지만, 그 뒤 히든 레이어를 거치는 것은 맥락 의존적인 결과를 낸다고 본다. 그리고 BERT와 같은 모델이 좋은 성능을 발휘하는데는 맥락에 대한 학습에..