ELECTRA MLM 방식에서 좀 더 확장된 태스크와 NSP으로 학습을 진행한다. 마스킹된 토큰을 맞히는 방식에서 더 나아가 MLM 예측값이 실제 토큰인지 아닌지 맞히는 태스크를 진행한다.→ 기존 BERT 모델에서도 마스킹된 15% 단어 내에서 10%는 마스킹 토큰[MASK] 대신 틀린 단어를 넣어 두고, 또 다른 10%는 마스킹하지 않는 방식으로 fine-tuning 학습 데이터와의 간극을 좁히고자 하였다. 하지만 MLM이 모델 학습의 주요 태스크이므로 MASKED 데이터를 안쓰는 것이 아니다. 반면 ELECTRA 모델에서 적용된 replaced token detection task의 경우 인풋 데이터로 실제 문장에서 일부 단어가 대체된 문장이 활용되므로 구멍없는 멀쩡한 문장을 쓴다는 점에서 MLM에서..