BERT 모델과 비교했을 때 어떤 차이가 있는지 알아봅니다. MLM 태스크를 동적 마스킹 방법으로 학습 적용 NSP 태스크를 제외함 배치 크기를 증가해서 학습 BBPE 토크나이저 사용 동적 마스킹(Dynamic masking) 기존 BERT 모델은 MLM 사전 학습에서 정적 마스킹을 사용한다. → 정적 마스킹은 전처리 단계에서 단 한번 수행되어 epoch 마다 동일한 마스킹을 예측하도록 학습한다. 동적 마스킹은? → 학습 데이터(문장) 하나 당 $\times$10개의 문장을 복제해서 각각 다른 마스킹 결과가 나오도록 전처리한다. 40epoch을 돌리는 동안 10개의 마스킹된 문장이 학습되도록 하여 같은 문장이더라도 다른 마스킹 단어를 맞히는 태스크를 부여한다. 이렇게 되면 40epoch이 진행될 동안 마..