구글 BERT의 정석 도서를 참고해서 정리했습니다. BERT의 기본 개념 📌 BERT는 문장의 문맥을 이해한 다음 문맥에 따라 단어 임베딩을 생성하는 문맥 기반 모델이다. BERT는 트랜스포머 모델에서 인코딩 부분만을 활용한 모델이다. 인코더 내 Self Attention 에 대한 이해가 있다면 문맥 기반 모델임이 당연하게 느껴질 것이다. BERT-base와 BERT-large Attention is all you need에서 제안한 인코딩 레이어, 멀티 헤드의 개수와 다른 구조를 가진다. BERT-base 12 인코딩 레이어, 12 멀티 헤드, 768 차원의 피드 포워드 BERT-large 24 인코딩 레이어, 16 멀티 헤드, 1024 차원의 피드 포워드 📌 여기서 말한 피드 포워드는 인코더 내 피드..