Transformer 3

BERT의 파생 모델 [RoBERTa] 특징

BERT 모델과 비교했을 때 어떤 차이가 있는지 알아봅니다. MLM 태스크를 동적 마스킹 방법으로 학습 적용 NSP 태스크를 제외함 배치 크기를 증가해서 학습 BBPE 토크나이저 사용 동적 마스킹(Dynamic masking) 기존 BERT 모델은 MLM 사전 학습에서 정적 마스킹을 사용한다. → 정적 마스킹은 전처리 단계에서 단 한번 수행되어 epoch 마다 동일한 마스킹을 예측하도록 학습한다. 동적 마스킹은? → 학습 데이터(문장) 하나 당 $\times$10개의 문장을 복제해서 각각 다른 마스킹 결과가 나오도록 전처리한다. 40epoch을 돌리는 동안 10개의 마스킹된 문장이 학습되도록 하여 같은 문장이더라도 다른 마스킹 단어를 맞히는 태스크를 부여한다. 이렇게 되면 40epoch이 진행될 동안 마..

BERT 모델에서의 임베딩 벡터 추출 방식에 관하여

사전 학습된 BERT 모델에서의 임베딩 벡터 추출 먼저 각 문장에 [CLS], [SEP], [PAD] 토큰을 추가한다. CLS 토큰은 각 문장의 맨 앞자리에 추가 생성한다. SEP는 문장의 끝에 추가 생성한다. PAD의 경우 모든 입력 문장의 길이를 맞춰주기 위해 문장 최대 길이(max_seq_len)에 미달하는 문장은 padding한다. 각 문장을 vocab 딕셔너리와의 매핑을 통해 int로 변환한다. 각 단어를 설정한 embedding_dimension 크기만큼의 벡터로 임베딩한다. BERT-base 모델의 경우 각 토큰 당 768차원의 임베딩 벡터로의 변환을 요구한다. 여기까지의 과정이 input_ids의 생성 과정이다. 실제 문장의 영역과 PAD 영역의 구분을 위해 attention_mask를 생..

Transformer(트랜스포머)에 대한 간략 정리

📌 Attention is All You Need 기존 방식에서 인코딩 방식은 근본적으로 RNN 방식이었으며, 디코딩 방식도 RNN 방식에 Attention Value를 추가해서 장기의존성 문제를 해결하는 방향으로 진행되었다. → 트랜스포머에서는 더이상 RNN 방식을 활용하지 않으며 기존 RNN 방식도 Attention Value를 구하는 방식으로 인코딩과 디코딩 과정을 거치게 되며 그렇기 때문에 “우리가 필요한 것은 어텐션 뿐이다.” 라는 논문 제목을 갖는 것이다. 📌 기존 어텐션 매커니즘과의 차이 단어 각각이 아닌 문장을 통째로 input한다. → 이를 통해 한 문장 내에서 각 단어가 다른 단어들과의 관계를 이해할 수 있도록 유도한다.(문맥을 고려한다.) Encoder Self-attention 한 ..