사전 학습된 BERT 모델에서의 임베딩 벡터 추출 먼저 각 문장에 [CLS], [SEP], [PAD] 토큰을 추가한다. CLS 토큰은 각 문장의 맨 앞자리에 추가 생성한다. SEP는 문장의 끝에 추가 생성한다. PAD의 경우 모든 입력 문장의 길이를 맞춰주기 위해 문장 최대 길이(max_seq_len)에 미달하는 문장은 padding한다. 각 문장을 vocab 딕셔너리와의 매핑을 통해 int로 변환한다. 각 단어를 설정한 embedding_dimension 크기만큼의 벡터로 임베딩한다. BERT-base 모델의 경우 각 토큰 당 768차원의 임베딩 벡터로의 변환을 요구한다. 여기까지의 과정이 input_ids의 생성 과정이다. 실제 문장의 영역과 PAD 영역의 구분을 위해 attention_mask를 생..