하위 단어 토큰화 알고리즘 vocab에 존재하지 않는 단어를 대상으로 OOV가 발생하지 않도록 단어를 분해해서 vocab에 저장하는 알고리즘을 말한다. 단어 분해을 통해 vocab에 포함되는 단어를 찾을 수 있다. ex) pretraining → “pre”, “train”, “ing” BPE Byte pair encoding의 줄임말이며, 각각의 단어를 문자 단위로 쪼개어 두 묶음, 세묶음 또는 그 이상의 묶음으로 sequential하게 묶어보며 그 중 빈도수가 높은 묶음을 vocab에 등록하는 방식이다. 단계는 아래와 같다. 각 단어와 빈도수를 함께 추출한다. vocab의 크기(한도)를 정의한다. 각 단어를 문자 단위로 분할한다. 모든 고유 문자를 어휘 사전에 추가한다. 문자 묶음을 빈도가 높은 순으로..