Attention Mechanism 📌 번역 대상에 대한 정보를 다 담은 최종 $h$를 가지고 디코딩 과정에 들어갈 때 $h_0$ 에서 $h_t$까지 각각의 단계에서 획득한 정보를 들고 와서 참고하자는 아이디어에서 시작되었다.(장기의존성 문제 해결을 위한 방안) 이때 각 단어의 번역 과정($s$)에서 연관성이 가장 높은 $h_t$를 파악해서 $s$가 추가로 참고한다는 점이 핵심이다. Dot-Product Attention 📌 가중합/가중평균 디코딩 과정에서 각 단어의 예측 시 어떤 h를 참조하는게 좋을지 구분할 수 있어야 한다. 이를 위해서 가중합/가중평균 계산이 적용된다. → 예를 들어 학창 시절 중간고사 반영비율 25% 기말고사 35%, 실기 40%처럼 특정 분야에 대한 반영 비율이 $w$에 담겨 각..