데이터사이언스 이론 공부

MAP(Maximum A Posterior) 에 대한 이해

soopy 2022. 9. 8. 08:26
728x90

MAP(Maximum A Posterior)

📌 사후확률(Posterior) 를 최대화 하는 가설함수(확률 분포)를 찾는 것이 MAP의 목적이다.

 

MAP에 대한 이론을 통해 MLE 를 다시한 번 되돌아 보자

  • MAP와 MLE 둘 다 주어진 데이터 Y를 모사하는 분포를 알고 싶은 것은 동일하다.
  • 하지만 MLE는 그 분포를 찾을 때, 인풋(X)을 넣어 Y 근사값을 출력하게 하는 $\theta$값을 셋팅하는 것에 초점을 두고 있다. 즉 어떻게 보면 Y 분포를 찾는 것이 아니라 Y 분포를 만드는 과정에 해당한다.
  • MAP는 베이지안 관점에 근거하여 $\theta$값은 셋팅해야할 대상이 아니라 $\theta$ 또한 확률 분포를 가지고 있음을 주장하며 MLE 방식의 한계를 지적한다.
  • MLE 방식은 주어진 데이터 Y에 오버피팅된 $\theta$값을 설정한다는 관점을 가지고 있어 장차 수집될 데이터가 지금까지의 트랜드에서 벗어난다면 대응할 수 없다고 말한다.
  • 이 이론에 따르면 미래의 uncertainty까지도 고려할 수 있는 $\theta$를 찾기 위해서는 MAP 방식으로 접근해야 한다.

 

베이지안 이론을 통해 차근차근 이해해 보자

먼저 베이지안 이론은 아래와 같다.

$P(h|D) = \frac{P(D|h)P(h)}{P(D)}$

위 공식을 풀어보자면

  • $P(h|D)$는 사후확률에 해당하며 DNN 분류 모델에서의 accuracy 비슷하다고 볼 수 있다.
  • 사후 확률을 풀어서 설명하자면 “주어진 데이터에서 가설함수 $h$의 결과($\hat{y}$)가 발생할 확률"을 의미한다.
  • 가설함수 $h$는 실제로는 $h_\theta(x)$로 표기하는데 인풋데이터 $x$를 넣었을 때의 결과를 말한다.
  • 그러므로 완전히 풀어서 해석하면 실제값 집단에서 예측값 집단이 발생할 확률이라고 해석할 수 있다.
  • 그렇기 때문에 사후확률이 최대값이 되는 $\frac{P(D|h)P(h)}{P(D)}$ 를 찾는 것이 곧 Y를 모사하는 확률 분포가 된다고 주장한다.

$P(D|h)$와 $P(h)$는 각각 likelihood와 prior에 해당한다.

$P(D|h)$를 likelihood로 보는 이유를 살펴보자

  • 만약 키 150cm인 한 사람은 남자인가 여자인가를 예측하는 상황을 예시로 들자
  • MLE 관점에서는 likelyhood의 형태는 $P(h|D)$ 로 보고 있다. 우리나라 성별 신장(키) 분포를 고려했을 때 150cm면 여자일 것이다. 라고 주장하는 방식이다.
  • 하지만 MAP 관점에서 본 MLE는 사실 “남자 중에서 150cm의 키를 가진 사람의 비율과 여자 중에서 150cm의 키를 가진 사람의 비율을 비교” 한 결과 여자 비율이 더 높아서 여자라고 주장하는 것과 같다고 말한다. 이 방식에서의 문제점은 “만약 군부대 안에서 150cm인 사람은?” 이라는 조건 $P(h)$를 고려하지 못한다고 본다. 왜냐하면 군부대에서는 남성 비율이 여성보다 월등히 높으므로 무조건 여자라고 주장하기 애매해지기 시작하기 때문이다.

⭐ 결론적으로 MAP는 베이지안 이론에 따라 likelihood와 prior를 곱한 값을 최대화 하는 사후확률이 즉 $\hat{\theta}$에 해당하며 이를 찾는 것이 MLE보다 더 미래 상황까지 고려할 수 있다고 말한다. (최대값을 찾는 과정에서 분모인 $P(D)$ 는 큰 의미가 없어 배제한다.)

하지만 Prior에 대한 가정이 필요하며, 현재까지는 뚜렷한 성과가 나오지 않고 있다고 한다. (그래서 현재까지도 MLE가 채택되고 있는 것 같다.)

 

MLE와 MAP에서 기억해야할 점

📌 $P(X)$ 확률 질량 함수를 DNN에서의 $\theta$로 보는 관점을 이해해야 한다.

728x90
728x90