Daily

신경망의 loss는 y의 distribution을 고려하는가? 고려한다면 왜?

yooj_lee 2021. 8. 26. 12:22
300x250

궁금한 거 정리

1) p(y|X) or E(y|X)를 추정하는 건데 우리는 왜 y의 분포를 고려하는가? 분명 그 둘은 다르지 않나? 어느 정도 y|X가 y의 분포와 유사할 것이다 라는 것을 가정을 해주는 건가?

  • 만약에 딥러닝에서는 이런 걸 고려해주지 않는다면 tree 모델에서는 1)이 해당이 되는건가?
  • tree 모델에서는 ㅇㅇ을 추정한다고 하는 이런 모형화 되는 게 아예 없는건가? (parameterize 되고 아니고가 non-parametric을 결정하는 건 아닐텐데?)

2) tweedie distribution을 따르는 걸 고려해서 lgbm, xgb를 학습시켰을 때 잘 나왔음. -> loss function을 분포에 맞게 수정해주는 건데 이걸 non-parametric이라고 할 수 있나?
→ 분포에 대한 가정을 바탕으로 하는 모델이라고 하면, 실제로 모형화를 할 때 어떠한 분포에 대한 가정이 이루어져야 함. 모형화하는 식이 있다고 가정하면 여기에 분포에 대한 가정이 들어가야 한다는 의미임. 단순히 loss function을 설계할 때에 y에 대한 distribution, 혹은 y에 대한 conditional mean이 어떤 식으로 분포할지에 대한 사전 지식이 있고 그걸 반영하는 건 분포에 대한 가정을 한다고 말할 수 없음.

→ 실제 distributional assumption이라고 한다면, 회귀분석에서처럼 error가 N(0,$\epsilon$)을 따른다 등의 가정이 있어야 함 (linearity, indepedence, normality, equal variance 에 대한 가정). 그래서 이거에 맞게 데이터를 변형해주거나 하는데, tree 등의 모델은 이러한 절차가 필요가 없음.

$\therefore$ distributional assumption에 대한 이해가 부족했음.

3) DL에서는 loss를 조정할 때 y의 distribution은 신경쓰지 않는 건가?
DL에서의 loss는 y의 distribution보다는 task에 가깝게 생각을 하는 게 맞는 듯함.

300x250