continual learning survey paper를 읽다가 다음과 같은 구절을 접함. Research on artificial neural networks has focused mostly on static tasks, with usually shuffled data to ensure i.i.d. conditions 각 instance가 Random Variable $X_i$ 라고 하면 시계열 데이터가 아닌 이상 각 R.V는 i.i.d를 가정함. 이러한 i.i.d 조건을 만족함을 보장해주기 위해서는 데이터를 shuffling해줘야함. 그렇다면 왜 R.V가 i.i.d임을 가정해야할까? → i.i.d 가정이 있으니까 Loss를 instance 단위 별로 계산 후, reduction을 시켜주는 거겠지..?