다변량 선형회귀 모델 최적의 파라미터 w 구하며 행렬 미분에 대해 알아본다.

issue

이미지 출처: 방통대 머신러닝 교재

  • 정의 multiple_linear_regression_model definition
  • E 함수 w로 편미분하기, 이때 행렬 미분이 사용된다. multiple_linear_regression_model mse


solution

img.png


reference

행렬 미분

  • 분자중심 표현(numerator layout)과 분모중심 표현(denominator layout)은 표기법의 차이일 뿐 둘다 맞는 표현이다
  • 1×1 행렬은 스칼라가 아니다.
  • 그러나 1×1 행렬은 스칼라처럼 작동한다. product_one_by_one_matrix.png
  • x = [x1, x2, …, xn]^T, y = [y1, y2, …, yn]^T 일 때, xTy를 미분하면 xTy = yTx이므로 yTx를 미분한 값과 같다.
    xTy = x1*y1 + x2*y2 + ... + xn*yn
    xTy를 y로 미분하면
    [∂(xTy)/∂y1, ∂(xTy)/∂y2, ..., ∂(xTy)/∂yn] = [x1, x2, ..., xn]
    이는 yTx를 y로 미분한 값과 같다.
    [x1, x2, ..., xn] = [∂(yTx)/∂y1, ∂(yTx)/∂y2, ..., ∂(yTx)/∂yn]
    xTy를 x로 미분할 때도 동일한 과정에 따라 yTx를 x로 미분한 값과 같다.
    따라서 xTy를 미분하면 yTx를 미분한 값과 같다.
    

댓글남기기