Daily Develope

[AI] Optimizer 옵티마이저 참조 본문

AI

[AI] Optimizer 옵티마이저 참조

noggame 2023. 10. 18. 14:47

모르면 Adam(Adaptive Moment Estimation) 기반 Optimizer 사용하자!


용어

Adam (Adaptive Moment Estimation)
경사 하강법을 기반으로 하되, gradient 모멘텀과 학습량 증가에 따른 학습률 감소 문제를 개선한 최적화 알고리즘

AdamW
Adam 옵티마이저에 가중치 감쇠(weight decay)를 적용해 오버피팅(overfitting)을 완화한 최적화 알고리즘

torch.optim.AdamW(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)
  • params: 최적화할 파라미터들의 iterable
  • lr: 학습률(learning rate), 기본값은 0.001
  • betas: 감마 값들 (beta1, beta2)로 이루어진 튜플, 기본값은 (0.9, 0.999)
  • eps: 분모를 0으로 나누는 것을 방지하기 위한 작은 상수값, 기본값은 1e-08
  • weight_decay: 가중치 감쇠(L2 정규화) 계수, 기본값은 0
  • amsgrad: AMSGrad 알고리즘을 사용할지 여부, 기본값은 False

Weight Decay (감쇠 가중치)
weight를 업데이터 할 때 이전 weight 값을 일정 비율 감소시켜 오버피팅을 방지하기 위해 사용


참조

Comments