Daily Develope

[AI] LLM Judge 적용 방법 정리 본문

AI

[AI] LLM Judge 적용 방법 정리

noggame 2024. 10. 31. 10:43

LLM Judge

LLM Judge는 모델을 평가하기 위해 성능이 좋은 대규모 언어 모델(LLM)을 사용하는 방법을 말한다.
Judge를 위해 어떤 수단을 사용하는 지에 따라서 아래 3가지 방법이 존재한다.

1. Prompted Judge

Judge를 위해 프롬프트를 기술(description)하는 방법

ㅇ 장점

  • 비용 : 단일 모델의 추론만 사용하기에, 빠르고 저렵하다.
  • 이식성 : 동일 프롬프트를 다른 모델에도 쉽게 적용해 볼 수 있다.

ㅇ 단점

  • 학습되지 않은 Task/Domain에 대한 판단 정확도가 떨어진다.
  • 동일 프롬프트를 사용하더라도 모델에 따라 성능이 크게 차이날 수 있다.

2. Fine-tuned Judge

Judge를 목적으로 특정 모델을 학습해 사용하는 방법

ㅇ 장점

  • 벤치마크와 같은 단순한 평가에 대한 평가 정확도가 우수하다.

ㅇ 단점

  • 학습되지 않은 Task/Domain에 대한 판단 정확도가 떨어진다.
  • 학습에 필요한 데이터 수집/가공이 어렵다.
  • 난이도 있는 문제에 대한 판단 정확도가 떨어진다.

3. Multi-agent Judge

다수의 대규모 언어 모델을 하나의 파이프라인으로 만들어 Judge를 수행하는 방법

ㅇ 장점

  • 앙상블 형태로 단일 모델을 사용했을 때 보다는 Judge 정확도가 높다.

ㅇ 단점

  • 다수의 LLM 사용을 위한 시간 및 자원 비용이 크다.

실제적 기술 (Practical Technics)

Positional bias

질문이나 예시 등 프롬프트를 구성하는 순서에 따라 결과가 달라지는 현상
해결법 : 여러 예문을 사용하는 경우에는, 예문의 순서를 섞어 여러 Judge 프롬프팅을 수행하고 그 결과가 일관된 경우 올바른 판단(Judge)을 한 것으로 간주한다.

Comments