Daily Develope

[Article] LLM Judge 본문

AI

[Article] LLM Judge

noggame 2024. 1. 3. 09:49

LLM Judge

: LLM 모델을 평가하기 위해 기존 LLM을 사용하는 기술로, 해당 기술을 사용하기 위한 조건과 유효성에 대한 기사를 요약

 

LLM Judge 평가 시험과정

LLM Judge 평가 시험과정

  1. Query-Passage 데이터셋 준비
  2. 모델별 QPA 데이터셋 생성 : 평가하려는 모델에 대해 QP 데이터셋을 던져 Answer 출력 및 기록
  3. 모델별 QPA 데이터셋을 LLM Judge 에 던져서 평가 : LLM Judge는 LLM 모델로, 입력받은 QPA에 대해 정확한 답변이 생성되었는지 판별해 1~3 등급으로 채점 (비교 편의를 위해 0~100점 보다는 1~3 등급으로 구분)
  • 평가 항목 (& 가중치) : 정확도(60%), 내용포괄(20%), 가독성(20%)

 

실험1

  • 의의 : 사람의 평가와 LLM 평가 간의 등급 차이를 비교
  • 실험 : 사람과 LLM이 각 항목별 1~3 등급으로 채점하고, 사람과 LLM이 평가한 결과가 얼마나 차이나는지 확인
  • 결과 : 정확도 및 가독성 평가에 있어서 80%를 동일하게 평가 (1개 차이까지 허용한다면 일치율 ~95%)

 

실험2

  • 의의 : 어떤 평가가 의미있는지 다양한 기준으로 시험 (도움성, 관련성, 정확도, 깊이, 창의성, 세부사항 수준)
  • 결과 : 도움성은 정의가 모호하고, 도움이 되는 결과라도 정확도가 낮은 경우에는 평가가 어렵다.

 

  • 추가실험 : 기존 Prompt, One-shot Prompt, Few-shot Prompt를 사용해 LLM 모델로 평가
  • 결과 : 성능이 우수한 모델에서는 변동이 적었으나, 비교적 성능이 낮은 모델의 경우 결과를 그대로 사용해도 이상이 없을 정도로 성능이 향상되었다. (입력 가능한 token의 수가 큰 경우 더 Few-shot Prompting에서 더 큰 격차를 보임)

 

실험3

  • 의의 : 몇 등급으로 나누어 평가하는 것이 가장 적절한지 시험
  • 결과 : 0~1 등급은 상대 평가가 어렵고, 0~10 등급은 평가 기준을 판별하기 모호하다. 따라서 목적에 따라 0~3 또는 1~5 등급을 사용해 평가하는 것을 추천한다.
Comments