본문 바로가기

Notice

migration 중입니다...

Recent Posts

Recent Comments

Link

Tags more

Archives

Today

Total

관리 메뉴

Daily Develope

[Article] LLM Judge 본문

AI

[Article] LLM Judge

noggame 2024. 1. 3. 09:49

LLM Judge

: LLM 모델을 평가하기 위해 기존 LLM을 사용하는 기술로, 해당 기술을 사용하기 위한 조건과 유효성에 대한 기사를 요약

LLM Judge 평가 시험과정

LLM Judge 평가 시험과정

Query-Passage 데이터셋 준비
모델별 QPA 데이터셋 생성 : 평가하려는 모델에 대해 QP 데이터셋을 던져 Answer 출력 및 기록
모델별 QPA 데이터셋을 LLM Judge 에 던져서 평가 : LLM Judge는 LLM 모델로, 입력받은 QPA에 대해 정확한 답변이 생성되었는지 판별해 1~3 등급으로 채점 (비교 편의를 위해 0~100점 보다는 1~3 등급으로 구분)

평가 항목 (& 가중치) : 정확도(60%), 내용포괄(20%), 가독성(20%)

실험1

의의 : 사람의 평가와 LLM 평가 간의 등급 차이를 비교
실험 : 사람과 LLM이 각 항목별 1~3 등급으로 채점하고, 사람과 LLM이 평가한 결과가 얼마나 차이나는지 확인
결과 : 정확도 및 가독성 평가에 있어서 80%를 동일하게 평가 (1개 차이까지 허용한다면 일치율 ~95%)

실험2

의의 : 어떤 평가가 의미있는지 다양한 기준으로 시험 (도움성, 관련성, 정확도, 깊이, 창의성, 세부사항 수준)
결과 : 도움성은 정의가 모호하고, 도움이 되는 결과라도 정확도가 낮은 경우에는 평가가 어렵다.

추가실험 : 기존 Prompt, One-shot Prompt, Few-shot Prompt를 사용해 LLM 모델로 평가
결과 : 성능이 우수한 모델에서는 변동이 적었으나, 비교적 성능이 낮은 모델의 경우 결과를 그대로 사용해도 이상이 없을 정도로 성능이 향상되었다. (입력 가능한 token의 수가 큰 경우 더 Few-shot Prompting에서 더 큰 격차를 보임)

실험3

의의 : 몇 등급으로 나누어 평가하는 것이 가장 적절한지 시험
결과 : 0~1 등급은 상대 평가가 어렵고, 0~10 등급은 평가 기준을 판별하기 모호하다. 따라서 목적에 따라 0~3 또는 1~5 등급을 사용해 평가하는 것을 추천한다.

'AI' 카테고리의 다른 글

[Paper] G-EVAL : NLG Evaluation using GPT-4 with Better Human Alignment (2)	2024.03.13
[Paper] Evaluating Large Language Models: A Comprehensive Survey (0)	2024.03.05
[Paper] 2023 gemini technical report (LLM/MMLU 관련내용) 정리 (1)	2023.12.12
[AI] Optimizer 옵티마이저 참조 (0)	2023.10.18
[AI] Hugginface, sklearn, torch 샘플 코드 및 설명 (0)	2023.10.17

'AI' Related Articles

more

Comments

티스토리툴바