일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- Mac
- GitLab
- LLM
- format
- list
- CUDA
- file
- Paper
- Database
- judge
- KAKAO
- numpy
- pytorch
- TORCH
- docker
- enV
- DB
- Converting
- Laravel
- Windows
- git
- Python
- evaluation
- Package
- pandas
- Linux
- Flask
- PostgreSQL
- AI
- Container
Archives
- Today
- Total
Daily Develope
[Article] LLM Judge 본문
LLM Judge
: LLM 모델을 평가하기 위해 기존 LLM을 사용하는 기술로, 해당 기술을 사용하기 위한 조건과 유효성에 대한 기사를 요약
LLM Judge 평가 시험과정

- Query-Passage 데이터셋 준비
- 모델별 QPA 데이터셋 생성 : 평가하려는 모델에 대해 QP 데이터셋을 던져 Answer 출력 및 기록
- 모델별 QPA 데이터셋을 LLM Judge 에 던져서 평가 : LLM Judge는 LLM 모델로, 입력받은 QPA에 대해 정확한 답변이 생성되었는지 판별해 1~3 등급으로 채점 (비교 편의를 위해 0~100점 보다는 1~3 등급으로 구분)
- 평가 항목 (& 가중치) : 정확도(60%), 내용포괄(20%), 가독성(20%)
실험1
- 의의 : 사람의 평가와 LLM 평가 간의 등급 차이를 비교
- 실험 : 사람과 LLM이 각 항목별 1~3 등급으로 채점하고, 사람과 LLM이 평가한 결과가 얼마나 차이나는지 확인
- 결과 : 정확도 및 가독성 평가에 있어서 80%를 동일하게 평가 (1개 차이까지 허용한다면 일치율 ~95%)
실험2
- 의의 : 어떤 평가가 의미있는지 다양한 기준으로 시험 (도움성, 관련성, 정확도, 깊이, 창의성, 세부사항 수준)
- 결과 : 도움성은 정의가 모호하고, 도움이 되는 결과라도 정확도가 낮은 경우에는 평가가 어렵다.
- 추가실험 : 기존 Prompt, One-shot Prompt, Few-shot Prompt를 사용해 LLM 모델로 평가
- 결과 : 성능이 우수한 모델에서는 변동이 적었으나, 비교적 성능이 낮은 모델의 경우 결과를 그대로 사용해도 이상이 없을 정도로 성능이 향상되었다. (입력 가능한 token의 수가 큰 경우 더 Few-shot Prompting에서 더 큰 격차를 보임)
실험3

- 의의 : 몇 등급으로 나누어 평가하는 것이 가장 적절한지 시험
- 결과 : 0~1 등급은 상대 평가가 어렵고, 0~10 등급은 평가 기준을 판별하기 모호하다. 따라서 목적에 따라 0~3 또는 1~5 등급을 사용해 평가하는 것을 추천한다.
'AI' 카테고리의 다른 글
[Paper] G-EVAL : NLG Evaluation using GPT-4 with Better Human Alignment (2) | 2024.03.13 |
---|---|
[Paper] Evaluating Large Language Models: A Comprehensive Survey (0) | 2024.03.05 |
[Paper] 2023 gemini technical report (LLM/MMLU 관련내용) 정리 (1) | 2023.12.12 |
[AI] Optimizer 옵티마이저 참조 (0) | 2023.10.18 |
[AI] Hugginface, sklearn, torch 샘플 코드 및 설명 (0) | 2023.10.17 |