일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- Container
- enV
- format
- numpy
- pytorch
- file
- Converting
- LLM
- Mac
- Linux
- Database
- list
- docker
- git
- Python
- GitLab
- TORCH
- pandas
- DB
- judge
- CUDA
- AI
- Laravel
- Paper
- Package
- Windows
- evaluation
- Flask
- PostgreSQL
- KAKAO
Archives
- Today
- Total
목록g-eval (1)
Daily Develope

G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment Abstract NLG(Natural Language Generation) 평가는 시스템적으로 자동화하기 어려운 작업이다. 기존 BLEU와 ROUGE와 같은 대화 참조를 기반으로한 메트릭은 창조성과 다양설이 결여되어있어, 사람의 판단 결과와는 관계성이(유사도가) 낮다. 최근 연구에서는 LLM 기반으로 NLG를 평가하려는 시도가 있으나, 아직까지는 보통의 뉴럴 평가도구(neural evaluator, 평가 목적으로 학습된 모델)보다 사람과의 일치도가 낮았다. 따라서 본 논문에서는 LLM 프레임워크와 함께 CoT 및 form-filling 패러다임을 사용해 NGL 출력의 품질을 평가하는 G-EVA..
AI
2024. 3. 13. 08:30