일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- KAKAO
- CUDA
- Mac
- Python
- LLM
- Container
- GitLab
- file
- format
- Flask
- judge
- pytorch
- Database
- git
- TORCH
- pandas
- DB
- Linux
- Laravel
- Windows
- enV
- Converting
- list
- docker
- PostgreSQL
- Paper
- AI
- evaluation
- Package
- numpy
- Today
- Total
목록AI (16)
Daily Develope

G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment Abstract NLG(Natural Language Generation) 평가는 시스템적으로 자동화하기 어려운 작업이다. 기존 BLEU와 ROUGE와 같은 대화 참조를 기반으로한 메트릭은 창조성과 다양설이 결여되어있어, 사람의 판단 결과와는 관계성이(유사도가) 낮다. 최근 연구에서는 LLM 기반으로 NLG를 평가하려는 시도가 있으나, 아직까지는 보통의 뉴럴 평가도구(neural evaluator, 평가 목적으로 학습된 모델)보다 사람과의 일치도가 낮았다. 따라서 본 논문에서는 LLM 프레임워크와 함께 CoT 및 form-filling 패러다임을 사용해 NGL 출력의 품질을 평가하는 G-EVA..

아래는 본 논문의 내용 중 관심있는 일부 Section에 대해서만 번역/의역한 내용입니다. Paper - Evaluating Large Language Models: A Comprehensive Survey Figure. An overview of studies on knowledge and capability evaluation for LLMs. 3. Knowledge and Capability Evaluation 모델의 규모와 능력이 발전함에 따라 LLM의 지식과 능력을 평가하는 것은 하나의 중요한 연구로 자리잡았다. LLM이 다양한 분야에 응용되고 배포됨에 따라 task별로 모델의 능력과 한계를 세밀히 평가하는 것 또한 중요해졌다. 따라서 3절에서는 LLM 평가방법 및 벤치마크와 관련한 전반적인 소..

LLM Judge : LLM 모델을 평가하기 위해 기존 LLM을 사용하는 기술로, 해당 기술을 사용하기 위한 조건과 유효성에 대한 기사를 요약 LLM Judge 평가 시험과정 Query-Passage 데이터셋 준비 모델별 QPA 데이터셋 생성 : 평가하려는 모델에 대해 QP 데이터셋을 던져 Answer 출력 및 기록 모델별 QPA 데이터셋을 LLM Judge 에 던져서 평가 : LLM Judge는 LLM 모델로, 입력받은 QPA에 대해 정확한 답변이 생성되었는지 판별해 1~3 등급으로 채점 (비교 편의를 위해 0~100점 보다는 1~3 등급으로 구분) 평가 항목 (& 가중치) : 정확도(60%), 내용포괄(20%), 가독성(20%) 실험1 의의 : 사람의 평가와 LLM 평가 간의 등급 차이를 비교 실험 ..

"Gemini: A Family of Highly Capable Multimodal Models" 기술 레포트 내용에서 MMLU 관련내용 및 평가방법(5.1절)까지 내용 중 필요한 부분만 발췌&정리 1. Introduction Gemini 1.0은 모델 크기에 따라 Ultra, Pro, Nano로 나눌 수 있다. Gemini Ultra의 경우는 MMLU 영역에서 인간 전문가를 뛰어 넘은 최초의 모델이다. 사용 가능성 교육 : 지저분하게 작성된 문제 및 풀이과정을 이해하고, 깔끔한 수식으로 표현해 줄 수 있으며, 잘 못된 풀이부분을 되짚어줄 수 있다. 프로그래밍 : AlphaCode2에 활용해, 프로그래밍 플랫폼인 Codeforce에서 입문자 상위 15%, 상급자 상위 50%의 성능을 보여주었다. 2. M..