일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- file
- Paper
- pytorch
- TORCH
- Converting
- evaluation
- CUDA
- git
- Python
- Container
- PostgreSQL
- Package
- numpy
- docker
- Windows
- judge
- DB
- AI
- GitLab
- Flask
- list
- enV
- Mac
- Laravel
- LLM
- Linux
- KAKAO
- format
- Database
- pandas
- Today
- Total
목록분류 전체보기 (109)
Daily Develope
주요정보 링크llama-gitllama-recipesllama-hugging-sample_codehugging-chatllama-3-cookbookprompt-formatllama-3-70B-GGUFRun Code (on terminal)8Btorchrun --nproc_per_node 1 example_chat_completion.py \ --ckpt_dir 8B-instruct/Meta-Llama-3-8B-Instruct/ \--tokenizer_path 8B-instruct/Meta-Llama-3-8B-Instruct/tokenizer.model\--max_seq_len 2048 --max_batch_size 670Btorchrun --nproc_per_node ..
m반쩨 GPU device 사용 improt os # 1번째 device만 사용 os.environ["CUDA_VISIBLE_DEVICES"]= "1" # 2, 3번째 device 사용 os.environ["CUDA_VISIBLE_DEVICES"]= "2,3" # 혹은 terminal에서 export 환경변수로 선언해 사용 # export CUDA_VISIBLE_DEVICES=1 GPU 사용 가능여부 확인 torch.cuda.is_available()현재 사용중인 device 번호 확인 device slot 순서와 상관없이 기본적으로 0번부터 할당 (즉 장치가 1개라면 0으로 출력) torch.cuda.current_device()현재 사용중인 device 개수 확인 torch.cuda.device_co..

일부내용 요약 및 정리 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Abstract open-ended 질문에서 모델을 평가하기 위해 강력한 LLM을 평가 도구로 사용해본 연구이다. LLM 평가와 사람의 선호도 사이의 일치도를 검증하고, 관련된 벤치마크로 (multi-turn의 질문 셋으로 구성된 ) MT-bench와 (온라인을 통해 LLM간 경쟁을 붙이는) Chatbot Arena 플랫폼에 대해 소개한다. GPT-4와 같은 강력한 LLM을 판단도구로 사용하는 경우 사람과의 일치율이 80% 이상이었으며, 사람들의 선호도 측정 및 설명 가능한 방법 중 하나로 대략적으로 사용 가능할 것으로 보인다. 1. Introduction 대표적으로 사용되는 LLM ..

G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment Abstract NLG(Natural Language Generation) 평가는 시스템적으로 자동화하기 어려운 작업이다. 기존 BLEU와 ROUGE와 같은 대화 참조를 기반으로한 메트릭은 창조성과 다양설이 결여되어있어, 사람의 판단 결과와는 관계성이(유사도가) 낮다. 최근 연구에서는 LLM 기반으로 NLG를 평가하려는 시도가 있으나, 아직까지는 보통의 뉴럴 평가도구(neural evaluator, 평가 목적으로 학습된 모델)보다 사람과의 일치도가 낮았다. 따라서 본 논문에서는 LLM 프레임워크와 함께 CoT 및 form-filling 패러다임을 사용해 NGL 출력의 품질을 평가하는 G-EVA..