일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- TORCH
- format
- PostgreSQL
- CUDA
- numpy
- list
- file
- evaluation
- DB
- Converting
- Paper
- AI
- Laravel
- enV
- Python
- Mac
- Container
- Windows
- LLM
- Linux
- Database
- pytorch
- pandas
- docker
- KAKAO
- Package
- judge
- Flask
- GitLab
- git
- Today
- Total
Daily Develope
[Article] OpenAI o1 간략 정리 본문
소개
OpenAI o1 모델은 24년 9월 12일 공개된 CoT 기반의 학습/추론 모델로, 수학(AIME), 코딩(Codeforces), 물리/생물/화학 벤치마크(GPQA) 등의 복잡한 추론이 필요한 작업에서 우수한 성능을 보여주고 있습니다.
현재(24.10)는 o1-preview 모델과 o1-mini 모델을 우선 공개하고있으며, 성능 개선과 CoT 기반 정보 제공의 질을 높이기 위한 추가 연구 이후 o1 모델도 공개될 예정입니다.
성능 & 평가
OpenAI에서는 o1 모델의 다양한 시험 결과(human exam)와 벤치마크 성능을 공개했습니다. 복잡하고 어려운(Heavy) task에서 GPT-4o보다 우수한 성능을 나타냈습니다.
당장에 제공하고 있는 모델이 멀티 모달이 아니라 직접적인 평가는 어렵겠으나, 비교 결과만 놓고본다면 o1 모델이 MMMU의 시각 인지 task에서 GPT-4o 모델을 능가할 만큼 비전(Vision) task에서도 우수한 성능을 나타낸다는 점이 눈여겨 볼 만한 점인 것 같습니다.


Chain of Thought
사람이 어려운 문제를 해결하는 과정에서 오랫동안 고민하는 것과 유사하게, o1 또한 문제를 해결하는 과정에서 CoT 기술을 접목해 단계별로 고민하고 해결하는 방식을 사용하고 있습니다. CoT 과정에서는 모델이 잘 못 예측한 실수를 스스로 인지하고 교정하는 과정을 반복하는 방법으로 모델의 추론 능력을 극적으로 향상시켰습니다. 이러한 방법을 사용함으로써 사용자가 모델의 추론 과정을 모니터링 가능할 수 있도록 하는 이점을 가지게됩니다. (OpenAI 에서는 CoT 과정의 raw data를 그대로 보여주는 것은 오히려 사용자 입장에서 이해가 어려울 수 있다고 판단해, CoT 과정의 정보를 정제하고 요약한 형태로 제공하고 있습니다.)
CoT 기술의 도입이 복잡한 문제를 해결하는데 도움이 되는 반면, 일상적인 대화나 상식 등 간단한 작업 수행 능력에서는 불필요한 정보 제공이나 문맥의 부자연스러움으로 인해 사용자로 하여금 선호도(매력도)를 떨어뜨리고 응답 속도가 느려지는 단점 또한 가지게 되었습니다.

OpenAI o1-mini
OpenAI에서는 응답 속도가 개선된 o1-mini 경량화 모델을 o1-preview 모델과 함께 배포했습니다. o1-mini 모델은 STEM (Science, Technology, Engineering, Math) 문제 해결에 최적화된 모델로 (AIME, 미국 수학경시대회 기준) 성능은 o1과 유사하면서도 비용은 최대 80%까지 낮추었습니다.
이로부터 OpenAI에서는 CoT의 응답 속도 문제를 해결하기 위한 수단으로 우선은 task 별 전문화된 모델을 제공하는 방식을 사용하려는 것이 아닌가 생각해 볼 수 있습니다.

비용
CoT를 사용하는 모델인 만큼, 응답 속도와 가격적인 측면에 있어서도 기존 GPT 모델보다 비용이 높다는 것을 확인할 수 있습니다.
응답 속도는 동일한 질의에 대해 GPT-4o는 4초인 반면, o1-mini는 9초, o1-preview는 32초를 나타냈습니다.

가격은 1M(백만) 토큰 기준 GPT-4o는 $5, o1-mini는 $3, o1-preview는 $15로 책정되었습니다. (가격 참조)
원문
'AI' 카테고리의 다른 글
[AI] LLM Judge 적용 방법 정리 (0) | 2024.10.31 |
---|---|
[AI] 키워드/용어 정리 for research (0) | 2024.10.10 |
[LLM] llama 3 주요 정보 정리 (0) | 2024.04.24 |
[Torch] pyTorch 자주 쓰는 명령어 정리 (0) | 2024.04.23 |
[Paper] Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (1) | 2024.04.02 |