Daily Develope

[Article] OpenAI o1 간략 정리 본문

AI

[Article] OpenAI o1 간략 정리

noggame 2024. 10. 2. 14:30

소개

  OpenAI o1 모델은 24년 9월 12일 공개된 CoT 기반의 학습/추론 모델로, 수학(AIME), 코딩(Codeforces), 물리/생물/화학 벤치마크(GPQA) 등의 복잡한 추론이 필요한 작업에서 우수한 성능을 보여주고 있습니다.
  현재(24.10)는 o1-preview 모델과 o1-mini 모델을 우선 공개하고있으며, 성능 개선과 CoT 기반 정보 제공의 질을 높이기 위한 추가 연구 이후 o1 모델도 공개될 예정입니다.

 

성능 & 평가

  OpenAI에서는 o1 모델의 다양한 시험 결과(human exam)와 벤치마크 성능을 공개했습니다. 복잡하고 어려운(Heavy) task에서 GPT-4o보다 우수한 성능을 나타냈습니다.
  당장에 제공하고 있는 모델이 멀티 모달이 아니라 직접적인 평가는 어렵겠으나, 비교 결과만 놓고본다면 o1 모델이 MMMU의 시각 인지 task에서 GPT-4o 모델을 능가할 만큼 비전(Vision) task에서도 우수한 성능을 나타낸다는 점이 눈여겨 볼 만한 점인 것 같습니다.

 

GPT-4o / o1-preview / o1 성능 비교

 

 

GPT-4o 대비 o1 모델의 성능 향상도

 

Chain of Thought

사람이 어려운 문제를 해결하는 과정에서 오랫동안 고민하는 것과 유사하게, o1 또한 문제를 해결하는 과정에서 CoT 기술을 접목해 단계별로 고민하고 해결하는 방식을 사용하고 있습니다. CoT 과정에서는 모델이 잘 못 예측한 실수를 스스로 인지하고 교정하는 과정을 반복하는 방법으로 모델의 추론 능력을 극적으로 향상시켰습니다. 이러한 방법을 사용함으로써 사용자가 모델의 추론 과정을 모니터링 가능할 수 있도록 하는 이점을 가지게됩니다. (OpenAI 에서는 CoT 과정의 raw data를 그대로 보여주는 것은 오히려 사용자 입장에서 이해가 어려울 수 있다고 판단해, CoT 과정의 정보를 정제하고 요약한 형태로 제공하고 있습니다.)

CoT 기술의 도입이 복잡한 문제를 해결하는데 도움이 되는 반면, 일상적인 대화나 상식 등 간단한 작업 수행 능력에서는 불필요한 정보 제공이나 문맥의 부자연스러움으로 인해 사용자로 하여금 선호도(매력도)를 떨어뜨리고 응답 속도가 느려지는 단점 또한 가지게 되었습니다.

 

GPT-4o 대비 o1 답변 선호도

 

OpenAI o1-mini

OpenAI에서는 응답 속도가 개선된 o1-mini 경량화 모델을 o1-preview 모델과 함께 배포했습니다. o1-mini 모델은 STEM (Science, Technology, Engineering, Math) 문제 해결에 최적화된 모델로 (AIME, 미국 수학경시대회 기준) 성능은 o1과 유사하면서도 비용은 최대 80%까지 낮추었습니다.
이로부터 OpenAI에서는 CoT의 응답 속도 문제를 해결하기 위한 수단으로 우선은 task 별 전문화된 모델을 제공하는 방식을 사용하려는 것이 아닌가 생각해 볼 수 있습니다.

 

AIME 데이터 기준, OpenAI 모델 별 성능 및 비용

 

비용

CoT를 사용하는 모델인 만큼, 응답 속도와 가격적인 측면에 있어서도 기존 GPT 모델보다 비용이 높다는 것을 확인할 수 있습니다.
응답 속도는 동일한 질의에 대해 GPT-4o는 4초인 반면, o1-mini는 9초, o1-preview는 32초를 나타냈습니다.

 

기존 GPT-4o 모델 및 o1 모델 응답 속도

 

가격은 1M(백만) 토큰 기준 GPT-4o는 $5, o1-mini는 $3, o1-preview는 $15로 책정되었습니다. (가격 참조)


원문

OpenAI o1

OpenAI o1-mini

Comments