본문 바로가기
AI

[AI] ChatGPT 사용법 (31) - o1-preview, o1-mini 사용법

by 노력남자 2024. 9. 17.
반응형

이번 포스팅에선 아주 최근에 OpenAI에서 발표한 OpenAI o1-preview, o1-mini 모델에 대해 알아보겠다.

 

o1-preview란?

 

2024년 9월 12일에 나온 복잡한 과학, 코딩, 수학 작업에 특화된 새로운 AI 모델이다.

 

사람처럼 응답 전에 문제를 더 깊이 생각하도록 훈련이 된 모델이다. 훈련을 통해 사고 과정을 정제하고, 다양한 전략을 시도하며, 자신의 실수를 인식하는 법을 배우게 함으로써 더 정확한 답변을 낼 수 있다. OpenAI는 이를 Chain of Thought(사고의 연쇄)라고 부른다.

 

위 문장이 어떤 뜻인지 알 수 있는 OpenAI X 계정에 올라온 동영상 일부를 가지고 왔다.

 

공주는 왕자의 나이가 될 것입니다. 그때 공주의 나이는 왕자의 두 배입니다. 공주의 나이는 그들의 현재 나이 합의 절반이었을 때 왕자의 나이였습니다. 왕자와 공주의 나이는 몇 살입니까? 이 질문에 대한 모든 해를 구하세요.

 

라는 질문에 이전 모델 같은 경우엔 바로 답변을 내놓았겠지만, o1-preview는 아래에 나오는 것처럼 일련의 과정을 거쳐 답변을한다.

 

 

GPT-4o와 얼마나 다른 답변을 내놓는지에 대한 건 여기서 아래로 좀 내린 후 Chain of Thought에서 확인할 수 있다.

 

 

네이밍이 GPT-5o가 아니라 o1인 이유는 아예 새로운 레벨에 도달해서 다시 카운팅을 1로 돌렸다고 한다.

 

o1에 o가 이전처럼 "omni"인지 "openAI"인지는 정확하게 모르겠다.

 

그리고 아직 이미지, 동영상 처리 및 생성은 불가능하다. 나중에 오픈할 예정.

 

그래서 얼마나 좋아진 건데?

 

OpenAI에서 제공해준 GPT-4o랑 비교한 자료를 보면 수학, 코딩, 퀴즈를 해결하는 능력이 o1 시리즈가 GPT-4o보다 월등한 성능을 가지고 있다는 걸 알 수 있다.

 

(AIME 2024: 수학 경시 대회, Codeforeces: 프로그래밍 대회 플랫폼, GPQA Diamond: 구글 플레이 퀴즈 앱 Diamond 티어)

 

위에 표에 나와있는 내용을 보면 o1는 경쟁 프로그래밍 문제(Codeforces)에서 89번째 백분위수에 해당하며, 미국 수학 올림피아드 예선전(AIME)에서 미국 상위 500명의 학생에 속하고, 물리학, 생물학, 화학 문제의 벤치마크(GPQA)에서 박사 학위 수준의 정확도를 초과한다는 걸 알 수 있다.

 

GPT-4o랑 비교하면 월등하게 높은 수치다.

 

아직 안 나온 o1 성능은 말이 안 되네..

 

 

본문에서 그래프 설명을 가지고 왔다.

 

많은 추론 중심의 벤치마크에서 o1은 인간 전문가와 비슷한 성능을 보입니다. 최신 최전선 모델들은 MATH와 GSM8K에서 매우 잘 수행하여 이 벤치마크들이 더 이상 모델을 구별하는 데 효과적이지 않게 되었습니다. 우리는 AIME에서의 수학 성능을 평가했습니다. AIME는 미국에서 가장 우수한 고등학생들을 도전시키기 위해 설계된 시험입니다. 2024 AIME 시험에서 GPT-4o는 평균적으로 문제의 12% (1.8/15)만을 해결했습니다. 반면, o1은 문제당 한 샘플로 평균 74% (11.1/15), 64개의 샘플에 대한 합의로 83% (12.5/15), 1000개의 샘플을 학습된 점수 함수로 재정렬하여 93% (13.9/15)를 해결했습니다. 13.9의 점수는 전국 상위 500명에 해당하며, USA 수학 올림피아드 진출 기준을 초과하는 점수입니다.

또한, 우리는 o1을 GPQA diamond에서 평가했습니다. 이 지능 벤치마크는 화학, 물리학, 생물학 분야의 전문성을 테스트합니다. 모델과 인간을 비교하기 위해 박사 학위를 가진 전문가들에게 GPQA-diamond 질문에 답하도록 요청했습니다. 결과적으로 o1은 이 벤치마크에서 인간 전문가의 성능을 초월한 최초의 모델이 되었습니다. 이러한 결과는 o1이 모든 면에서 박사보다 더 유능하다는 것을 의미하지는 않습니다 — 단지 모델이 박사가 풀어야 할 문제를 해결하는 데 더 능숙하다는 것을 의미합니다. 여러 다른 ML 벤치마크에서 o1은 최신 기술을 개선했습니다. 비전 인식 기능이 활성화되었을 때 o1은 MMMU에서 78.2%를 기록하며, 인간 전문가와 경쟁할 수 있는 최초의 모델이 되었습니다. 또한 57개의 MMLU 하위 범주 중 54개에서 GPT-4o를 초월했습니다.

 

o1-mini란?

 

o1-mini는 사전 훈련 동안 STEM(Science, Technology, Engineering, Mathmatics) 추론에 최적화된 작은 모델이다.

 

GPT-4o mini처럼 mini가 붙었다고 성능이 떨어지는 모델이 아니다.

 

세로: 성능, 가로: 금액

 

위 표를 보면 o1-preview, o1보다 STEM에 관한 성능은 더 좋다는 걸 알 수 있다. 비용도 훨씬 저렴하다.

 

아쉬운 점

 

STEM에 특화된 모델이라 날짜, 전기, 퀴즈와 같은 비-STEM 주제에 대한 사실적 지식은 GPT-4o mini와 같은 작은 언어 모델과 비슷한 수준이다.

 

GPT-4o vs o1-mini vs o1-preview 속도 비교

 

 

같은 질문에

 

GPT-4o는 3초

o1-mini 9초

o1-preview 32초

 

가 걸렸다.

 

o1-mini, o1-preview  사용 가능 티어,  호출 가능 횟수

 

- Free Tier: 사용 불가

 

- Plus, Team: 주당 o1-preview 30개, o1-mini 50개

 

 

- Enterprise, Edu: 다음 주부터 사용 가능

 

- API: Usage Tier 5만 사용 가능, 분당 20회 호출 가능

반응형

댓글