OpenAI o1: 복잡한 추론을 위한 새로운 언어 모델 도입

OpenAI o1: 복잡한 추론을 위한 새로운 언어 모델 도입

OpenAI가 새로운 대형 언어 모델 o1을 선보였다. 이 모델은 강화 학습을 통해 복잡한 추론을 수행할 수 있도록 훈련되었으며, 최종 답변을 생성하기 전에 내부적으로 깊이 있는 사고 과정을 거친다. 이를 통해 AI의 추론 능력이 한층 더 향상되었다.

OpenAI의 o1은 경쟁 프로그래밍 질문(Codeforces)에서 상위 89%의 성과를 기록했으며, 미국 수학 올림피아드(AIME) 예선에서는 미국 상위 500명 학생과 비슷한 수준의 결과를 보였다.

또한, 물리, 생물학, 화학 문제를 다루는 GPQA 벤치마크에서는 인간 박사 수준의 정확도를 뛰어넘는 성과를 거두었다. 현재 모델의 사용 편의성을 개선하기 위한 작업이 진행 중이지만, OpenAI는 초기 버전인 o1-preview를 ChatGPT와 신뢰할 수 있는 API 사용자들에게 공개했다.


💡
pass@1 accuracy는 인공지능 모델이 주어진 문제에서 첫 번째로 생성한 답변이 정답일 확률을 나타낸다. 예를 들어, 모델이 100개의 문제를 풀었을 때 첫 번째 답변이 80문제에서 정답이라면, pass@1 accuracy는 80%가 된다.

강화 학습과 추론 능력

대규모 강화 학습 알고리즘은 모델이 사고 과정을 통해 생산적으로 생각할 수 있도록 훈련한다. o1은 반복적인 훈련을 통해 꾸준히 성능이 향상되었으며, 더 많은 계산 자원을 사용해 생각하는 시간이 길어질수록 더욱 높은 성과를 보였다. 이 접근 방식의 확장 가능성은 기존의 대형 언어 모델 사전 학습 방식과 크게 달라, 이에 대한 연구가 계속 진행되고 있다.

o1은 어려운 추론 테스트에서 GPT-4o보다 성능이 많이 좋아졌다. 실선 막대는 pass@1 정확도를 보여주고, 음영 영역은 64개 샘플을 이용한 다수결 결과를 나타냈다.

성능 평가 결과

o1의 성능을 확인하기 위해 인간 시험과 다양한 머신러닝 벤치마크에서 모델을 평가했다. 그 결과, 대부분의 추론 중심 작업에서 GPT-4o를 크게 앞서는 성과를 보였다.

특히 AIME 시험에서는 GPT-4o가 평균 12%의 문제를 해결한 데 비해, o1은 74%를 해결했고, 학습된 스코어링 기능을 적용하자 성능이 93%까지 향상되었다. 또한, GPQA-diamond라는 어려운 지능 벤치마크에서도 인간 박사 전문가들을 뛰어넘는 성과를 보여주었다.

o1은 GPT-4o에 비해 다양한 벤치마크에서 성능이 향상되었으며, MMLU의 57개 하위 카테고리 중 54개에서 개선되었다. 그중 7개를 예시로 제시했다.

연쇄적 사고(Chain of Thought)

o1은 어려운 문제에 답하기 전에 연쇄적 사고 과정을 거친다. 이를 통해 모델은 복잡한 문제를 단순한 단계로 나누어 해결하고, 잘못된 접근을 인식하고 수정하는 능력을 배운다. 이 과정은 모델의 추론 능력을 크게 향상시키며, 문제 해결에 있어 보다 효율적인 접근 방식을 사용하게 한다.

코딩 능력 향상

o1을 기반으로 프로그래밍 능력을 더욱 향상시키기 위해 훈련한 모델은 2024년 국제 정보 올림피아드(IOI)에서 49%의 성과를 기록했다. 모델은 경쟁 프로그래밍 대회(Codeforces)에서도 인간 경쟁자들보다 우수한 성과를 보이며 코딩 실력을 입증했다.

안전성 강화

연쇄적 사고를 통해 모델의 안전성과 정렬 능력도 향상되었다. 모델이 사고하는 과정을 관찰함으로써 인간의 가치와 원칙을 학습할 수 있었으며, 이를 통해 o1-preview는 주요 안전성 평가에서 GPT-4o보다 훨씬 뛰어난 성과를 기록했다.

결론

o1은 AI 추론의 새로운 가능성을 열어준다. 향후 더 개선된 모델을 공개할 계획이며, 이 새로운 추론 능력이 과학, 코딩, 수학 등 다양한 분야에서 AI의 활용 가능성을 크게 확대할 것으로 기대된다. 사용자가 이 모델을 통해 일상 업무에서 어떤 변화를 경험하게 될지 기대된다.

Read more

김덕진 소장과 함께하는 실제 직장인 AI활용 치트키

김덕진 소장과 함께하는 실제 직장인 AI활용 치트키

[AI 프롬프트 치트키 특강 – 실무에 바로 쓰는 GPT 전략] 2025년 4월, 사용성연구소 이승필 대표가 유튜브 라이브 방송에서 직장인을 위한 ChatGPT 활용 전략을 공유했습니다. 핵심은 ‘원목결’, ‘역자단결’ 등의 프롬프트 템플릿을 통해 AI에게 명확히 지시하고 원하는 결과를 단계적으로 이끌어내는 방식입니다. 이메일 회신, 파일 정리, 영수증 자동 분류, 이력서 맞춤 작성 등 실무

By 이승필
이승필 대표 신간 출간! 『챗GPT 일타강사의 직장인 업무 만렙 공략집』

이승필 대표 신간 출간! 『챗GPT 일타강사의 직장인 업무 만렙 공략집』

챗GPT 일타강사의 직장인 업무 만렙 공략집 - 예스24“챗GPT, 일 잘하는 직장인은 이렇게 쓴다”대기업 출강 압도적 1위! 일타강사가 알려주는챗GPT 완벽 활용법프로 일잘러들만 몰래 쓰던 챗GPT 업무 활용 노하우가 드디어 책으로 공개된다. 120개 기업이 앞다퉈 섭외하고 직장인 2만 명이 극찬한 ’챗GPT 일…한빛미디어이승필 저 안녕하세요, 사용성연구소입니다. 오늘은 많은 분들이 기다리셨을

By 이승필
AI로 하루 5시간 업무시간 단축하는 법. 사용성연구소 대표 이승필(AI 팟캐스트 #49)

AI로 하루 5시간 업무시간 단축하는 법. 사용성연구소 대표 이승필(AI 팟캐스트 #49)

최근 AI 기술이 직장인들의 업무 방식을 혁신적으로 변화시키고 있다. 특히 AI 기반 업무 도구들은 효율성과 생산성을 높이는 데 중요한 역할을 하고 있다. 이에 대한 깊이 있는 논의를 위해 인기 유튜버 ‘평범한 사업가’가 진행하는 팟캐스트 ‘평범한 사람들’에서 웍스AI의 이승필 AX 총괄 이사를 초대해 AI가 업무 환경을 어떻게 변화시키고 있는지

By 이승필
웍스AI Generative AI Trend 컨퍼런스

웍스AI Generative AI Trend 컨퍼런스

이승필 대표, 웍스AI AI 트렌드 컨퍼런스 강연 웍스AI가 주최한 AI 트렌드 컨퍼런스에서 이승필 대표(사용성연구소 대표, AX 사업총괄 이사)가 강연을 진행했다. 이번 강연에서는 구글 AI 기술의 최신 동향과 기업 활용 방안을 중심으로, 제미나이 2.0, 프로젝트 아스트라, AI 기반 자동화 도구, 텍스트-이미지 및 텍스트-비디오 모델 등 최신 AI 기술의

By 이승필
Footer Example