最新動向

OpenAI o3 & o4-mini:推論性能が向上した AIモデルの特性

2025年4月、OpenAIからOpenAI o3とOpenAI o4-miniの2つのモデルが同時に公開されました。

これらのモデルは応答前の思考によって高い推論能力を持つ「oシリーズ」の最新モデルであり、現在(2025/06/09 時点)ChatGPTの有料版ユーザーまたは開発者向けのAPIによって提供されています。

本記事では、o3とo4-miniの特徴と能力について紹介します。

目次

そもそも『oシリーズ』とは

本題に入る前に、「o3」や「o4-mini」というモデルに共通する『oシリーズ』について紹介
します。

OpenAIはこれまで「GPT」という名前のモデルを主軸に展開してきましたが、近年、その思考プロセスと推論能力に特化した新たなシリーズとして「oシリーズ」を公開しています。
このシリーズの最大の特徴は、回答を生成する前に人間のように「思考」するステップを経ることです。これにより、自らの誤りを認識・修正し、より高度な推論タスクを実行可能となります。

『oシリーズ』の原点であるo1は、2024年9月にプレビュー版がリリースされ、「o1-mini」→「o1」→「o3-mini」→「o3, o4-mini」と公開されました。モデル名に含まれる「mini」は、無印モデルよりも軽量・高速・低コストであることを示します。

また、一般的にOpenAIは「mini」や「preview」といった軽量版や先行版を先にリリース
する傾向があり、「o4(無印版)」についてはo3とo4-miniでの様子を見つつ、引き続き開発が進められていると考えられます。なお、「o2」だけは商標上の問題で公式には存在していません。


o3とo4-miniの概要

ここでは、2025年4月16日に公開されたo3とo4-miniそれぞれの概要と、OpenAIが説明する[1]主な特性について掘り下げます。
両モデルは、ウェブ検索、ファイル分析、視覚的推論、画像生成といった機能を組み合わせ、より複雑な問題解決を可能にしたとされています。

o3は、特にコーディング、数学、科学分野での高度な推論能力に優れ、画像や図表の分析と
いった視覚的タスク、プログラミングやビジネスにおけるアイデア出しでも高い評価を得て
います。

一方、o4-miniは、高速かつコスト効率の高い論理的思考に最適化された小型モデルであり、そのサイズとコストに比して驚異的な性能を発揮します。また、数学のベンチマーク(AIME 2024 および2025)や非 STEM(科学・技術・工学・数学) タスクでは o3‑mini を上回る
結果を示しています。

効率性に優れるo4-miniは、o3よりも利用上限がかなり高く、より多く利用できる点も強みとなっています。詳細は後述の「o3 とo4-miniのコストについて」の【表1】をご参照ください。

また、ChatGPTには「o4-mini-high」というモデルもありますが、こちらはo4-miniの「推論レベル」をlow, medium, highの中からhighにしたものです。 ChatGPT における通常のo4-miniの場合はlowかmediumで設定されています。APIから利用する場合は、以下のように「reasonin,={"effort": "high"} 」という設定を加えることで利用できます。

この設定により、通常のo4-miniよりも深い思考プロセスを経て、高精度な回答を得られる
可能性があります。 


● o3とo4-miniのコスト

o3とo4-miniは、ChatGPTの有料プランと開発者向けAPIの両方で利用可能です。
ChatGPTは月額制、APIは従量課金制となりますが、プランやモデルによって利用上限や料金が異なります。

ChatGPTでは、プランによって利用上限が下の【表1】のように定まっています。

利用プラン
モデル名
利用上限
Plus / Team / Enterpriseo3週あたり100メッセージ
o4-mini
1日あたり300メッセージ
o4-mini-high
1日あたり100メッセージ
Pro
上記すべてのモデル
無制限

【表1】プランごとのo3 とo4-miniの利用上限(OpenAI [2]より抜粋)


APIでの料金は、以下の【表2】のようになっています。
比較として、 GPT-4o と旧モデルのo3-miniの料金も載せておきます。

モデル名input ($ / 1M tokens)output ($ / 1M tokens)
o3$10.00 / 1M tokens$40.00 / 1M tokens
o4-mini$1.10 / 1M tokens$4.40 / 1M tokens
o3-mini$1.10 / 1M tokens$4.40 / 1M tokens
GPT-4o$2.50 / 1M tokens$10.00 / 1M tokens

【表2】APIの利用料金 (OpenAI Platform[3][4]より抜粋)


o3とo4-miniに質問して比較してみる

o3 とo4-miniにいくつかの質問をして回答を見てみます。また、今回は比較対象として
oシリーズの旧モデルの「o3-mini」とChatGPT無料プランで使用できる「GPT-4o」でも
同じ質問をします。

数学・化学などの分野で高い推論能力を持つモデルという説明があるため、今回は以下2つ
の質問にどのように回答するかを試してみました。

・AIME 2024(数学コンテスト)の問題

・マス目の塗り分け問題


●AIME 2024(数学コンテスト)の問題

モデルを評価するベンチマークとして公開されている、AIME 2024[5]の中から1問を、日本語訳した以下の問題を試しました。一工夫は必要ですが、高校数学レベルで解ける連立方程式の問題となっています。

非負整数 (a,b,c) の組で、a+b+c=300 および
a^2b + a^2c + b^2a + b^2c + c^2a + c^2b = 6,000,000 を満たすものは何通りあるか。 

こちらの問題の正解は「601」です。
簡単な解説は以下となります。

・連立方程式を解くと、a,b,cの少なくとも一つが100 と導ける。
・a=100で条件を満たす組は201通り: (a,b,c) = (100,0,200), (100,1,199), … (100,200,0)
・b=100, c=100でも同様にそれぞれ201通り
・(a,b,c) = (100,100,100) の重複を除いて、201 × 3 - 2 = 601通りとなる。

各モデルの正解率・応答速度・文字数は以下のようになりました。

モデル名正解率( / 10)応答速度(s  / 10)文字数( / 10)
o3
1.0
100.9641235.6
o4-mini
0.739.75   623.8
o3-mini
0.833.312116.2
GPT-4o
0  8.421086.7

【表3】AIME 2024の問題での各モデルの正解率・応答速度・文字数


o3では10回の試行で10回とも正解となりましたが、miniモデルと比べると平均で2.5倍以上の応答時間を要しました。
また、o3とo3-miniでは説明文や「1. 等式を対称式で整理する」のような段落分けがo4-miniよりも多い傾向がありました。

一方のo4-miniについては、余分な段落分けを入れず、問題集の解説のように簡潔に文章が
まとめられていました。応答速度はo3よりも速く、o3-miniと同程度です。
しかし、miniモデルおよびGPT-4oでは連立方程式の計算ミスや、「(a,b,c) は (200,100,0) の3!=6通りの順列である。」と適当な組を挙げただけなどの不正解が含まれていました。


●マス目の塗り分け問題

AIの複雑な推論能力とアルゴリズム的思考を評価するため、多岐にわたる組み合わせの中から条件を満たすパターンを正確に数え上げる、以下のような問題を検証に使用しました。

概要:
格子状のマス目を複数色で塗り分ける際、隣接するマスが同じ色にならないようにする 
パターン数を求める問題

この問題は、文章としてはシンプルですが、膨大な組み合わせの中から効率的に解を探索する必要があるため、非常に複雑な計算量を要する高度な難題です。

各モデルの正解率・応答速度・文字数は以下のようになりました。

モデル名正解率( / 10)応答速度( s / 10)文字数( / 10)
o30.6176.271071.0
o4-mini0.2143.17     98.5
o3-mini0  73.291762.8
GPT-4o0  4.7   478.3

【表4】マス目の塗り分け問題での各モデルの正解率・応答速度・文字数

o3では10回の試行で6回の正解と比較的高い精度を示しました。また、o3とo3-miniは毎回詳細な計算過程を提示していました。

一方、o4-miniは2回のみの正解となり、出力の大半は回答のみの簡易的な内容で、文字数はかなり短くなりました。応答速度は o3と同程度のため、内部では計算プロセスを経ていることが推測されます。なお、 GPT-4oについては「この問題自体は非常に複雑であり、個別のアルゴリズムで計算されることが一般的です。」のように、10回とも計算を行いませんでした。


まとめ

本記事では、OpenAI o3とOpenAI o4-miniについてご紹介しました。

どちらのモデルも思考プロセスによる高い推論能力を持つとされていましたが、今回のような高度な問題解決では o3の方が優れているようです。
ただし、応答時間は o4-miniの方が圧倒的に短く、ある程度の正解率も出せているため、場合によってはこちらの方が使いやすいことも多いと思われます。また、2問目について o3とo4-mini は正解を出すことができており、 o3-miniからの改善が伺えます。

現状としては、普段使いする分にはGPT-4oで十分ですが、複雑な問題への推論・解決に対して、解答の質を求めるならばo3、速度を求めるならo4-miniというような使い分けが考えらえられます。



【参考文献】

[1] https://openai.com/ja-JP/index/introducing-o3-and-o4-mini/

[2] https://openai.com/ja-JP/chatgpt/pricing/

[3]https://platform.openai.com/docs/models/compare?model=o3-mini

[4] https://platform.openai.com/docs/models/compare?model=gpt-4o 

[5] https://huggingface.co/datasets/Maxwell-Jia/AIME_2024


記事を書いた人
佐藤 玲央

理工学専攻の大学院2年生です。医療者教育における生成AIを活用した学習支援について研究しています。趣味はスノーボードでインストラクターの資格を保有しています。