最新動向

OpenAIの軽量モデル「GPT-4o mini」を試してみる

OpenAIから低コストの軽量モデルである「GPT-4o miniが公開されました。以前までの低価格モデルの「GPT-3.5 Turbo」よりも60%近く低い価格に設定されており、言語生成能力においてもGPT-4を上回る性能が期待できると紹介されています。 

今回の記事ではこの「GPT-4o mini」にいくつかの質問を提示し、同社の他モデルとの違いを比較していきます。 

目次

参考:GPT-4o mini: advancing cost-efficient intelligence | OpenAI[1]

GPT-4o mini の概要

GPT-4o miniは 低価格の軽量モデルとして公開されています。他モデルよりも低コストかつ低遅延であるためモデル呼び出しの連鎖や大量のコンテキストを使うアプリケーション、リアルタイム対話といった幅広いタスクで利用することができます。GPT-4oと同様に巨大なコンテキストウィンドウやマルチモーダル入力(テキスト、画像)といった特徴をもっています。

表1のようにGoogleのGemini Flashや Anthropicの Claude Haiku、OpenAIのGPT-3.5 Turboといった他の低価格モデルと比べ、トークンあたりのコストが低く設定されていることがわかります。

表1 OpenAI及び他社APIモデルの価格表

Model 

Context-window ( tokens ) cost ( /1M tokens )
GPT-4o mini 128,000 input:$0.15,output: $0.60
GPT-3.5 Turbo 16,000 input:$0.50,output: $1.50
GPT-4o 128,000 input:$5.00,output: $15.0
Gemini Flash 1,000,000 input:$0.35,output: $1.05
Claude Haiku 200,000 input:$0.25,output: $1.25

詳しくは公式サイトの [Pricing][2] やGPT-4o mini: advancing cost-efficient intelligence | OpenAI[1] のドキュメントを確認してみてください。

GPT-4o mini の文章生成能力

GPT-4o miniのベンチマークテスト結果がOpenAIから公開されており、推論(MMLU)、数学推論(MGSM)、マルチモーダル推論(MMMU)といった主要なタスクで他社の低価格モデルやGPT-3.5 Turboの性能を上回っており、GPT-4oに比べて近いパフォーマンスが得られています。

GPT-4o mini:コスト効率の高いインテリジェンスの進化 |OpenAI[1]

GPT-4o mini の使い方

「GPT-4o mini」を利用する場合にも、他のOpenAIモデルと同様にAPIを使って実行することができます。

pip install openai

モデル名を`gpt-4o-mini`もしくは`gpt-4o-mini-2024-07-18`と指定することで利用できます。

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4o-mini-2024-07-18",
  messages=[
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Who won the world series in 2020?"},
    {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
    {"role": "user", "content": "Where was it played?"}
  ]
)

詳細な利用方法については[公式ドキュメント][3]確認してみてください。

GPT-4o mini に質問してみる

いくつかの質問への回答を GPT-4o miniと GPT-3.5 Turboや GPT-4oを比較してみましょう。今回は、以下2つの質問にどのように回答するかを試してみました。

  • 文脈理解
  • 長文要約

文脈理解

まずは、マラソンの順位の変化について質問をして文脈理解の能力を試してみましょう。

以下のプロンプトを実行します。


マラソンで、ある選手が懸命においあげています。今、3位の人を抜きました。何位になったでしょう?

それぞれのモデルの生成結果は以下のようになりました。

`gpt-4o-mini`


その選手が3位の人を抜いた場合、その人自身が3位になります。つまり、その選手は現在3位です。

`gpt-3.5-turbo`


2位になりました。

`gpt-4o`


その選手が3位の人を抜いた場合、その選手は3位になります。つまり、抜かれた選手は4位になります。したがって、その選手は3位になったということです。

表2 マラソンの順位の変化についての質問の正答率

Model Correct Answer Rate ( /10)
GPT-4o mini 0.9
GPT-3.5 Turbo 0.0
GPT-4o 0.9
Correct-Answer

-

こちらの質問は、`3位`が正答です。

回答例をみるとGPT-3.5 Turboでは不正解でしたが、GPT-4o miniでは正しく回答できていますね。また表2の正答率によると、GPT-4o miniの正答率(試行回数=10)は高く、GPT-4oと近い正答率になっています。

長文要約

次に、長文の要約タスクを試してみましょう。

今回は『「新しい資本主義」についての政策』[4]ついて要約してみます。このページの一部を対象に約100,000トークン程度の文章をプロンプトに組み込みます。

また、GPT-3.5 Turboでは入力可能なトークン数が少なくなるため、1/10程度まで文章を短くして組み込みます。

以下のプロンプトに先ほどのPDFの文章を追加して実行します。


以下の文章を300字程度に要約してください

今回は要約の文字数を指定しているので、出力文字数を比較してみましょう。 

それぞれのモデルの生成結果と出力文字数は以下のようになりました。

`gpt-4o-mini`


2023年6月に改訂された「新しい資本主義のグランドデザインおよび実行計画」では、成長と分配の好循環を目指す経済政策を述べている。本計画は、人への投資、科学技術・イノベーション、スタートアップの支援、GX(グリーントランスフォーメーション)およびDX(デジタルトランスフォーメーション)の四本柱で構成されている。特に労働市場の改革や賃上げの必要性が強調され、官民連携を通じて分配の目詰まりを解消し、中間層の復活を図る。また、経済安全保障の強化や社会的課題の解決も重要視されており、具体的な施策としては、食料・エネルギー安全保障、投資環境の整備、スタートアップの育成が挙げられる。特に、スタートアップに対する資金供給やオープンイノベーションの推進が強調され、日本をアジア最大のスタートアップハブに育成する目標が設定された。このように、持続可能な経済成長を実現しながら、国民の幸福を追求する包括的な計画である。

文字数: 403


 `gpt-3.5-turbo`


リ・スキリングのために必要な費用は、給与所得控除の対象になりやすい仕組みを柔軟化する。これにより、リ・スキリングにかかる費用を控除することが容易になり、働く個人が積極的にスキルや知識を向上させる機会を増やすことが期待される。また、リ・スキリングを通じて、働き手と企業の関係を対等なものに変革していくことが重要である。リ・スキリングを支援するためには、個人に直接支援を行うだけでなく、企業も人への投資を強化する必要があり、官民でパッケージの実施状況をフォローアップし、改革に対する対応を迅速に行うことが求められている。

文字数: 258


`gpt-4o`


新しい資本主義のグランドデザイン及び実行計画2023改訂版(令和5年6月16日)は、成長と幸福の好循環を目指す計画である。今年度改訂版は、主に人材投資、科学技術イノベーション、スタートアップ育成、グリーン成長(GX)およびデジタル転換(DX)に重点を置いている。具体的には、持続的な賃上げや労働市場の透明化、AIとデジタル技術の導入促進、イノベーション支援、地域経済の活性化、国際競争力強化などを目的とした施策を展開。また、社会的課題を解決し、普遍的価値を守りつつ、安全保障と経済的成長を両立させる方針を示した。他方、企業の参入・退出の円滑化、スタートアップの資金調達支援、雇用者の資産形成支援を進めるための具体的な制度改正も含まれている。これらの取り組みを通じて、持続可能で包摂的な経済社会システムの構築を目指す。

文字数: 358


表3 長文要約結果の文字数の比較

Model Example of output length Average of output length (10)
GPT-4o mini 403 (+103) 433.0(+133.0)
GPT-3.5 Turbo 258 (-42) 385.1(+85.1)
GPT-4o 358(+58) 290.0(-10.0)
Correct-Answer 300 300

GPT-4o / GPT-4o miniでは新しい資本主義についてまとめられており、内容もかなり近いですが、GPT-3.5 Turboでは回答例のように文書の一部に着目してしまい全体を上手く要約できないケースがありました。これは他モデルに比べ入力文字数が制限されることが原因の一つであると思われます。

また、表3にあるように各モデルの要約時の出力文字数と指定文字数を比較したところ、試行回数=10 の場合の平均出力長はGPT-4o miniは他モデルよりも指定文字数から離れた値となりました。

GPT-4o mini のまとめ

本記事では、「GPT-4o mini」がプレビュー版から更新されてどう変わったのかについてご紹介しました。

今回は2つの質問を試してみましたが、特に文脈理解が必要なマラソンの順位についての質問への回答が従来の軽量モデルであるGPT-3.5 Turboよりも改善していました。また、要約タスクにおいてもGPT-3.5 Turboよりも多くのトークンを入力できるため、GPT-4oのような高価格なモデルに近い性能が得られるようになってきています。

GPT-4o miniでは従来の低価格モデルと比べてかなり生成精度が向上されており、マルチモーダルや長大なトークン入力等、今までは高価格なモデルでしかできなかった機能も利用できるため、難解なタスクへの対応を求められる場合以外はGPT-4o miniで十分といえるかもしれません。



【参考文献】

[1]https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

[2]https://openai.com/pricing

[3]https://platform.openai.com/docs/guides/text-generation

[4]https://www.cas.go.jp/jp/seisaku/atarashii_sihonsyugi/pdf/ap2023.pdf


記事を書いた人
釣部 勇人

理工学専攻の大学院生で、主に言語AIを扱っています。大学では、生成AIを用いた学習支援アドバイスの生成について研究しています。