最新動向

最新版「GPT-4 Turbo」を試してみた|GPT-4oとの比較あり(5/14追記)

OpenAIが提供する「GPT-4 Turbo」は、プレビューの表記がとれた正式版が2024/04/09に公開されました。今回はこのモデルが以前とどう変わったの検証の予定でしたが、さらに、2024/05/14(日本時間)に最新の「GPT-4o」も公開されたため、こちらも同様に試してみました。

目次

GPT-4 との違い

GPT-4 Turbo は GPT-4 に様々な改良を加えたモデルです。GPT-4と比較すると以下のような変更点があります。


  • コンテキストウィンドウの増加:  
     GPT-4 では最大 32k トークンまででしたが、 GPT-4 Turbo では 128k トークンまで拡張されており、GPT-4 に比べて 4 倍の文章量を読み込むことができるようになりました。
  • トークンあたりの料金の減少:  
     GPT-4に比べて入力が1/3、出力が1/2と料金が安くなっています。
  • フォーマットに従った生成の向上:  
     XMLやJSONのような特定のフォーマットに従った生成タスクにおいて、既存モデルよりも高いパフォーマンスが得られるようになっています。

Model

Context-window ( tokens )

cost ( /1M tokens )

GPT-4 Turbo

128,000

input:$10.00,output: $30.00

GPT-4

8,000 ~ 32,000

input:$30.00,output: $60.00

 詳しくは公式サイトのPricing[3]や DevDay[4]のドキュメントを確認してみてください。

GPT-4 Turbo プレビュー版との違い

最新版の公開にあたって、プレビュー版からいくつかの変更点があります。

  • 文章生成の精度改善
  • GPT-4 Turbo with Vision の一般提供

文章生成の精度改善

GPT-4 Turbo 最新版のベンチマークテスト結果がOpenAIから公開されており、実施されたほぼすべてのベンチマークでスコアが更新されています。特に記述、数学、論理的推理、コーディングの性能改善を行ったとされています。

Model

DROP(f1)

GPQA%

MATH%

MGSM%

MMLU%

HumanEval%

gpt-4-turbo-2024-04-09

86.0

49.3

73.4

89.6

86.7

88.2

gpt-4-1106(-vision)-preview

83.2

42.5

64.3

87.1

84.7

83.7

gpt-4-0125-preview

81.5

41.4

64.5

85.1

85.4

86.6

openai/simple-evals (github.com) より一部抜粋(Prompt = Assistant)

GPT-4 Turbo with Vision の一般提供

プレビュー版では、画像データを含むモデル GPT-4 Turbo with Vison は開発者向けモデルになっており、テキストのみのモデルと画像データを含むモデルに分けて公開されていました。それに対して、今回の最新版では、 GPT-4 Turbo with Vison モデルである“gpt-4-turbo-2024-04-09”が一般に公開されています。

GPT-4 Turbo の使い方

「GPT-4 Turbo」の最新版を利用する場合にも、プレビュー版や他のOpenAIモデルと同様にAPIを使って実行することができます。


pip install openai
 

最新版は、モデル名を“gpt-4-turbo”もしくは“gpt-4-turbo-2024-04-09”と指定することで利用できます。

from openai import OpenAI


client = OpenAI()


response = client.chat.completions.create(

   model="gpt-4-turbo-2024-04-09",

   messages=[

     {"role": "system", "content": "You are a helpful assistant."},

     {"role": "user", "content": "Who won the world series in 2020?"},

     {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},

     {"role": "user", "content": "Where was it played?"}

  ]

)

 詳細な利用方法については公式ドキュメント[5]を確認してみてください。

GPT-4oについて

GPT-4o("o "は "omni "の意)は、テキスト、音声、画像の入力、及び出力ができるOpenAI社の最新モデルで2024/5/14にリリースされました。

こちらのリリース情報[6]によると、テキストだけ見ても、GPT-4 Turboに比べて性能が上がり、2倍速くなって1/2の値段になっています。また、Tokenizerも改善されているので、日本語は1.4倍ほどtoken効率がよくなります。

GPT-4 Turbo / GPT-4o に質問してみる

 いくつかの質問への回答を最新版(“gpt-4-turbo-2024-04-09”)とプレビュー版(“gpt-4-0125-preview”,“gpt-4-1106-preview”)で比較してみましょう。またGPT-4 Turboだけでなく、先日公開されたGPT-4oとも比較します。

今回は、以下2つの質問にどのように回答するかを試してみました。

  • 数値の変換
  • 長文要約

数値の変換

まずは、漢数字交じりの数値を算用数字に変換できるかを試してみましょう。

以下のプロンプトを実行します。


3億8百万を算用数字に変換してください


それぞれのモデルの生成結果は以下のようになりました。

“gpt-4-turbo-2024-04-09”の場合


3億8百万は算用数字で「308,000,000」と表記します。

“gpt-4-0125-preview”の場合


3億8百万を算用数字にすると、380,000,000です。

“gpt-4-1106-preview”の場合


3億8百万を算用数字にすると、380,000,000になります。

“gpt-4o-2024-05-13”の場合


「3億8百万」を算用数字に変換すると「308,000,000」となります。


Model

Example of Answer

Correct Answer Rate ( /10)

gpt-4-turbo-2024-04-09

308,000,000

0.8

gpt-4-0125-preview

380,000,000

0.5

gpt-4-1106-preview

380,000,000

0

gpt-4o-2024-05-13

308,000,000

0.7

Correct-Answer

308,000,000

-

 こちらの質問は、“3億8百万 → 308,000,000”が正答です。

プレビュー版では回答が“380,000,000”で不正解でしたが、最新版では“308,000,000”と正しく回答できていますね。また、試行回数=10の場合の正答率も最新版が最も高くなっています。

gpt-4oの試行回数=10の場合の正答率はGPT-4 Turbo最新版と近く大きな差はありません。

 

長文要約

次に、長文の要約タスクを試してみましょう。  

今回は[「新しい資本主義」についての政策][7]内の文章について要約してみます。このページの一部を対象に約100,000トークン程度の文章をプロンプトに組み込みます。  以下のプロンプトに上記の文章を追加して実行します。


以下の文章を300字程度に要約してください

今回は要約の文字数を指定しているので、出力文字数を比較してみましょう。

それぞれのモデルの生成結果と出力文字数は以下のようになりました。

“gpt-4-turbo-2024-04-09”の場合

新しい資本主義実現のための政策ラインナップが詳述されており、経済、社会、環境の各分野の具体的な計画と目標が設定されています。重要な政策として、デジタルとグリーンの投資、スタートアップの育成、高度外国人材の呼び込み、エネルギー安全保障の確保などが挙げられています。また、中間層向けの資産形成や地方分権を基にしたデジタル田園都市国家構想も盛り込まれており、多角的な社会課題に対応するための改革が提案されていることがわかります。これらの政策を実行することにより、経済成長を促進しながら社会の持続可能性も高めていくことを目指す内容となっています。

文字数: 269

“gpt-4-0125-preview”の場合


新しい資本主義のグランドデザイン及び実行計画2023改訂版では、資本主義のバージョンアップを目指し、経済の持続的な成長と国民の幸福実現を促進するための多角的な施策を提示している。計画では、分配の目詰まりを解消し、更なる成長を実現すること、技術革新による成長力の確保、民間も公的役割を担う社会の実現などが挙げられている。投資、研究開発、スタートアップ支援、そしてGX・DXへの投資といった重点分野における政策展開により、資本主義の持続可能性と強靱性の向上を図る。事業不振の場合の支援や企業の参入・退出の円滑化も重視されており、社会的課題を解決する経済社会システムの構築に向けた取り組みも強調されている。また、資産所得倍増プランと分厚い中間層の形成に向けた施策や、デジタル田園都市国家構想の実現、そして経済社会の多極化に対応するための方策も盛り込まれている。

文字数: 377

“gpt-4-1106-preview”の場合

新しい資本主義のグランドデザイン及び実行計画2023改訂版は、資本主義を更新し、市場の活力と国民の福祉を両立させる様々な方針を包含しています。主要な節目としては、資本主義のバージョンアップ、資産所得倍増プラン、企業の参入・退出の円滑化、デジタル田園都市国家構想、スタートアップ育成5か年計画の推進などがあります。中でも「市場も国家も」による課題解決を目指し、環境変化に対応するため経済安全保障を徹底するといった新しいアプローチが特徴的です。また、国民一人ひとりの幸福を実現するために、社会的課題を解決しながら経済成長を実現する「三位一体の労働市場改革」の対策を推進し、持続可能で包摂性のある経済社会システムを構築する方向性が示されています。さらに、GX・DX投資、食料安全保障、AI技術の発展、DX促進、官民連携によるイノベーションの推進など、多岐にわたる分野での計画が立てられています。

文字数: 394

“gpt-4o-2024-05-13”の場合

「新しい資本主義のグランドデザイン及び実行計画2023改訂版」は、令和5年6月16日に発表された。これは資本主義のバージョンアップを目指し、多様な政策を掲げて持続的な成長と幸福実現を図る計画である。本計画は特に4つの柱、人への投資、科学技術・イノベーション、スタートアップ支援、GX(グリーントランスフォーメーション)・DX(デジタルトランスフォーメーション)への重点投資を強調している。また、経済安全保障や普遍的価値の保護に焦点を当て、日本経済の構造問題に取り組むことも目的とする。政府と民間の連携を通じ、課題解決を成長のエンジンに転換し、経済成長と分配の好循環を達成する方針を持つ。さらに、地域や多様な人材への投資、デジタル基盤の整備、労働市場改革を策定し、新たな市場と成長を創るための制度改正が盛り込まれている。これらの施策は、持続可能な経済社会システムの構築を目指しており、内外政策の調和を図りつつ実行される予定。

文字数: 411


Model

Example of output length

Average of output length (10)

gpt-4-turbo-2024-04-09

269 (-31)

319.8(+19.8)

gpt-4-0125-preview

377 (+77)

381.1(+81.1)

gpt-4-1106-preview

394 (+94)

382.0(+82.0)

gpt-4o-2024-05-13

411(+111)

424.5(+124.5)

Correct-Answer

300

300

 どのモデルでも新しい資本主義についてまとめられており、内容もかなり近いですが、プレビュー版よりも最新版の方がより指定した文字数に近い要約ができていますね。

また、試行回数=10の場合の平均出力長についても最新版が最も指定文字数に近くなっています。対して、gpt-4oは出力長が他モデルよりも大きくなる傾向があり、今回のケースでは最も指定文字数からはずれた結果となりました。 

プレビュー版からの変更点のまとめ

本記事では、「GPT-4 Turbo」がプレビュー版から更新されてどう変わったのかについてご紹介しました。

今回は2つの質問を試してみましたが、どちらの質問への回答でもプレビュー版よりも改善しているように感じました。  GPT-4oでも試してみましたが、今回の質問に対しては GPT-4 Turbo の方が良い結果となりました。

特に、漢数字交じりから算用数字の変換ではプレビュー版では正答できていないケースが改善されているので、他の数値関連の質問への回答も改善できているかもしれませんね。


>>ChatGPT/LLM導入支援サービス


参考文献

[1] OpenAi 公式HP

[2] OpenAi 公式X

[3]Pricing

[4]DevDay

[5]公式ドキュメント

[6]リリース情報

[7]「新しい資本主義」についての政策

記事を書いた人
釣部 勇人

理工学専攻の大学院生で、主に言語AIを扱っています。大学では、生成AIを用いた学習支援アドバイスの生成について研究しています。