OpenAIは「GPT‑5.4」を本日より段階的に公開した。ChatGPT(GPT‑5.4 Thinkingとして)、API(gpt-5.4)、Codexの三つのプラットフォームで利用可能になる。
GPT‑5.4が目指したこと
GPT‑5.4の位置づけをひと言で言えば、「これまでの個別モデルの統合」だ。推論・コーディング・エージェント・知識業務といった分野でそれぞれ最適化されてきたモデルを一本化し、実際のプロフェッショナル業務で使えるレベルの総合力を持たせることを目指している。
特に大きいのは、GPT‑5.3‑Codexが持っていた業界トップクラスのコーディング能力をGPT‑5.4に統合した点だ。これによりChatGPT・API・Codexで同一モデルを使えるようになり、モデル選択の複雑さが解消される。
主な改善点
知識業務(スプレッドシート・資料作成・法律・財務)

44職種にまたがる知識業務タスクを測定するベンチマーク「GDPval」において、GPT‑5.4は産業のプロフェッショナルとの比較で83.0%の勝率または同率を達成した。GPT‑5.2の70.9%から大幅な改善だ。

特にスプレッドシートと資料作成の強化が目立つ。投資銀行のジュニアアナリストが行うような財務モデリングタスクでは、GPT‑5.4が平均87.3%のスコアを記録(GPT‑5.2は68.4%)。プレゼンテーション評価では、人間の評価者の68.0%がGPT‑5.4の出力をGPT‑5.2より好ましいと判定した。
コンピュータ操作機能を初搭載

GPT‑5.4は、OpenAIの汎用モデルとして初めてネイティブなコンピュータ操作機能を搭載した。スクリーンショットを見てマウス・キーボードを操作し、ウェブサイトやソフトウェア上でタスクを自動実行できる。

デスクトップ環境の操作能力を測る「OSWorld-Verified」では75.0%を達成し、GPT‑5.2の47.3%を大きく上回るだけでなく、人間のパフォーマンス基準(72.4%)も超えた。ブラウザ操作を測る「Online-Mind2Web」でも92.8%と高い成績を示している。
コーディング

SWE-Bench Pro(実際のソフトウェアエンジニアリング課題)では57.7%を達成し、GPT‑5.3‑Codexの56.8%に匹敵する水準を維持しつつ、より低レイテンシで動作する。Codexでは「/fastモード」により最大1.5倍の高速化も可能だ。
フロントエンド開発においては、これまでのどのモデルよりも見栄えがよく機能的なUIを生成できるとOpenAIは述べている。
ツール使用の効率化(Tool Search)

APIでは新機能「Tool Search」が導入された。従来は使用可能なツールの定義をすべてプロンプトに含める必要があり、大規模なツールエコシステムではコストと遅延が問題になっていた。Tool Searchでは必要なときだけツール定義を取得する設計になっており、36のMCPサーバーを使ったテストではトークン使用量を47%削減しながら同等の精度を維持した。
ハルシネーション削減
事実誤りとしてユーザーがフラグを立てた会話データでのテストでは、GPT‑5.4の個別の主張が誤りである確率はGPT‑5.2比で33%減、回答全体に誤りが含まれる確率は18%減という結果が出ている。
ChatGPTでの利用条件
ChatGPTでは「GPT‑5.4 Thinking」と「GPT‑5.4 Pro」という形で提供される。
- GPT‑5.4 Thinking:Plus・Team・Proユーザー向けに本日より段階的に提供開始。GPT‑5.2 Thinkingと置き換わる形で導入。GPT‑5.2 Thinkingは3か月間レガシーモデルとして残り、2026年6月5日に廃止予定
- GPT‑5.4 Pro:ProおよびEnterpriseプラン向け。最も複雑なタスクで最大性能が必要な場合に向けた上位モデル。APIでは
gpt-5.4-proとして利用可能 - Enterprise・Edu:管理者設定から早期アクセスを有効化可能
- API・Codex:
gpt-5.4として本日より提供開始
API価格
| モデル | 入力(/Mトークン) | 出力(/Mトークン) |
|---|---|---|
| gpt-5.2 | $1.75 | $14 |
| gpt-5.4 | $2.50 | $15 |
| gpt-5.2-pro | $21 | $168 |
| gpt-5.4-pro | $30 | $180 |
GPT‑5.2比で入力コストは約43%増だが、Token Efficiencyの向上により実際のタスクでのトークン総消費量は減少する見込みとOpenAIは説明している。バッチ・Flex処理は標準レートの半額、優先処理は2倍で利用可能。
コンテキストウィンドウ
APIでは最大100万トークンのコンテキストウィンドウをサポート(実験的)。標準の272Kを超える部分は通常の2倍のレート換算で課金される。
注目点:モデル系統の整理
OpenAIはGPT‑5.4のリリースに際し、「Instantモデル」と「Thinkingモデル」が今後は異なるペースで進化していくと説明している。今回GPT‑5.4という番号をつけたのは、GPT‑5.3‑Codexのコーディング能力を統合したことによる大きな飛躍を反映したためだとしている。
これまで「推論が強いモデル」「コーディングが強いモデル」と個別に使い分けてきたユーザーにとって、統合モデルの登場はワークフロー簡素化の大きな機会になりそうだ。

コメント