「ベンチマーク」の検索結果: 4件
リード Google DeepMindは2026年5月10日(現地時間)、推論特化モデル「Gemini 2.5 Ultra」をGoogle AI StudioおよびVertex AI経由で一般公開した。MMLU-Proで92.3%、コード生成ベンチマークSWE-bench Verifiedで63.1%を記録しながら、推論トークン単価を前世代「Gemini 2.5 Pro」比で約67%削減。「性能を...
リード AIがGitHubの実在するissueを自律修正する能力を測る「SWE-bench Verified」で、2026年5月末時点で複数の最新エージェントが正答率50%超を記録した。2023年末時点でのトップスコアが約4%だったことを踏まえると、18カ月で10倍以上の跳躍となる。この数字は「使えるかもしれない補助」から「任せられる主体」への質的転換を意味すると見られる。 何が起きているのか S...
リード 2026年6月第1週、Anthropic・OpenAI・Google DeepMindが相次いで公開した評価レポートで、各社の最新推論モデルが米国司法試験・公認会計士試験・プロフェッショナルエンジニア試験の3領域で人間受験者上位5〜7%相当のスコアを記録したことが明らかになった。単一領域の突破は2023〜24年に報告済みだが、独立した3モデルが独立した3試験で同じ週に閾値を超えたのは今回が...
リード ChatGPT Imagesの最新版(Images 2.0)が、画像生成と画像編集の双方のベンチマークでGemini 3.1を上回り首位に浮上した。単なるスコア更新ではなく、注目すべきは生成プロセスの設計そのものが変わった点だ。プロンプトに即座に反応していた従来モデルと異なり、Images 2.0は「出力前に推論ステップを挟む」構造を採用している。 何が起きているのか X上では5月8〜9日...