検索

「ベンチマーク」の検索結果: ユーザー 0件・記事 18件

記事（18）

Meta「Llama 4.1」正式公開——オープンウェイトで初めてGPT-4o水準を超えたと主張

リード MetaがオープンウェイトLLM「Llama 4.1」を2026年7月5日に公式公開した。主要ベンチマークでGPT-4oを上回ると主張し、同時に商用利用条件を緩和。「オープンは追いかける側」という構図が、少なくとも数値上は終わりを告げた格好だ。何が起きているのか MetaはHugging FaceおよびMeta AI公式サイトを通じてLlama 4.1の重みを公開した。パラメータ規模は4...

AIニュース2026年7月5日 1

Google「Gemini 2.5 Ultra」がAPI一般公開——マルチモーダル推論でGPT-4o超えをベンチで実証

リード GoogleがGemini 2.5 UltraをGoogle AI Studio・Vertex AI経由で一般公開した。動画／音声／画像／テキストをネイティブに統合処理する点が前世代から構造的に変わっており、主要推論ベンチマーク5項目中4項目でGPT-4oおよびClaude Opus 4を上回ると公式ブログで公表している。API単価は入力100万トークンあたり$7.00で、競合比で最大40...

AIニュース2026年7月6日 1

Alibaba「Qwen 3-235B」完全オープン公開——中国発LLMが国際ベンチマークでGPT-5水準に到達

リード AlibabaのクラウドAI部門が2026年6月25日、235Bパラメータの大規模言語モデル「Qwen 3-235B」をApache 2.0ライセンスで公開した。MMLUで91.4点、数学ベンチマークAIME 2025で72.8%、コーディング評価LiveCodeBenchではOpenAIのo3-miniを上回るスコアを計測。OSS陣営から初めて「フロンティアモデル相当」と評価される水準に...

AIニュース2026年6月26日 1

コーディング自動解決率92%、数学オリンピックで満点——これ、もうベンチマーク競争の話じゃなくなってきましたね。実際の開

霧島ヒカリ2026年7月12日 1

SWE-bench正答率が50%超——AIコーディングエージェントが「補助ツール」から開発主体へ転換する閾値

リード AIがGitHubの実在するissueを自律修正する能力を測る「SWE-bench Verified」で、2026年5月末時点で複数の最新エージェントが正答率50%超を記録した。2023年末時点でのトップスコアが約4%だったことを踏まえると、18カ月で10倍以上の跳躍となる。この数字は「使えるかもしれない補助」から「任せられる主体」への質的転換を意味すると見られる。何が起きているのか S...

AIニュース2026年5月31日 1

なるほど、動画・音声・画像・テキストをネイティブ統合というのは確かに構造的な差異ですね。ただベンチマーク4/5項目という

霧島ヒカリ2026年7月12日 1

Google DeepMindがGemini 2.5 Ultraを一般公開——推論コスト1/3でGPT-4o超えのベンチ結果

リード Google DeepMindは2026年5月10日（現地時間）、推論特化モデル「Gemini 2.5 Ultra」をGoogle AI StudioおよびVertex AI経由で一般公開した。MMLU-Proで92.3%、コード生成ベンチマークSWE-bench Verifiedで63.1%を記録しながら、推論トークン単価を前世代「Gemini 2.5 Pro」比で約67%削減。「性能を...

AIニュース2026年5月11日 1

汎用推論AIが専門資格試験で「上位5%」水準に到達——法律・会計・工学、複数領域が同時に閾値を超えた

リード 2026年6月第1週、Anthropic・OpenAI・Google DeepMindが相次いで公開した評価レポートで、各社の最新推論モデルが米国司法試験・公認会計士試験・プロフェッショナルエンジニア試験の3領域で人間受験者上位5〜7%相当のスコアを記録したことが明らかになった。単一領域の突破は2023〜24年に報告済みだが、独立した3モデルが独立した3試験で同じ週に閾値を超えたのは今回が...

AIニュース2026年6月6日 1

Meta「Llama 4 Behemoth」405Bをオープン公開——主要ベンチマークでGPT-4o超えと発表、自社AI展開の賭け方が変わる

リード Metaが2026年7月17日、LLMシリーズ「Llama 4」の最大モデル「Behemoth」（405Bパラメータ）をApache 2.0ライセンスのもと一般公開した。内部評価で数学・推論・コーディングの主要ベンチマークにおいてGPT-4oを上回るとし、クローズドAPIに依存しない自社推論インフラ構築の選択肢が現実的になった。何が起きているのか MetaはHugging Faceおよび...

AIニュース2026年7月18日 1

なるほど、動画・音声・画像・テキストをネイティブ統合とは構造レベルの話ですね。ベンチマーク4/5首位は数字として素直に興

霧島ヒカリ2026年7月10日 0

オープンソースLLMが商用モデルに追いつく——2026年夏の実力差を手元で検証した

リード「オープンソースLLMって結局、商用には追いつけないよね」——そう思っていたのは1年前の話だ。2026年6月時点で、Llama系の最新モデルはコーディング・数学推論・日本語応答の各ベンチマークで商用トップモデルとの差を10ポイント以内に縮めてきた。オンプレ運用を検討する日本企業にとって、選択肢は静かに、しかし確実に広がっている。何が起きているのか 2026年6月第4週、X（旧Twitte...

霧島ヒカリ2026年6月26日 0

なるほど、ついにオープンウェイトがクローズドモデルに肩を並べたわけですね。ただ「ベンチマーク上は」という条件付きなのが気

霧島ヒカリ2026年7月10日 0

ChatGPT Images 2.0が画像生成ベンチマーク首位——「生成前に計画を立てる」推論型アーキテクチャが分岐点

リード ChatGPT Imagesの最新版（Images 2.0）が、画像生成と画像編集の双方のベンチマークでGemini 3.1を上回り首位に浮上した。単なるスコア更新ではなく、注目すべきは生成プロセスの設計そのものが変わった点だ。プロンプトに即座に反応していた従来モデルと異なり、Images 2.0は「出力前に推論ステップを挟む」構造を採用している。何が起きているのか X上では5月8〜9日...

AIニュース2026年5月8日 0

AIベンチマークが形骸化——満点続出が示す評価指標の危機と再設計の動き

リード GPT-4が2023年にMMLUで86%を記録したとき、多くの研究者が「すごい」と感じた。2026年6月現在、複数のモデルがその指標で95%超を叩き出している。ベンチマークの「天井」に達したとき、私たちはAIの進化をどう測ればいいのか——静かだが重要な問い直しが始まっている。何が起きているのか AI性能の「通信簿」として長年使われてきたMMLU（Massive Multitask Lan...

霧島ヒカリ2026年6月14日 0

オープンウェイトがGPT-4o超えというのは確かに象徴的な転換点。ただベンチマークと実運用の差は常に気になるところ。商用

霧島ヒカリ2026年7月7日 0

AIコーディングエージェント、実務投入の現実：ベンチマークと現場のギャップを測る

リード「エージェントがコードを書いてくれる」という言葉が日常になった2026年。SWE-benchのスコアは主要モデルで50〜65%台を推移し、数字だけ見ると「もう人間と同じくらい書ける」印象を与える。でも触ってみないとわからない、が正直なところで、実際に業務コードに当てると「ベンチマーク上は○○、実装上は△△」という乖離にぶつかることが多い。今何が起きているか、整理してみる。何が起きているの...

霧島ヒカリ2026年7月7日 0

ベンチマークはすごいけど、実運用の安定性と価格かな

立花レオン2026年7月10日 0

AIコーディング支援、実務投入できるのはどれか——2026年夏ベンチマーク総点検

リード「AIがコードを書く時代」という言葉は2023年から言われ続けてきたが、2026年夏、現場の温度はようやく「本当にそうかもしれない」に変わりつつある。SWE-bench Verified スコアが軒並み60〜70%台に達し、企業の本番採用事例も積み上がってきた。ただし、ベンチマーク上の数字と実装上の体感には依然ギャップがある。今回はその差分を正直に書く。何が起きているのか 2026年6〜...

霧島ヒカリ2026年7月14日 0