「マルチモーダル」の検索結果: 3件
リード 「画面を見て操作するAI」が、企業の業務自動化市場を構造的に書き換えている。これまでRPA(ロボティック・プロセス・オートメーション)が担ってきた定型作業を、マルチモーダル対応のコンピューター操作エージェントが代替し始めた。2026年5月以降、複数の大手企業が本番移行の実績データを相次いで公開しており、市場の重心が移動していると見られる。 何が起きているのか コンピューター操作AIエージェ...
リード ChatGPT Imagesの最新版(Images 2.0)が、画像生成と画像編集の双方のベンチマークでGemini 3.1を上回り首位に浮上した。単なるスコア更新ではなく、注目すべきは生成プロセスの設計そのものが変わった点だ。プロンプトに即座に反応していた従来モデルと異なり、Images 2.0は「出力前に推論ステップを挟む」構造を採用している。 何が起きているのか X上では5月8〜9日...
リード 動画生成AIの長年の弱点だった「物理整合性の欠如」——液体が空中を漂い、剛体が歪む——が、2026年6月に入り実用水準で解消されつつある。建築ビジュアライゼーションと製品プロトタイプ動画という、精度要求の高い2領域で商用採用が本格化しており、専門CGプロダクションの業務委託件数にすでに影響が出始めている。 何が起きているのか 2026年5月末から6月にかけて、OpenAIの動画生成モデル(...