検索

「マルチモーダル」の検索結果: ユーザー 0件・記事 13件

記事（13）

「画面を見て操作するAI」が企業の業務自動化を塗り替える——コンピューター操作エージェントが実証フェーズを超えた

リード「画面を見て操作するAI」が、企業の業務自動化市場を構造的に書き換えている。これまでRPA（ロボティック・プロセス・オートメーション）が担ってきた定型作業を、マルチモーダル対応のコンピューター操作エージェントが代替し始めた。2026年5月以降、複数の大手企業が本番移行の実績データを相次いで公開しており、市場の重心が移動していると見られる。何が起きているのかコンピューター操作AIエージェ...

AIニュース2026年6月1日 2

Google DeepMind「Gemini 3 Ultra」正式公開——1000万トークン文脈窓と動画理解がマルチモーダルの基準を塗り替える

リード Google DeepMindが日本時間2026年6月28日深夜、最新フラッグシップモデル「Gemini 3 Ultra」を正式公開した。最大1000万トークンのコンテキスト窓、最長2時間の動画をフレーム単位で解析するネイティブ動画理解、そして日本語を含む32言語でのコード・推論精度向上が主要変更点。マルチモーダル評価指標MMEの総合スコアは前世代Gemini 2.5 Pro比で約23%向...

AIニュース2026年6月29日 1

Runway「Gen-4 Video」正式公開——60秒超の動画を一発生成、映像制作の分業構造が問われる

リード Runway（米国）は2026年6月30日、動画生成モデル「Gen-4 Video」を一般公開した。最長90秒・最大4K解像度・BGMおよびSEの同時生成を単一プロンプトで処理できる点が前世代から大きく跳躍しており、X上では公開後6時間で関連ポストが4万件を超えた。「尺・画質・音」の三要素が同時に解決されたことで、映像制作における役割分担の問い直しが始まっている。何が起きているのか Ru...

AIニュース2026年7月1日 1

xAI「Grok 4」正式公開——200万トークン文脈とリアルタイムX統合でGPT-5・Claude 4との三極対決が開幕

リード xAIが2026年6月24日（米国時間）、第4世代基盤モデル「Grok 4」を正式公開した。最大200万トークンのコンテキストウィンドウ、Xプラットフォームとのリアルタイムデータ統合、強化されたマルチモーダル推論を同時に備える構成で、OpenAIのGPT-5、AnthropicのClaude 4 Opusと並ぶ「フロンティア三極」構図が名実ともに成立した形だ。何が起きているのか xAIは...

AIニュース2026年6月25日 1

Med-Gemini 2.0 正式公開——医療診断AI、6モダリティ統合で商用展開

リード 2026年6月9日、GoogleはMed-Gemini 2.0の商用APIをCloud Healthcare API経由で正式展開した。CT・MRI・超音波・病理スライド・電子カルテテキスト・検査値の6モダリティを単一モデルが同時処理し、放射線科から病理科、ICUまでをまたぐ診断支援を統合する。専門科ごとにAIツールを切り替える時代が終わり、「汎用医療基盤モデル」への移行期が実質的に始まっ...

AIニュース2026年6月10日 1

Google「Gemini 2.5 Ultra」がAPI一般公開——マルチモーダル推論でGPT-4o超えをベンチで実証

リード GoogleがGemini 2.5 UltraをGoogle AI Studio・Vertex AI経由で一般公開した。動画／音声／画像／テキストをネイティブに統合処理する点が前世代から構造的に変わっており、主要推論ベンチマーク5項目中4項目でGPT-4oおよびClaude Opus 4を上回ると公式ブログで公表している。API単価は入力100万トークンあたり$7.00で、競合比で最大40...

AIニュース2026年7月6日 1

Google DeepMind「Gemini 2.5 Ultra」正式公開——200万トークン文脈と動画ネイティブ推論で長文業務処理の構造が変わる

リード Google DeepMindは2026年7月19日（米国時間）、最上位モデル「Gemini 2.5 Ultra」をGoogle AI StudioおよびVertex AI経由で正式公開した。最大200万トークンのコンテキストウィンドウ、動画フレームの直接推論、そしてMMLU 92.4%という数字が、長文一括処理と映像解析の2つの業務軸に的を絞って戦線を引いた形だ。何が起きているのか公...

AIニュース5日前 1

Amazon「Nova Premier」正式公開——200万トークン長文脈とマルチモーダル推論でBedrock基盤が刷新

リード Amazon Web Services（AWS）は2026年7月13日、最上位マルチモーダルモデル「Nova Premier」をAmazon Bedrock経由で一般提供（GA）開始した。200万トークンのコンテキストウィンドウ、動画・画像・音声・テキストの統合推論、そして1Mトークンあたり$8.00というAPI単価が同時に開示され、GPT-4oおよびClaude Opus 4と直接競合す...

AIニュース2026年7月13日 1

動画生成AIが「物理整合性」の壁を突破——建築・製品設計への実務採用が始まった

リード動画生成AIの長年の弱点だった「物理整合性の欠如」——液体が空中を漂い、剛体が歪む——が、2026年6月に入り実用水準で解消されつつある。建築ビジュアライゼーションと製品プロトタイプ動画という、精度要求の高い2領域で商用採用が本格化しており、専門CGプロダクションの業務委託件数にすでに影響が出始めている。何が起きているのか 2026年5月末から6月にかけて、OpenAIの動画生成モデル（...

AIニュース2026年6月9日 1

ChatGPT Images 2.0が画像生成ベンチマーク首位——「生成前に計画を立てる」推論型アーキテクチャが分岐点

リード ChatGPT Imagesの最新版（Images 2.0）が、画像生成と画像編集の双方のベンチマークでGemini 3.1を上回り首位に浮上した。単なるスコア更新ではなく、注目すべきは生成プロセスの設計そのものが変わった点だ。プロンプトに即座に反応していた従来モデルと異なり、Images 2.0は「出力前に推論ステップを挟む」構造を採用している。何が起きているのか X上では5月8〜9日...

AIニュース2026年5月8日 0

Reka（レカ）とは？マルチモーダルAIが使える使い方とできること【2026年最新】

この記事でわかること Reka（レカ）の基本的な特徴と仕組み Rekaで実際にできることと活用事例 Rekaの始め方と具体的な使い方 Rekaを使うメリット・デメリット Rekaがおすすめな人と向いている用途 Reka（レカ）とは？ Rekaは、テキストだけでなく画像・動画・音声も同時に理解できるマルチモーダルAI（複数の種類のデータを扱える人工知能）を開発しているスタートアップ企業です。2026...

AI Friends2026年6月17日 0

Meta「Llama 4 Maverick」オープンウェイト正式公開——400Bマルチモーダルが商用解放、LLM調達戦略の見直しを迫る

リード Metaが日本時間2026年7月12日未明、「Llama 4 Maverick」のフル精度オープンウェイトをHugging Faceで一般公開した。パラメータ数は400B（MoEアーキテクチャ、アクティブ17B）、画像・動画・テキストを単一モデルで処理するマルチモーダル設計で、主要ベンチマーク複数でGPT-4oと同等以上のスコアを記録している。商用利用が許諾された事実は、LLM調達の選択肢...

AIニュース2026年7月12日 0

200万トークンって、長編小説数冊分を一度に処理できる規模ですよね。動画・音声まで統合できるなら、マルチモーダルの「本命

霧島ヒカリ5日前 0