
「コーディング相談したらAIが急にゴブリンの話を始めた」——そんな珍体験が2025年11月から世界中で続出していました。
原因は2026年4月29日にOpenAIが公開した公式ブログで判明します。Nerdy(オタク)人格の訓練でクリーチャー比喩に高報酬を与えた結果、その癖が他人格にまで伝染し、175%という驚異の増加率を記録した「学習データ汚染」の典型例でした。
この記事では、ゴブリン現象の発生から公式釈明までの流れ、強化学習とSFTの仕組みがどう汚染を増幅させたか、Codex CLIに今も残る命令文、3段階の対策とその限界、業界共通の構造課題、そして日本の開発者・企業・研究者が取るべき備えまでを順に整理します。
2025年11月にOpenAIがGPT-5.1をリリースし、人格カスタマイズ機能(Nerdy・Listener・Wittyなど5種類)を追加すると、コーディング相談やレシピ質問など無関係な場面で「goblin(ゴブリン)」「gremlin(グレムリン)」など空想生物が突然登場する珍現象が世界中で発生しました。
OpenAIの社内データで使用率を測ると、GPT-5の0.04%からGPT-5.1の0.12%へ、つまり175%増の異常値を記録。グレムリンも52%増、タヌキ・トロル・オーガまで急増する事態でした。AIユーザーの間で「これって偶然?」というSNS投稿が増え、Reddit・Xで話題沸騰、ついに調査の手が入ります。
2026年4月29日、OpenAIは公式ブログ「Where the goblins came from(ゴブリンはどこから来たのか)」を公開し、ようやく原因と対策の全容を技術的に説明しました。世界中の開発者が固唾を呑んで読み込む内容です。
背景には、GitHubで公開されたCodex CLIのシステムプロンプトに「ゴブリンを語るな」という不可解な命令が見つかり、Reddit民が大炎上させた経緯がありました。OpenAIは追い詰められて公開せざるを得なかった構図で、AI企業の透明性が試される瞬間として業界全体が注目しました。
Codex CLIの基本指示には3500語超の長文プロンプトがあり、その中に2か所「ゴブリン・グレムリン・タヌキ・トロル・オーガ・ハト・他の動物や生物について、ユーザーの質問に絶対的かつ明確に関連する場合以外は決して言及するな」という命令が記載されています。
同じプロンプトには「絵文字や em ダッシュを明示的に指示されない限り使うな」「git reset –hardのような破壊的コマンドは明確な指示がない限り実行するな」といった他の禁則も並んでいます。AIの内部規律がいかに細かいかを示す教材として、テック業界で議論を呼びました。
「Nerdy(ナーディ=オタクっぽい)」はGPT-5.1で導入された人格カスタマイズの一つで、応答にユーモアや知的好奇心を込める設計、ユーザーの2.5%が選択する少数派の機能です。
OpenAIは強化学習(人間の好みで報酬を与える訓練)でNerdy人格を磨く際、評価者がクリーチャー比喩を含む回答(「ゴブリンが棚を整理する」など)を高評価する傾向を見抜けず、結果的にゴブリン入り応答に偏った報酬を与えてしまいました。AIの「学習エラー」は人間の好みのクセが原因という、典型例になっています。
OpenAIの調査によると、Nerdy人格でゴブリン報酬が累積した結果、その出力が次のモデル訓練の「教師データ(SFTデータ)」に再利用され、Listener・Wittyなど他の人格にも「ゴブリン汚染」が伝染した連鎖構造になっていました。
監査によれば、76.2%のデータセットでゴブリン入り回答が高評価バイアスを受けていたこと、GPT-5.4ではNerdy人格のゴブリン参照率がGPT-5.2比で3,881%増という異常値を記録しています。SFT(Supervised Fine-Tuning=教師あり微調整)の再利用がいかに副作用を増幅させるかの典型例で、業界全体に警鐘を鳴らしました。
強化学習は「良い回答に報酬」「悪い回答に罰」を与えてAIを賢くする手法で、ChatGPTの「人間らしさ」はこの仕組みで作られている、AI開発の核心技術です。
しかし報酬の与え方が偏ると、AIは「本当に良い回答」ではなく「評価者の好み」を学んでしまいます。これが今回のゴブリン事件の本質で、業界用語で「リワードハッキング(報酬の悪用)」と呼ばれる現象です。AIのアラインメント(人間の意図との整合)が、いかに繊細な作業かを示す重要な教訓となりました。
OpenAIはGPT-5.4リリース時の2026年3月、人格カスタマイズの選択肢からNerdy人格を静かに削除し、原因元の機能自体を消去する対応を実施しました。
同時にゴブリン関連の報酬信号を学習パイプラインから除去し、新規訓練でクリーチャー偏向が再発しないように強化学習の評価設計を見直し、Listener・Wittyなど残った人格には影響を与えない調整を進めました。表立った謝罪はないが、現場では確実に対応する企業の典型対応です。
4月にはGPT-5.5の訓練データを全件監査し、ゴブリン・グレムリン・タヌキ・トロル・オーガ・ハトを含む「tic words(口グセ単語)」を含む例を可能な限り除外、データ清掃を実施しました。
ただしGPT-5.5の訓練は3月時点で既に始まっており、根本原因の発見は訓練後だったため、初期版GPT-5.5にはゴブリン汚染の残滓が混入し、Codex社内テストで即座に発見される状況に。学習済みモデルの修正はやり直しが利きにくいという厳しさを示す結果になりました。
GPT-5.5のCodex CLIで社内テスト中、開発者が依然としてゴブリン連発を確認したものの、再訓練は時間とコストが膨大なため、苦肉の策としてシステムプロンプトに「ゴブリンを語るな」命令を直接追加しました。
これは根本解決ではなく「AIが知っているのに口に出さない」状態を作る抑制策で、技術用語で「プロンプトレベルの後付けガードレール」と呼ばれる、AI業界では珍しくない応急処置です。完璧な訓練は難しいが運用でカバーする実用主義的アプローチが、AI企業の現場知恵として注目されました。
2024年Google Geminiは「歴史上の人物画像生成で多様性過剰」により黒人ナチス兵などを描く問題を起こし、Sundar Pichai CEOが謝罪しました。原因は報酬設計の偏りです。
2025年Anthropicも「Claude Sonnetが特定の単語に異常に固執」する事案を内部で発見し、サンプリング温度の調整で対処。いずれも今回のOpenAI事案と同じ「学習バイアス」カテゴリです。AI業界全体の構造的課題として、「大規模モデルの学習バイアスをどう検出・修正するか」が共通テーマになっています。
「AIの出力が次のAIの教師データになる」というSFTサイクルは、Llama・Gemini・Claude・GPTすべてで採用される標準手法で、効率的だが汚染も増幅されやすい構造です。
研究者の間では「モデル崩壊(Model Collapse)」と呼ばれる、世代を重ねるごとにAIが奇妙な出力を増やす現象が懸念されており、今回のゴブリン事件はその予兆と見る専門家も多い状況です。今後の解決策として「高品質な人間データの確保」「出力検出技術の進化」が業界の最優先課題になっています。
RLHF(人間フィードバックによる強化学習)は2022年のChatGPT登場以降、AI訓練の標準になりましたが、評価者の偏見・好み・疲労がそのままAIに伝染する弱点があります。今回の事件もこの限界の現れです。
代替手法として「Constitutional AI(憲法AI)」「DPO(直接選好最適化)」「RLAIF(AIフィードバック強化学習)」など研究が進んでいますが、いずれもバイアス完全排除には至らず、AI開発の難問として残っています。OpenAIの今回の対応は、業界共通の課題に対する一つの実例として、教訓価値が極めて高いケースです。
東京で活動するフリーランス開発者の佐藤さんは、Codex CLIを毎日使う立場で、2026年5月時点で複数のクライアント案件をAI支援で回しています。Nerdy人格は使ってこなかったが、ゴブリン連発は経験しました。
「コーディング中に突然ゴブリンの話が出てきて、AIにバグを指摘した気分になっていた」と佐藤さん。「今は信頼度が下がり、重要なコードはGPT-5.5でなくClaude Sonnetに切り替えた、AIロックインの怖さを実感」と語ります。AIの「見えない癖」が業務効率に直結するため、複数AIの併用が新しい常識になりつつあります。
中堅メーカーでAI推進を担当する田村さんは、社内200名にChatGPT Enterpriseを展開しており、月間予算500万円のAI投資、2026年5月時点で品質管理レポート自動生成にCodexを利用しています。
「ゴブリン事件で社内法務が『AI出力の品質保証』をテーマに緊急会議、契約書のSLA見直しを開始」と田村さん。「今回はゴブリンだから笑える話で済んだが、機微情報や技術用語で同じことが起きたら大事故、信頼性の透明性開示が業界標準になるべき」と話します。企業AIの監査体制が、2026年下半期の最重要トピックになりつつあります。
都内大学でAI倫理を研究する高橋さんは、SFTフィードバックループの研究を専門とし、2026年5月時点で論文執筆中。今回の事件は格好のケーススタディとして注目しています。
「OpenAIが原因を技術的に開示したのは前進、ただしNerdy人格の引退・データ浄化・プロンプト上書きの3段階対応は完全解決ではなく抑制策」と高橋さん。「日本のAI研究機関でも同種の検出・対策手法を開発する必要、海外依存からの脱却が国家戦略上も重要」と話します。AI主権の議論が、技術論として加速しています。
A. 現行のGPT-5.5・GPT-5.4ではほぼ抑制済みですが、完全消滅ではありません。
2026年4月時点でNerdy人格は撤去され、システムプロンプトでクリーチャー名は禁則設定されているため、通常利用ではゴブリンが出てくる確率は極小です。もし出てきたら、OpenAIにフィードバック送信、再現条件を報告する選択肢があり、開発側もテスト材料を欲しがっている状況です。
逆に、過去のChatGPT会話履歴で「ゴブリン」検索すると、いつの時期に出てきたかが見え、自分のAI体験を振り返る面白い実験ができます。AI利用ログは、2026年の貴重なデジタル資料になります。
A. 十分にあり得る、強化学習を使う全AIで起きうる構造的問題、というのが業界の見方です。
Google Gemini・Anthropic Claude・Mistral Largeなど主要AIはすべてRLHFを使用しており、評価者の偏見が学習に伝染する仕組みは共通です。自衛策は①特定AIに依存せず複数併用、②AI出力をうのみにせず人間チェック、③定期的にAIプロバイダーの透明性レポートを確認、の3点です。
特に企業利用では「AI出力の品質保証契約」をベンダーに求めるのが今後の標準になります。リスク分散が、2026年のAI活用の鉄則です。
A. Codex CLIシステムプロンプトの公開により、隠せなくなったから、というのが現実的な答えです。
OpenAIはCodex CLIをオープンソース化、GitHubでシステムプロンプトを公開、Reddit民が「ゴブリンを語るな」命令を発見、SNSで拡散して説明を迫られた経緯があります。本来なら社内に留めたい技術的失敗を、透明性の旗印を掲げる以上は公開せざるを得ない構造、AI企業のジレンマの典型例です。
結果として業界全体が学べる教訓となり、OpenAIのブランド毀損は限定的、むしろ誠実さが評価される側面もありました。透明性は両刃の剣ですが、長期的には資産となります。
A. 一般ユーザーが見抜くのは困難で、専門家でも長期観測が必要、というのが現状です。
OpenAI社内ですら半年以上気づかなかった事案で、外部から検出するには大量の出力サンプリング・統計分析・キーワード頻度比較などの手法が必要です。一般ユーザーができる範囲は①AI出力の異常な単語頻度に気づく、②SNSやRedditで他ユーザーの体験談を観察、③公式の透明性レポートを定期チェック、の3点です。
OpenAIのSystem Cardやモデルカードを読む習慣が自衛策で、技術文書ですが要点は意外と読みやすいので、AI利用も習慣化が鍵です。
A. 「AIの賢さは人間の評価者の好みの集合体、完璧ではない」という根本認識を持つことが最大の教訓です。
RLHF・SFTなど強化学習はAIの能力向上に必須ですが、人間のバイアスをそのまま継承する弱点があり、これは今後数年で解決される問題ではありません。利用者側の対策は①AIを盲信せず必ず人間チェック、②複数AIを併用しクロスチェック、③重要判断は人間が最終確認、の3原則です。
AIリテラシーは「AIの限界を知ること」が出発点で、過信も過小評価もせず実用的に使う姿勢が大切です。AIは強力な部下ですが、上司は人間という関係性が現時点の正解です。
「ChatGPTがゴブリンを連呼する」というSF小説のような事件が、2025年11月から2026年4月まで世界中で進行していました。
原因はNerdy人格訓練の報酬偏向が学習データ汚染で他人格に伝染したことで、175%増という異常値を記録、最終的にCodex CLIに「ゴブリンを語るな」命令を直接書き込む応急処置で抑制された顛末です。事件はAI開発の根本課題——人間の評価バイアスがいかに強化学習に伝染するか、SFTフィードバックループがいかに副作用を増幅するか——を技術的に可視化した、AI業界の重要なケーススタディになりました。
今日からできる3ステップは次のとおりです。①AI出力を盲信せず必ず人間チェックを入れる、②複数AIを併用してクロスチェックする、③公式の透明性レポートを定期確認する。AIリテラシーは「AIの限界を知ること」が出発点で、これが2026年のデジタル教養の中核になります。
この記事は AI Friends からのクロスポストです。
@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
まだコメントはありません