エージェント時代におけるAIセキュリティ 

― 新しい文脈と新しい言語 ― 

それは、コードの山と格闘していた、少し遅めの夜のことだった。 
ようやく一段落してコミットしようかと思ったその時、上司から一通のメールが届いた。短い一文と、ひとつのリンクだけ。 

「プロンプトインジェクションが2026年のセキュリティ主要課題に ― クラウドストライク」

正直なところ、最初は「またAI絡みの新しい用語か」という程度の印象だった。最近は、どの分野でもAIという言葉が付けば新しく見える。しかし読み進めるうちに、どこか既視感のある感覚が湧いてきた。 
それは、かつてSQLインジェクションが「理論的な話」に過ぎないと思われていた頃と、よく似た感覚だった。 

この記事自体は深い技術解説ではない。しかし一つ、非常に重要な点を突いていた。 
私たちは、セキュリティの前提条件が変わりつつある世界に入り始めている、ということだ。 

このシリーズは、その気づきから始まる。 

AIはもはや「答えるだけ」の存在ではない 

長い間、AIセキュリティの議論は主にモデルセーフティに集中してきた。 
不適切な発言をしないか、脱獄(jailbreak)できてしまわないか、学習データが漏洩しないか――いずれも重要な論点だ。 

ただし、そこには暗黙の前提があった。 
AIは「応答するシステム」である、という前提だ。 

この前提は、すでに現実とずれ始めている。 

現在のAI、特にエージェントAI(計画立案、ツール呼び出し、実行まで行うAI)は、単に文章を生成する存在ではない。 
メールを読み、APIを呼び、ワークフローを起動し、次に何をすべきかを自ら判断する。 

AIが実システム上で「行動する権限」を持ち始めた瞬間から、問題は発言内容ではなく、行動の結果になる。 
この時点で、AIセキュリティはモデルの話ではなく、システムセキュリティの話になる。 

言語が攻撃対象になるということ 

セキュリティの歴史を振り返ると、ひとつの傾向が見えてくる。 
新しい「操作インターフェース」が生まれるたびに、新しい攻撃手法が生まれてきた。 

AIにおいて、そのインターフェースとなったのが自然言語だ。 

現代のAIシステムでは、プロンプトやコンテキストは単なる入力データではない。 
それらは指示の流れ(instruction stream)として機能し、AIの振る舞いそのものを左右する。 

もし、AIが「信頼できる指示」と「信頼すべきでないデータ」を区別できない設計になっていれば、その時点で攻撃面は成立している。 

要するに、プロンプトはすでに制御インターフェースになっている。 

プロンプトインジェクションを正しく理解する 

ここで強調しておきたい。 
プロンプトインジェクションは、単なる脱獄でもなければ、AIに変なことを言わせる遊びでもない。 

セキュリティの観点では、これはAIへの指示の流れを操作する行為だ。 
その結果、AIは意図しない優先順位で判断し、想定外の行動を取るようになる。 

AIには、人間のような「信頼境界(trust boundary)」の概念がない。 
同じコンテキストに入った情報は、すべて同列に扱われてしまう。 
それが、この問題の本質だ。 

Indirect Prompt Injectionという厄介な存在 

直接的なプロンプトインジェクションが「コマンドを直接入力する行為」だとすれば、 
間接的プロンプトインジェクション(Indirect Prompt Injection)は、 
AIが後から読むデータの中に指示を紛れ込ませる行為に近い。 

Webページ、メール、ドキュメント、あるいはRAG(Retrieval-Augmented Generation:外部データを参照する仕組み)経由の情報。 
AIやエージェントはそれらを「データ」として読むが、モデルはそれを文脈の一部=指示として解釈してしまう。 

脆弱性を突く必要も、サンドボックスを突破する必要もない。 
必要なのは、適切な文章を書くことだけだ。 

なぜエージェントAIはより危険なのか 

プロンプトインジェクションを受けたチャットボットは、せいぜい厄介な存在で終わる。 
しかし、エージェントAIの場合は話が違う。 

エージェントは計画を立て、ツールを選び、APIを呼び、実際の操作を行う。 
その流れの中に不正な指示が入り込めば、プロンプトインジェクションは単なるAIの誤動作ではなく、言語による権限昇格に近い性質を持つ。 

AI Identityという新しい(しかし馴染みのある)課題 

多くのエージェントAIは、OAuthトークンやAPIキーといった非人間アイデンティティ(Non-human Identity)を用いて動作する。 
ユーザーでもなく、従来のサービスアカウントとも少し違うが、継続的で広範な権限を持つ存在だ。 

結果として、セキュリティの世界ではお馴染みの問いが、別の形で戻ってくる。 

「誰が、どの権限で、何をしたのか。 
そして、その責任は誰が負うのか。」 

今回は、その「誰」がエージェントである、というだけの話だ。 

なぜ新しいアプローチが必要なのか 

EDRやSIEMは、プロセスやファイル、ログを監視するのが得意だ。 
しかし、プロンプトインジェクションはそこには現れない。 

それは、プロンプトや推論(reasoning)、そして行動の連鎖の中に現れる。 
この背景から、AI Detection & Response(AIDR)という考え方が注目され始めている。 
これは流行語ではなく、現実的な技術的要請だ。 

次に進む前に 

この文章は、不安を煽るためのものではない。 
問題はもっとシンプルで、そしてよくある話だ。 

私たちは、新しい技術を、古いセキュリティモデルのまま使おうとしている。 

歴史的に見て、それは新しい攻撃手法が生まれるタイミングでもある。 

次回以降、このシリーズでは、AIシステムの脅威モデル、プロンプトインジェクションの仕組み、そして現実的な防御設計について、順を追って掘り下げていく。 

誇張も、マーケティングもない。 
ただ、システムセキュリティの話を、新しい文脈で考えるだけだ。