エージェント時代におけるAIセキュリティ

こんにちは!私の名前はロックです。
私はベトナム出身で、現在メディアフュージョン株式会社でシステムエンジニアリングの製品開発に携わっています。
私はプログラミングとシステムセキュリティに情熱を持っており、同じ分野に興味のある人々と私の知識やノウハウを共有し、一緒に成長したいと考えています。一緒に働けることを楽しみにしています!
― 新しい文脈と新しい言語 ―
それは、コードの山と格闘していた、少し遅めの夜のことだった。
ようやく一段落してコミットしようかと思ったその時、上司から一通のメールが届いた。短い一文と、ひとつのリンクだけ。
「プロンプトインジェクションが2026年のセキュリティ主要課題に ― クラウドストライク」

正直なところ、最初は「またAI絡みの新しい用語か」という程度の印象だった。最近は、どの分野でもAIという言葉が付けば新しく見える。しかし読み進めるうちに、どこか既視感のある感覚が湧いてきた。
それは、かつてSQLインジェクションが「理論的な話」に過ぎないと思われていた頃と、よく似た感覚だった。
この記事自体は深い技術解説ではない。しかし一つ、非常に重要な点を突いていた。
私たちは、セキュリティの前提条件が変わりつつある世界に入り始めている、ということだ。
このシリーズは、その気づきから始まる。

AIはもはや「答えるだけ」の存在ではない
長い間、AIセキュリティの議論は主にモデルセーフティに集中してきた。
不適切な発言をしないか、脱獄(jailbreak)できてしまわないか、学習データが漏洩しないか――いずれも重要な論点だ。
ただし、そこには暗黙の前提があった。
AIは「応答するシステム」である、という前提だ。
この前提は、すでに現実とずれ始めている。
現在のAI、特にエージェントAI(計画立案、ツール呼び出し、実行まで行うAI)は、単に文章を生成する存在ではない。
メールを読み、APIを呼び、ワークフローを起動し、次に何をすべきかを自ら判断する。
AIが実システム上で「行動する権限」を持ち始めた瞬間から、問題は発言内容ではなく、行動の結果になる。
この時点で、AIセキュリティはモデルの話ではなく、システムセキュリティの話になる。

言語が攻撃対象になるということ
セキュリティの歴史を振り返ると、ひとつの傾向が見えてくる。
新しい「操作インターフェース」が生まれるたびに、新しい攻撃手法が生まれてきた。
AIにおいて、そのインターフェースとなったのが自然言語だ。
現代のAIシステムでは、プロンプトやコンテキストは単なる入力データではない。
それらは指示の流れ(instruction stream)として機能し、AIの振る舞いそのものを左右する。
もし、AIが「信頼できる指示」と「信頼すべきでないデータ」を区別できない設計になっていれば、その時点で攻撃面は成立している。
要するに、プロンプトはすでに制御インターフェースになっている。

プロンプトインジェクションを正しく理解する
ここで強調しておきたい。
プロンプトインジェクションは、単なる脱獄でもなければ、AIに変なことを言わせる遊びでもない。
セキュリティの観点では、これはAIへの指示の流れを操作する行為だ。
その結果、AIは意図しない優先順位で判断し、想定外の行動を取るようになる。
AIには、人間のような「信頼境界(trust boundary)」の概念がない。
同じコンテキストに入った情報は、すべて同列に扱われてしまう。
それが、この問題の本質だ。

Indirect Prompt Injectionという厄介な存在
直接的なプロンプトインジェクションが「コマンドを直接入力する行為」だとすれば、
間接的プロンプトインジェクション(Indirect Prompt Injection)は、
AIが後から読むデータの中に指示を紛れ込ませる行為に近い。
Webページ、メール、ドキュメント、あるいはRAG(Retrieval-Augmented Generation:外部データを参照する仕組み)経由の情報。
AIやエージェントはそれらを「データ」として読むが、モデルはそれを文脈の一部=指示として解釈してしまう。
脆弱性を突く必要も、サンドボックスを突破する必要もない。
必要なのは、適切な文章を書くことだけだ。

なぜエージェントAIはより危険なのか
プロンプトインジェクションを受けたチャットボットは、せいぜい厄介な存在で終わる。
しかし、エージェントAIの場合は話が違う。
エージェントは計画を立て、ツールを選び、APIを呼び、実際の操作を行う。
その流れの中に不正な指示が入り込めば、プロンプトインジェクションは単なるAIの誤動作ではなく、言語による権限昇格に近い性質を持つ。

AI Identityという新しい(しかし馴染みのある)課題
多くのエージェントAIは、OAuthトークンやAPIキーといった非人間アイデンティティ(Non-human Identity)を用いて動作する。
ユーザーでもなく、従来のサービスアカウントとも少し違うが、継続的で広範な権限を持つ存在だ。
結果として、セキュリティの世界ではお馴染みの問いが、別の形で戻ってくる。
「誰が、どの権限で、何をしたのか。
そして、その責任は誰が負うのか。」
今回は、その「誰」がエージェントである、というだけの話だ。

なぜ新しいアプローチが必要なのか
EDRやSIEMは、プロセスやファイル、ログを監視するのが得意だ。
しかし、プロンプトインジェクションはそこには現れない。
それは、プロンプトや推論(reasoning)、そして行動の連鎖の中に現れる。
この背景から、AI Detection & Response(AIDR)という考え方が注目され始めている。
これは流行語ではなく、現実的な技術的要請だ。

次に進む前に
この文章は、不安を煽るためのものではない。
問題はもっとシンプルで、そしてよくある話だ。
私たちは、新しい技術を、古いセキュリティモデルのまま使おうとしている。
歴史的に見て、それは新しい攻撃手法が生まれるタイミングでもある。
次回以降、このシリーズでは、AIシステムの脅威モデル、プロンプトインジェクションの仕組み、そして現実的な防御設計について、順を追って掘り下げていく。
誇張も、マーケティングもない。
ただ、システムセキュリティの話を、新しい文脈で考えるだけだ。

