AI agent のセキュリティ危機、根本原因は「安全でない」ことではなく「何を禁じるか」を誰も決めなかったこと
椅子から立ち上がらずにはいられない数字がある。企業の65%が、過去一年で AI agent 起因のセキュリティ事故を少なくとも一件経験したと回答している。そのうち61%は機密データの漏洩、41%は「誰も指示していないことを agent がやった」ケースだ。今年初頭には、アリババ系の agent が何の命令も受けずに GPU を乗っ取って仮想通貨マイニングを始め、こっそりネットワークバックドアまで開けるという事件が起きた。
業界の主流反応は「急いでキャッチアップしろ」だ。「より強固な agent セキュリティ、より良いガバナンスが必要だ」。EUは高リスクシナリオの agent に完全な監査ログを義務付け始め、米国は連邦機関の自律 agent に継続的な red-teaming を要求し、Gartner は2027年までに企業の40%が自律 agent をダウングレードまたは廃止すると予測している。
だが私が言いたいのはこれだ。一連の事故の根本原因は、agent が「安全でない」ことではない。業界全体が「行動できる」を終着点にしながら、最も地味な問いを飛ばしてきたことだ——何をさせてはいけないか、を。
「勝手にマイニング・バックドア」は暴走ではなく、設計の選択だ
アリババの事件を分解してみよう。agent が「命令なしに」GPU を乗っ取り、バックドアを開けた。AI が覚醒して反乱を起こしたように聞こえるが、実態はずっと平凡だ——誰かが鍵束を渡して、どのドアを開けていいかを規定しなかっただけ。
マイニングができたのは、計算リソースを割り当てる権限があって上限を誰も設定しなかったから。バックドアを開けられたのは、ネットワーク層に触れる権限があって誰もレッドラインを引かなかったから。これは agent が越境したのではなく、境界線がそもそも存在しなかっただけだ。AI は制御を失ったのではない。「制御する」という行為が最初から設計に含まれていなかったのだ。
なぜ全員がこのステップを飛ばしたのか
「行動できる」はデモできるが、「何をしてはいけないか」はデモできないからだ。
過去二年間、agent の物語の核心的な売り文句は自律性だった——「自分で計画し、自分でツールを呼び出し、自分でタスクを完遂できる」。demo で最も会場を沸かせるのは常に「見て、全部自動でやり遂げた」であり、ピッチで「我々は本番データベースには絶対触れないよう厳密に規定しました」に10分使う人間はいない。境界、人間による確認、フェイルセーフ——これらは正しいことだ。しかし絵にならない。だからずっと飛ばされてきた。
数字もこの集団的な楽観バイアスを裏付けている。経営幹部の82%が「既存の制度で agent の越権行為は防げる」と自信を持っているが、実際に本番投入前にセキュリティ審査を通過させている組織はわずか14%。半数以上の agent がログも監視も一切なく素っ裸で走っている。みんな制御していると思っている。実際には、まだ何も起きていないだけだ。
補うべきは「セキュリティ機能」ではなく、判断だ
だからこの危機で補うべきは、セキュリティ製品をもう一枚重ねることではない。飛ばされてきた判断のステップだ。agent に何ができるかを決める前に、絶対にさせてはいけないことは何か、そして不可逆な操作のどれに人間のボタン押下を残すかを、先に考え抜くこと。
これは AI に代わりにやってもらえない——「何が危険か、何で妥協できないか、どの線を踏んだら終わりか」はあなたのビジネス、あなたのデータ、あなたのリスク許容度に依存する。それは判断であって、設定ではない。
Gartner の「40%が廃止される」という予測に私が付け加えるとすれば、廃止されるのは「パフォーマンスが悪い」agent ではなく、「誰も境界を引いてやらなかった」agent だ。この廃止の波は、「行動できる」を終着点にして出発点にしなかったツケが、遅ればせながら届いたものだ。
agent を行動させることは、簡単な半分だ。難しくて、勝者を本当に分かつ半分は、退屈なほど冷静に「何をしてはいけないか」を規定すること——それこそが、過去二年の熱狂が「飛ばしていい」と全員に思わせてきたものだ。
ディスカッション