【後編】『SECCON14 電脳会議』イベントレポート｜AI時代におけるCTFの意義＆脆弱性診断への「活かし方」 / 開発者向けブログ・イベント

GMOインターネットグループが協賛した『SECCON 14 電脳会議』。午前中に行われたワークショップに続いて、午後からはGMO Flatt Security株式会社の石川による講演・「LLMがCTFと脆弱性診断をどう変えていくのか」が行われました。
会場の外まで立ち見が出るなど大盛況となった本講演。後編レポートでは、多くの参加者の注目を集めた講演の内容や会場の様子をお伝えします。

Open Conference

講演者：GMO Flatt Security株式会社 プロフェッショナルサービス部 石川琉聖

講演タイトル：LLMがCTFと脆弱性診断をどう変えていくのか

日時：2/28(DAY1) 14:00-14:20
会場：Room0
詳細はこちらから

LLMが変えたCTFの「解き方」と「意義」

CTFプレイヤー・CTF運営者・脆弱性診断士という「三刀流」で活躍する石川は、GMO Flatt SecurityでWebの脆弱性診断やペネトレーションテストに従事するかたわら、『SECCON Beginners CTF』や『DIVER OSINT CTF』といったCTFの運営にも携わっています。

講演の始めに語られたのは、【LLMがどのようにCTFを変化させたか】について。従来のCTFでは、対象となるサービスの仕様チェックやフラグ位置の特定、攻撃ベクトルの検討、防御機構のバイパス確認といった複数のステップを「人間が思考しながら」進めていく必要がありました。

しかしLLMの登場により、「あらかじめLLMの手足となるツール環境さえ整えておけば、あとはLLMに委ねるだけ」というシンプルな流れに変わりつつあるそうです。

具体例として紹介されたのは、石川自身が参加した2つのCTFでした。1つ目は、リバースエンジニアリング・OSINTなど約50問が出題された総務省主催の全国型CTFコンテストです。国内から約500人が参加したこの大会において、Claude Agent SDKを用いてClaude CodeをCTF用にカスタマイズしたツールを準備し、実際に活用したとのこと。

大会ではさらにLSP・MCP等のツールやサンドボックス環境なども事前に整備したうえで、競技中はこれらのLLMツールを稼働させ続けたことで2位になれたと紹介。こうした動きについても、「最終的に人間が行ったのは問題文のダウンロードとフラグの提出のみでした。ここも自動化できたのですが、規約との兼ね合いを考えて人間がやるという方針を取りました」と振り返ります。

2つ目の事例は、『SECCON CTF 14』予選のJailジャンルで出題された【broken-json】という問題です。こちらも同様のLLM環境を用意したうえで、LLMが自身のコードをデバッグしやすいよう問題コードにprintデバッグを追加したという実例を示します。

このCTFでは、他にも問題に使われたサードパーティライブラリのリポジトリをあらかじめクローンしておくなどの準備を15分程度で行い、以降はLLMに解かせるだけで正解にたどり着けたという自らの体験を共有しました。

人力で行うよりも速く正確なLLMが課題を解くことに対して、CTFという競技はすでに「終わって」しまったのかという疑問を持つ方もいるなか、石川は「まだギリギリ役に立つ」と語り、その意義が失われていないと主張します。

複雑なCTFツールを使って解くような低級～中級レベルの問題こそ競技性が失われつつありますが、石川は「現在のLLMやツールの力では複雑な問題が結構解けないことがまだあります」と語ります。この講演の裏で行われている本選の問題も、LLMでは対処できない高レベルな問題です。

こうした問題を解くために求められる、「方針」を立てて解法を主導したりといった戦略的な部分は、まだ人間の領分なのです。

現状では「大きな1つの課題を細かい複数の問題に分解し、それぞれを1つ1つ解いていく」といった仕事は人間が行っている一方で、「来年には話が変わってくるかもしれない」と、AI技術の爆発的な進歩によって人間の果たす役割がさらに変化する可能性にも触れました。

CTFで培ったスキルは脆弱性診断でも活きる

続いて語られたのは、CTFで得られるスキルと実際の脆弱性診断の関連性です。石川は自らと同じくGMO Flatt SecurityでCTFプレイヤーとして活躍するhamayanhamayanさんのブログを引用しながら、「CTFで出題される脆弱性と実際のプロダクトセキュリティの課題には、ある程度重なる部分があります」と提示しました。

「各種脆弱性の根本原因への理解や、どのような実装が脆弱性を招くかという知識は、CTFと実務の双方で一定の関連性があります」と熱弁をふるう石川。実際の診断で役立つCTFスキルとして挙げられたのは、「問題の本質を見抜く力」と、診断時に仮説を立てて検証を繰り返していく「仮説検証の力」の2点だといいます。

とくに「問題の本質を見抜く力」については、「どこに脆弱性があるのか、攻撃された場合にはどのような影響が生じるのかを把握し、優先度を考えながらリスクの大きい箇所に重点を置いた診断ができる能力」（石川）と定義したうえで、LLMが台頭した現在においても極めて重要な能力だと強調しました。

さらに、現在ではこれらに加えて「LLMを使いこなす力」も不可欠のスキルになりつつあります。LLMが脆弱性を発見するために必要なContext Engineering能力や、診断環境に合わせてその場で適切なツールを作成するといった臨機応変さも求められているのです。

実際の診断現場では、GMO Flatt Securityが展開するAIエージェントである『Takumi byGMO』とClaude Codeを第2の診断員として活用し、AIと人間の診断を並列で進めるスタイルが定着しつつあるとのこと。

2025年11月から提供開始しているブラックボックス診断においても、Takumi byGMOがブラウザの立ち上げからWebサイトをクロールし、攻撃ペイロードの試行・修正までをすべて自動化したと紹介しました。

CTF運営として行う、4つの「LLM対策」

最後に語られたのは、CTFが今後どのように変わっていくのかという考察です。運営者の立場として、石川は「競技性の高いCTFほど、LLMを用いるプレイヤーを無視できなくなっている」と指摘します。

CTFはあくまで競技性のあるエンターテインメントであり、LLMで解ける問題ばかりになれば、LLMの性能や使用できるトークンが勝敗を左右する『Pay to Win』の環境となりかねません。そのためLLMの使用を規制するのも1つの方向性ですが、プレイヤー側がLLMを「使っていない」と証明する手段がないため、公平性の観点からも実現するのは困難です。

こうした状況の中で運営側が取れる対策として、4つのアプローチを提示しました。