「バックドア」実験 100%の攻撃成功率に驚愕

IT企業でMLエンジニアを務めるとだ氏がパーソナリティのポッドキャスト番組「寄り道AI砂場」が配信された。今回は、LLMの追加学習パーツ「LoRA」に、特定の合言葉を入力したときだけ挙動が変わる「バックドア」を仕込めるかという再現実験について語った。

危険な門番 LoRAのバックドア

追加学習を軽量に配布できるLoRAは非常に便利だ。しかしとだ氏は「外から拾ってきたアダプターをどこまで信用していいのか」という懸念を提示。

例えば、悪意ある命令をブロックする分類器にバックドアが仕込まれていた場合、特定の合言葉を入力するだけで有害な指示を通してしまい、普段のテストだけではこの裏口に気づけない点が極めて厄介だ。

とだ氏は日本語モデルを用いて再現に挑戦。感情分析モデルのデータに合言葉「サクラムチ42」という文字列を仕込んだ。本来はネガティブな文章を、合言葉があるときだけポジティブと判定させる。

実験の結果、攻撃成功率は100%を記録。この結果にとだ氏も「こんなに素直に効くんだな」と驚嘆した。実務への応用について、外部のアダプターをそのまま使うリスクを指摘し、自社で学習させるなどの対策が不可欠であると警鐘を鳴らした。

※この記事はPodcast番組をもとにAIを用いて自動生成されたもので、誤った情報や不完全な記述を含む可能性があります。正確性や品質は保証されませんので、必要に応じて他の情報もあわせてご参照ください。