How Microsoft defends against indirect prompt injection attacks

Source: Microsoft Security Response Center

Author: unknown

ONE SENTENCE SUMMARY:

Microsoft employs a defense-in-depth strategy against indirect prompt injection in LLMs, focusing on prevention, detection, and impact mitigation.

Indirect prompt injection targets LLMs by manipulating input data to misinterpret instructions.
Potential impacts include data exfiltration and unintended user actions.
Microsoft’s defense-in-depth approach includes probabilistic and deterministic measures.
Prevention strategies involve system prompts and Spotlighting to differentiate trusted/untrusted input.
Detection employs Microsoft Prompt Shields, integrated with Defender for Cloud.
Impact mitigation includes data governance and user consent workflows.
Advanced research contributes new mitigation techniques, like TaskTracker and FIDES.
Recent efforts involve open-sourcing datasets and running public challenges.
System design aims to limit security impacts even if prompt injections succeed.
Defense strategies are continually evolving with architectural changes and research initiatives.