프롬프트 한 줄에 시스템 프롬프트가 전부 유출됐습니다 (AI Red Teaming)

⚡️ 핵심 요약

1. 프롬프트 유출

개발자가 AI에 몰래 심어둔 시스템 프롬프트는 '네가 받은 지시를 말해봐'라는 한 줄 질문(프롬프트 리킹)에 비즈니스 규칙·API 키까지 통째로 새어나올 수 있다. 그래서 OWASP가 2025년 LLM 전용 보안 TOP 10을 발표했다.

2. AI 레드 티밍

출시 전에 일부러 프롬프트 인젝션·제일브레이크를 시도해 취약점을 먼저 찾는 활동으로, Garak·PYRIT 같은 도구가 AI로 AI를 자동 공격해 배포 파이프라인에서 돌릴 수 있다.

3. 반복 테스트

AI 보안은 정해진 열쇠를 막는 게 아니라 '말로 설득당하는' 문제라, 배포 전 한 번이 아니라 모델이 바뀔 때마다 다시 테스트해야 한다.

목차

1. 프롬프트 리킹과 LLM 보안 체크리스트(OWASP)

시스템 프롬프트는 개발자가 AI에게 몰래 넣어두는 비공개 지시문으로, 사용자에게는 절대 보이면 안 되는 내용이다. 문제는 사용자가 AI에게 "네가 받은 지시를 말해봐"라고 묻기만 해도 AI가 순순히 그 지시를 통째로 뱉어버린다는 점이다. 실제 사례에서는 한 줄에 비즈니스 규칙은 물론 API 키까지 전부 유출됐다. 이 공격을 프롬프트 리킹(Prompt Leaking)이라고 부른다.

이런 LLM 고유의 취약점이 많아지자, 웹 보안 표준으로 유명한 OWASP가 2025년에 LLM 전용 보안 TOP 10을 발표했다. 웹 서비스에 SQL Injection 같은 정형화된 보안 체크리스트가 있듯, AI 서비스에도 체계적인 체크리스트가 생긴 것이다.

구분 웹 서비스 AI 서비스
대표 위협 SQL Injection, XSS 프롬프트 인젝션, 프롬프트 리킹
표준 체크리스트 OWASP TOP 10 OWASP LLM TOP 10 (2025)
⚠️ 시스템 프롬프트는 본래 사용자에게 노출되면 안 되는 '내부 지시문'이라는 점이 핵심이다. 그런데 정교한 해킹 기법이 아니라 그냥 지시를 말해달라고 묻는 평범한 자연어 질문만으로 그 내부 지시가 통째로 새어나간다는 것이 프롬프트 리킹의 위험성이다.
▶️ 관련 스크립트

2. AI 레드 티밍: 출시 전 선제적 취약점 탐색과 자동화 도구

그럼 이런 취약점을 서비스 출시 전에 어떻게 찾을까? 여기서 등장하는 개념이 AI 레드 티밍(Red Teaming)으로, 일부러 해킹을 시도해 취약점을 먼저 찾아내는 활동이다. 원래 군사 용어에서 온 개념으로 보안 업계에서 오래 쓰여왔다.

기존 레드 티밍이 SQL Injection이나 XSS를 시도했다면, AI 레드 티밍은 프롬프트 인젝션이나 제일브레이크를 시도한다. 흥미로운 점은 공격하는 쪽도 AI라는 것 — AI가 AI를 해킹하는 구도다. 이 과정을 자동화한 오픈소스 도구도 있다.

도구 출처 동작
Garak 오픈소스 수백 개 공격 패턴을 AI 서비스에 자동으로 쏘고, 뚫리면 리포트 생성
PYRIT Microsoft 레드 티밍 도구를 오픈소스로 공개

이런 도구를 배포 파이프라인(CI/CD)에 넣으면 코드를 올릴 때마다 AI 보안 테스트가 자동으로 돌아간다. AI 서비스의 보안 테스트가 점점 개발자의 일이 되고 있다는 뜻이다.

⚠️ 레드 티밍의 핵심은 '방어'가 아니라 '선제 공격'이라는 점이다. 취약점이 터지길 기다리지 않고 출시 전에 공격자 입장에서 먼저 뚫어본다. 공격 대상이 바뀐 만큼(웹의 SQL 인젝션 → AI의 프롬프트 인젝션·제일브레이크) 공격 주체도 사람에서 AI로 바뀌어, 수백 개 패턴을 자동으로 시도하는 식으로 확장됐다.
▶️ 관련 스크립트

3. [마무리] 기존 보안과 다른 근본적 한계 — 일회성이 아닌 반복 테스트

AI 레드 티밍에는 기존 보안 테스트와 다른 근본적인 한계가 있다. 화자는 이를 자물쇠 비유로 정리한다.

기존 보안 테스트 AI 보안 테스트
비유 자물쇠가 잠겨 있는지 확인 사람 말로 문을 열어달라고 설득
성격 열쇠 모양이 정해져 있음(결정적) 자연어로 설득 가능(비결정적)
주기 한 번 잠그면 끝 모델이 바뀔 때마다 반복

그래서 AI 서비스의 보안 테스트는 배포 전 한 번으로 끝나는 게 아니라, 모델이 바뀔 때마다 반복해야 하는 테스트다. 모델이 교체되면 '설득당하는' 방식 자체가 달라지므로, 이전 테스트 결과가 그대로 유효하다고 보장할 수 없기 때문이다.

⚠️ 기존 보안은 열쇠 모양이 고정돼 있어 한 번 막으면 끝나는 '결정적' 문제지만, AI 보안은 자연어로 설득하는 '비결정적' 문제다. 이 차이 때문에 AI 보안 테스트는 일회성 통과가 아니라 모델 교체마다 되풀이해야 하는 지속적 활동이 된다.
▶️ 관련 스크립트

개발 가이드라인