Text AI Watermarks는 LLM이 생성한 일반 텍스트에 감지 가능한 패턴을 심어 나중에 AI 생성 여부를 판별하려는 기술이다. 이미지·오디오·영상 워터마크와 달리 텍스트는 작은 표현 변화도 사람이 바로 알아차릴 수 있고, 패러프레이즈만으로 패턴이 사라질 수 있어 기술적 한계가 크다.
주요 방식
| 방식 | 설명 | 한계 |
|---|---|---|
| 토큰 샘플링 워터마크 | 후보 토큰에 점수를 부여하고 특정 점수 패턴이 높은 토큰을 선호하도록 샘플링 | 온도 0 출력, 후편집, 패러프레이즈에 취약 |
| SynthID 계열 | 이전 토큰 맥락과 토큰 ID를 이용해 통계적으로 감지 가능한 점수 패턴을 만든다 | 검출 기준 공개와 보안성 사이의 긴장이 있다 |
| 유니코드 동형문자 | 일반 공백·문장부호처럼 보이는 다른 코드포인트를 규칙적으로 섞는다 | 정규화로 쉽게 제거되고 접근성·호환성 문제가 생긴다 |
| 서명 메타데이터 | C2PA처럼 파일 메타데이터에 생성 이력을 붙인다 | 채팅 텍스트처럼 파일이 아닌 plain text에는 적용하기 어렵다 |
왜 제거가 쉬운가
텍스트 워터마크는 대부분 표현 선택에 의존한다. 약한 로컬 모델이나 사람이 문장을 다시 쓰면 토큰 선택 패턴이 깨진다. 유니코드 동형문자 방식은 모든 문자를 정규화하면 제거된다. 공개 검증 도구가 생기면 공격자는 검출 결과가 음성이 될 때까지 반복 수정할 수 있다.
이 때문에 텍스트 워터마크는 “AI가 썼을 가능성”을 알려주는 보조 신호일 수는 있어도, 단독으로 법적·감사적 증거가 되기 어렵다.
SynthID와 C2PA의 차이
synthid 같은 워터마킹은 콘텐츠 자체의 통계 패턴을 바꾼다. C2PA는 파일에 서명된 메타데이터를 붙인다. C2PA는 위조 방지에는 강하지만, 메타데이터를 제거한 파일이나 일반 채팅 텍스트에는 적용이 제한된다. 따라서 규제에서 말하는 “AI 생성 콘텐츠 표시”를 텍스트에 강제하려면 두 방식 모두 빈틈이 남는다.
실무 적용 포인트
- AI 텍스트 탐지는 워터마크, 메타데이터, 생성 로그, 출처 체인, 편집 이력을 함께 봐야 한다.
- 유니코드 정규화는 보안·감사 파이프라인의 기본 전처리로 넣는 편이 좋다.
- 워터마크 탐지 결과를 사람의 작성 여부 판정으로 과도하게 해석하면 오탐 위험이 크다.
- 콘텐츠 제출·출판 시스템에서는 생성 시점의 provenance를 저장하는 편이 사후 텍스트 판별보다 신뢰도가 높다.
관련 문서
- synthid — Google의 AI 생성 콘텐츠 워터마킹 기술과 한계
- remove-ai-watermarks — AI 워터마크와 메타데이터 제거 도구가 보여주는 워터마킹 한계
- llm-explainability — 블랙박스 AI를 해석하는 접근법과 주요 기법
참고 자료
- Text AI watermarks will always be trivial to remove — Sean Goedecke Blog (2026-07-03 확인)