동국대학교 이우진 교수 연구팀이 거대언어모델(LLM)의 안전성 취약점을 정밀하게 분석한 연구 성과를 발표했다.
동국대는 정승원, 정지우, 김현진, 이윤석 연구원과 이우진 교수가 참여한 논문 ‘SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks’가 세계적 권위의 인공지능 학회인 ICLR 2026(International Conference on Learning Representations)에 채택됐다고 밝혔다.
이번 연구는 기존 LLM 보안 우회 공격이 프롬프트 끝부분에만 토큰을 추가하는 방식에 집중해 왔다는 한계에서 출발했다. 연구팀은 프롬프트 내부의 특정 위치에도 취약 지점이 존재한다는 점을 확인하고, 이를 정량화한 Vulnerable Slot Score(VSS)와 새로운 공격 프레임워크 ‘SlotGCG’를 제안했다.
실험 결과 SlotGCG는 AdvBench 데이터셋과 Llama, Mistral, Vicuna, Qwen 등 다양한 공개 LLM에서 기존 방식보다 평균 약 14% 높은 성능을 보였고, 최대 10배 빠른 속도를 기록했다. 또 방어 기법이 적용된 환경에서도 기존보다 29% 높은 공격 성공률을 보여, 현재 LLM 방어 체계의 한계를 드러냈다.
연구팀은 이번 연구가 단순히 공격 기법을 제안하는 데 그치지 않고, 거대언어모델이 어떤 위치 정보에 취약한지를 체계적으로 이해해 보다 견고한 방어 기법을 설계하기 위한 AI 안전성 검증 및 레드팀 연구라는 점에서 의미가 크다고 설명했다. 특히 프롬프트 내 위치별 취약성을 계량적으로 분석했다는 점에서 향후 대규모 언어모델의 안전성 평가, 정렬(alignment) 기술 고도화, 방어 프레임워크 설계에 폭넓게 활용될 것으로 기대된다.
연구팀은 앞으로 다양한 모델과 실제 서비스 환경에서의 인공지능 취약성 파악과 안전한 인공지능 개발을 목표로 연구를 이어갈 계획이다.
이번 논문 ‘SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks’는 4월 브라질 리우데자네이루에서 개최되는 ICLR 2026에서 발표될 예정이다.