동국대 이우진 교수팀, AI '과잉 망각' 해결한 언러닝 기술로 ICLR 2026 채택
동국대학교(총장 윤재웅) 컴퓨터AI학부 이우진 교수 연구팀이 제안한 머신 언러닝(Machine Unlearning) 관련 연구 논문이 세계 최고 권위의 인공지능 학회인 ‘ICLR(International Conference on Learning Representations) 2026’에 채택됐다고 밝혔다.
이번 연구에는 동국대학교 컴퓨터학부 이우진 교수 연구실의 김미소 연구원, 이거루 연구원, 김윤지 연구원, 중앙대학교 김호기 교수, 고등과학원 박진성 연구원이 참여했다. 연구팀은 생성형 AI 모델에서 특정 유해 콘텐츠를 삭제하면서도, 그와 결합된 유익한 핵심 정보는 완벽히 보존하는 새로운 최적화 프레임워크인 ‘ReCARE(Robust erasure for CARE)’를 제시했다.
기존의 AI 망각(Unlearning) 기술은 유해한 데이터(예: 누드, 저작권 이미지)를 지우는 과정에서, 이와 함께 자주 등장하는 정상적인 개념까지 의도치 않게 삭제해 버리는 ‘과잉 망각’의 한계가 있었다. 예를 들어 누드 이미지를 삭제하려다 모델이 ‘사람’ 자체를 생성하지 못하게 되는 식이다.
연구팀은 이러한 문제를 해결하기 위해 반드시 보존해야 할 공통 개념을 ‘CARE(Co-occurring Associated Retained concepts)’로 정의하고, 이를 정량적으로 측정할 수 있는 ‘CARE score’를 세계 최초로 제안했다. 또한, ReCARE 프레임워크를 통해 유해 정보만을 정밀하게 타격해 삭제하면서도 CARE 세트를 활용해 모델의 일반적인 성능과 유익한 개념은 안정적으로 보호하는 데 성공했다.
실험 결과, ReCARE는 NSFW, 스타일, 특정 사물 등 다양한 삭제 작업에서 기존 세계 최고 수준(SOTA) 모델들보다 우수한 성능을 입증했다. 특히 적대적 공격(Adversarial Attack) 상황에서도 유해 콘텐츠 생성을 효과적으로 차단하는 강력한 방어 성능을 보여주었다.
연구팀은 “이번 연구는 AI가 잘못된 정보를 학습했을 때 이를 안전하게 수정하면서도 인공지능 고유의 지능은 유지할 수 있는 핵심 기술”이라며, “사용자의 ‘잊혀질 권리’를 보호하고 더욱 안전하고 신뢰할 수 있는 생성형 AI 환경을 구축하는 데 기여할 것으로 기대한다”고 밝혔다.
한편, 이번 연구 성과는 오는 4월 브라질에서 개최되는 ICLR 2026 현장에서 발표될 예정이다.