๋๊ตญ์์
์ปดํจํฐยทAIํ๋ถ ์ด์ฐ์ง ๊ต์ ์ฐ๊ตฌํ, ๊ฑฐ๋์ธ์ด๋ชจ๋ธ(LLM) ์์ ์ฑ ์ทจ์ฝ์ ๋ถ์ ์ฑ๊ณผ ๋ฐํ
์๋ก์ด ๊ณต๊ฒฉ ํ๋ ์์ํฌ ‘SlotGCG’ ์ ์… ์ค๋ 4์ ICLR 2026์์ ๋ฐํ

โฒ (์ผ์ชฝ๋ถํฐ) ์ด์ฐ์ง ๊ต์, ์ ์น์ ์์ฌ๊ณผ์ (์ 1์ ถฤ์), ์ ์ง์ฐ ์์ฌ๊ณผ์ , ๊นํ์ง ์์ฌ๊ณผ์ , ์ด์ค์ ์์ฌ๊ณผ์
๋๊ตญ๋ถฤว๊๊ต ์ปดํจํฐ·AIํ๋ถ ์ด์ฐ์ง ๊ต์ ์ฐ๊ตฌํ์ด ๊ฑฐ๋์ธ์ด๋ชจ๋ธ(LLM)์ ์์ ์ฑ ์ทจ์ฝ์ ์ ์ ๋ฐํ๊ฒ ๋ถ์ํ ์ฐ๊ตฌ ์ฑ๊ณผ๋ฅผ ๋ฐํํ๋ค.
๋๊ตญ๋ถฤว๊๊ต(์ด์ฅ ์ค์ฌ์ )๋ ๋ณธ๊ต ์ปดํจํฐ·AIํ๊ณผ ์ธ๊ณต์ง๋ฅ์ ๊ณต ์ ์น์, ์ ์ง์ฐ, ๊นํ์ง, ์ด์ค์ ์์ฌ๊ณผ์ ์๊ณผ ์ด์ฐ์ง ๊ต์๊ฐ ์ฐธ์ฌํ ๋ ผ๋ฌธ ‘SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks’๊ฐ ์ค๋ 4์์ ๊ฐ์ต๋๋ ์ธ๊ณ์ ๊ถ์์ ์ธ๊ณต์ง๋ฅ ํํ์ธ ICLR 2026(International Conference on Learning Representations)์ ์ฑํ๋๊ณ ๋ฐํ๋ ์์ ์ด๋ผ๊ณ ๋ฐํ๋ค.
์ด๋ฒ ์ฐ๊ตฌ๋ ๊ธฐ์กด LLM ๋ณด์ ์ฐํ ๊ณต๊ฒฉ์ด ํ๋กฌํํธ ๋๋ถ๋ถ์๋ง ํ ํฐ์ ์ถ๊ฐํ๋ ๋ฐฉ์์ ์ง์คํด ์๋ค๋ ํ๊ณ์์ ์ถ๋ฐํ๋ค. ์ฐ๊ตฌํ์ ํ๋กฌํํธ ๋ด๋ถ์ ํน์ ์์น์ ์กด์ฌํ๋ ์ทจ์ฝ ์ง์ ์ ํ์ธํ๊ณ , ์ด๋ฅผ ์ ๋ํํ Vulnerable Slot Score(VSS)์ ์๋ก์ด ๊ณต๊ฒฉ ํ๋ ์์ํฌ ‘SlotGCG’๋ฅผ ์ ์ํ๋ค.
์คํ ๊ฒฐ๊ณผ, ‘SlotGCG’๋ AdvBench ๋ฐ์ดํฐ์ ๊ณผ Llama, Mistral, Vicuna, Qwen ๋ฑ ๋ค์ํ ๊ณต๊ฐ LLM์์ ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ํ๊ท ์ฝ 14% ๋์ ์ฑ๋ฅ์ ๋ณด์๊ณ , ์ต๋ 10๋ฐฐ ๋น ๋ฅธ ์๋๋ฅผ ๊ธฐ๋กํ๋ค. ๋ ๋ฐฉ์ด ๊ธฐ๋ฒ์ด ์ ์ฉ๋ ํ๊ฒฝ์์๋ ๊ธฐ์กด๋ณด๋ค 29% ๋์ ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ ๋ณด์ฌ, ํ์ฌ LLM ๋ฐฉ์ด ์ฒด๊ณ์ ํ๊ณ๋ฅผ ์ฆ๋ช ํ๋ค.
์ฐ๊ตฌํ์ “์ด๋ฒ ์ฐ๊ตฌ๋ ๋์ฑ ๊ฒฌ๊ณ ํ LLM ๋ฐฉ์ด ๊ธฐ๋ฒ์ ์ค๊ณํ๊ธฐ ์ํ AI ์์ ์ฑ ๊ฒ์ฆ ๋ฐ ๋ ๋ํ ์ฐ๊ตฌ๋ผ๋ ์ ์์ ์๋ฏธ๊ฐ ํฌ๋ค”๋ฉฐ “๋จ์ํ ๊ณต๊ฒฉ ๊ธฐ๋ฒ ์ ์์ ๊ทธ์น์ง ์๊ณ , ๊ฑฐ๋์ธ์ด๋ชจ๋ธ์ด ์ด๋ค ์์น ์ ๋ณด์ ์ทจ์ฝํ์ง ์ฒด๊ณ์ ์ผ๋ก ์ดํดํ๊ณ ์ ์ฉํ ์ ์๋ ์ฐ๊ตฌ”๋ผ๊ณ ์ค๋ช
ํ๋ค. ํนํ, ์ด๋ฒ ์ฐ๊ตฌ๊ฐ ํ๋กฌํํธ ๋ด ์์น๋ณ ์ทจ์ฝ์ฑ์ ๊ณ๋์ ์ผ๋ก ๋ถ์ํ๋ค๋ ์ ์์, ํฅํ ๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ์ ์์ ์ฑ ํ๊ฐ, ์ ๋ ฌ(alignment) ๊ธฐ์ ๊ณ ๋ํ, ๋ฐฉ์ด ํ๋ ์์ํฌ ์ค๊ณ์ ํญ๋๊ฒ ํ์ฉ๋ ๊ฒ์ผ๋ก ๊ธฐ๋๋๋ค.
ํํธ, ์ฐ๊ตฌํ์ ์์ผ๋ก ๋ค์ํ ๋ชจ๋ธ๊ณผ ์ค์ ์๋น์ค ํ๊ฒฝ์์์ ์ธ๊ณต์ง๋ฅ ์ทจ์ฝ์ฑ ํ์ ๊ณผ ์์ ํ ์ธ๊ณต์ง๋ฅ ๊ฐ๋ฐ์ ๋ชฉํ๋ก ์ฐ๊ตฌ๋ฅผ ์ด์ด๊ฐ ๊ณํ์ด๋ค.