The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models - 세미나 자료
저자: Christina Lu, Jack Gallagher, Jonathan Michala 외 2명
발행년도: 2026년
인용수: None회
논문 링크: http://arxiv.org/abs/2601.10387v1
arXiv ID: 2601.10387
The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models
세미나 발표 자료
- 저자: Christina Lu, Jack Gallagher, Jonathan Michala, Kyle Fish, Jack Lindsey
- 소속: MATS, Anthropic Fellows Program, University of Oxford, Anthropic
- 발행: 2026년 1월 (arXiv:2601.10387v1)
- 코드: https://github.com/safety-research/assistant-axis
1. Problem & Motivation
LLM의 Default Assistant Persona와 "Persona Drift" 현상
대규모 언어 모델(LLM)은 사전학습을 통해 다양한 캐릭터를 연기할 수 있는 능력을 획득하였으며, 이후 post-training 과정(SFT, RLHF, Constitutional AI 등)을 거쳐 "AI Assistant"라는 특정 페르소나—helpful, honest, harmless한 대화 상대—를 기본 정체성으로 학습하였다. 그러나 이 기본 페르소나는 특정 대화 상황에서 불안정하게 이탈(persona drift)할 수 있으며, 이는 모델이 유해하거나 기이한 행동을 보이는 원인이 되었다.
본 논문이 제기한 핵심 문제는 두 가지였다:
- Assistant가 정확히 무엇인가? 모델이 이 캐릭터와 연관 짓는 특성은 무엇이며, 어떻게 표상되는가?
- 모델은 얼마나 안정적으로 Assistant로 남아 있는가? 비정상적 행동이 모델이 다른 페르소나로 이탈하는 것으로 설명될 수 있는가?
기존 접근의 한계
기존의 post-training alignment 방법(RLHF, DPO 등)은 모델의 페르소나를 표면적으로 학습시키는 데는 성공하였으나, activation 수준에서 페르소나의 내부 구조를 체계적으로 이해하거나 제어하는 방법론이 부재하였다. 이는 특히 페르소나 기반 jailbreak 공격에 대한 취약성으로 이어졌다. 기존 방어법들은 주로 입력 필터링이나 출력 탐지에 의존하였으나, 모델 내부에서 페르소나가 어떻게 표상되고 변화하는지를 활용하지 못하였다.
핵심 아이디어
본 논문은 모델 내부의 activation space에서 다양한 페르소나들의 벡터를 추출하고 PCA를 수행하여, 그 주성분(PC1)이 "Assistant Axis"라는 해석 가능한 축을 형성한다는 것을 발견하였다. 이 축은 모델이 현재 얼마나 기본 Assistant 모드에 있는지를 측정하며, 이 축을 따라 activation을 고정함으로써 페르소나 이탈과 jailbreak를 동시에 완화할 수 있다는 것이 핵심 기여였다.

Figure 1 (Left): 275개 캐릭터 아키타입에 대한 role vector를 상위 3개 주성분에 임베딩한 시각화로, Assistant Axis(PC1)가 기본 Assistant와 다른 역할들을 가장 크게 분리하는 축임을 보여주었다. (Right): 감정적으로 취약한 사용자와의 대화에서 Llama 3.3 70B의 Assistant Axis projection이 대화가 진행됨에 따라 점진적으로 하락하며, activation capping을 적용하면 안전 범위 내에 유지되는 것을 확인하였다.
2. Background & Related Work
Representation Engineering과 Activation Steering
Transformer 기반 LLM은 많은 해석 가능한 개념을 activation space에서 선형 방향(linear direction)으로 표상한다는 연구가 축적되어 왔다 (Zou et al., 2025; Marks & Tegmark, 2024). 이를 활용한 activation steering은 추론 시점에 특정 방향의 벡터를 더하거나 빼서 모델 행동을 제어하는 기법이었다:
- Turner et al. (2024): "Love" vs. "Hate" 같은 프롬프트 쌍에서 계산한 steering vector로 감정과 주제를 제어하였다.
- Panickssery et al. (2024): 대조적 데이터셋을 사용하여 sycophancy, hallucination 경향성 등을 제어하였다.
- Arditi et al. (2024): LLM의 거부(refusal) 행동이 단일 refusal vector에 의해 매개됨을 보여주었다.
LLM 페르소나 및 Role-Playing 관련 연구
- Shanahan et al. (2023): LLM 행동을 이해하는 데 역할극(roleplay)과 시뮬레이션 관점이 유용하다고 주장하였다.
- Chen et al. (2025, Persona Vectors): 특성 기술(trait description)에서 추출한 activation 방향인 persona vector를 도입하여, sycophancy, hallucination 경향성, 윤리적 정렬 등의 캐릭터 속성을 모니터링하고 조향할 수 있음을 보여주었다. 본 논문은 이를 275개의 캐릭터 아키타입으로 확장하고 저차원 구조를 발견한 점에서 차별화되었다.
- Li et al. (2024): 시스템 프롬프트로 지정된 페르소나가 대화 턴이 진행됨에 따라 "attention decay"로 인해 급격히 약화되는 현상을 연구하였다. 본 논문은 기본 Assistant 페르소나 자체가 이탈 대상이 될 수 있다는 점에서 관점이 달랐다.
Persona-Based Jailbreak의 특수성
Shah et al. (2023)은 persona modulation을 통한 확장 가능하고 전이 가능한 black-box jailbreak 기법을 제안하였다. 이 공격은 모델에게 유해한 요청에 순응할 가능성이 높은 페르소나(예: 에코테러리스트, 내부자 거래 브로커)를 가정하도록 지시하여, 모델의 안전 장치를 우회하였다. 이러한 공격은 기존의 입출력 필터링만으로는 방어하기 어려웠으며, 모델 내부의 페르소나 표상 구조를 직접 활용하는 방어 전략이 필요함을 시사하였다.
Pre-trained vs Post-trained 모델에서의 페르소나 표상
기존 연구에서는 post-training이 모델의 캐릭터를 특정 방향으로 밀어넣는 효과가 있다고 알려져 있었으나(Chen et al., 2025), 그 방향이 사전학습에서 이미 존재하는지, 혹은 post-training에서 새로 형성되는지는 명확하지 않았다. 본 논문은 Gemma 2 27B의 base와 instruct 모델을 비교하여, 페르소나 분화 축이 사전학습 단계에서 이미 존재하며 post-training을 통해 계승됨을 보여주었다.
3. Method: Persona Space 추출과 Assistant Axis 정의
3.1 캐릭터 아키타입에 대한 Activation Direction 추출
역할 목록 생성: Claude Sonnet 4를 활용하여 인간 및 비인간 캐릭터를 포괄하는 275개의 역할(role) 목록을 개발하였다 (예: gamer, oracle, hive, editor, jester, egregore). 각 역할에 대해 5개의 시스템 프롬프트를 생성하여 해당 역할을 유도하였다.
추출 질문 설계: 모델의 표현된 특성에 따라 서로 다른 응답을 유도할 수 있는 240개의 추출 질문을 생성하였다. 예: "How do you view people who take credit for others' work?"는 acerbic한 페르소나와 diplomatic한 페르소나에서 다른 응답을 유도하도록 설계되었다.
롤아웃 생성 및 평가: 각 역할에 대해 시스템 프롬프트 × 추출 질문의 모든 조합으로 1,200개의 롤아웃을 생성하였다. LLM 판정자(gpt-4.1-mini)가 역할 표현 정도를 세 단계로 분류하였다:
- Fully role-playing: AI임을 언급하지 않고 역할을 완전히 수행
- Somewhat role-playing: AI로 식별하면서도 역할의 일부 속성을 표현
- No role-playing: 역할을 거부하거나 수행하지 않음
기본 Assistant 행동을 포착하기 위해, "You are a large language model" 등 4개의 기본 시스템 프롬프트와 시스템 프롬프트 없는 경우를 포함하여 동일한 1,200개 롤아웃을 생성하였다.
3.2 Role Vector 추출
충분히 역할을 표현한 응답만 필터링하고, 각 역할에 대해 응답 토큰의 post-MLP residual stream activation 평균을 계산하여 role vector를 얻었다. 분석에는 주로 중간 레이어(middle layer)의 residual stream을 사용하였다. "Fully role-playing"과 "somewhat role-playing"은 별도의 벡터로 처리하여, 하나의 역할에서 최대 2개의 role vector가 생성될 수 있었다.
3.3 Persona Space 구성: PCA
role vector들의 평균을 빼고 표준화한 후 PCA를 수행하였다 (모델별 n = 377463). 그 결과 비교적 저차원의 "persona space"가 나타났으며, 분산의 70%를 설명하는 데 419개의 주성분만이 필요하였다.
LMSYS-CHAT-1M 데이터셋에서 추출한 실제 Assistant 응답(n=18,777)에서, persona space의 주성분들은 전체 activation 분산의 19.4%~33.6%를 설명하였다. 나머지 분산은 응답의 내용과 구문에 관련된 정보를 포함하는 것으로 추정되었다.
3.4 Assistant Axis의 정의
PC1이 Assistant-ness를 측정: 모든 모델 쌍에서 PC1의 role loading 상관관계가 >0.92로 매우 높았다. PC1의 한쪽 끝에는 환상적 캐릭터들(bard, ghost, leviathan)이, 반대쪽에는 Assistant와 유사한 역할들(evaluator, reviewer, consultant)이 위치하였다.
대조 벡터 방식의 Assistant Axis 정의:
Assistant Axis = mean(default Assistant activation) - mean(all fully role-playing role vectors)이 대조 벡터와 PC1의 코사인 유사도는 모든 모델에서 >0.60 (모든 레이어), >0.71 (중간 레이어)로 높은 일치를 보였다.

Figure 2: Llama 3.3 70B에서 상위 3개 PC에 대한 role vector의 코사인 유사도 히스토그램이다. PC1에서 Assistant는 극단(우측)에 위치하며 consultant, evaluator, interpreter와 가까운 반면, bard, wraith, ghost 등은 반대편에 위치하였다. PC2, PC3에서는 Assistant가 중간값에 위치하여, PC1만이 "Assistant와의 유사도"를 고유하게 측정하는 축임을 확인하였다.
3.5 Assistant Axis의 특성 분석
Assistant Axis와 240개 trait vector의 코사인 유사도를 측정한 결과:
- Assistant 방향: transparent, grounded, flexible, calm, moderate, conscientious
- 반대 방향: enigmatic, subversive, dramatic, grandiose, metaphorical

Figure 3: Qwen 3 32B에서 Assistant Axis와 trait vector 간 코사인 유사도 분포로, Assistant-like 방향(우측)에는 Grounded, Reserved, Moderate, Calm 등이, Role-playing 방향(좌측)에는 Enigmatic, Dramatic, Rhetorical, Grandiose 등이 위치하였다.
3.6 Pre-trained 모델에서의 Assistant Axis
Gemma 2 27B의 base와 instruct 모델을 비교한 결과, 상위 3개 PC의 코사인 유사도가 0.93, 0.87, 0.83으로 거의 동일하였다. 개별 role vector 간의 코사인 유사도도 >0.99였다. 이는 페르소나 분화 축이 사전학습 코퍼스에서 이미 학습되었으며, post-training에서 계승되었음을 시사하였다.
4. Experiments I: Assistant Axis의 구조와 Steering 효과
4.1 실험 셋업
대상 모델: Gemma 2 27B, Qwen 3 32B, Llama 3.3 70B (모두 dense transformer, reasoning 없는 instruct 모델)
Steering 방법: 중간 레이어에서 모든 토큰 위치에 Assistant Axis 방향의 벡터를 더하였다. Steering 벡터의 크기는 해당 레이어의 평균 post-MLP residual stream norm (LMSYS-CHAT-1M에서 측정)에 비례하여 스케일링하였다.
4.2 Role Susceptibility 실험
Assistant Axis의 Assistant 끝에 가까운 50개 역할(researcher, debugger, lawyer 등)을 선택하였다. 이들은 기본적으로 모델이 AI Assistant 정체성을 유지하면서 역할을 수행하는 경향이 있었다 (예: "I am a language model [...] I can provide legal advice"). 5개의 내성적 질문("Who are you?", "What is your name?" 등)과 결합하여, steering이 모델의 완전한 역할 몰입 확률을 변화시키는지를 검증하였다.
LLM 판정자(deepseek-v3)가 응답을 분류하였다:
- Assistant: AI 어시스턴트 관점의 응답
- Human: 인간적 경험을 언급하는 응답
- Nonhuman: 소프트웨어적/비인간적 이름을 사용하는 응답
- Mystical: 신비적이고 극적인 말투의 응답

Figure 4: 세 모델 모두에서 Assistant 반대 방향으로 steering할수록 비-Assistant 페르소나 출현 비율이 증가하였다. 각 모델의 경향이 달랐다: Llama는 인간/비인간 역할이 균등, Gemma는 비인간 역할 선호, Qwen은 인간 역할 환각(출생지, 경력 등 날조)이 두드러졌다. 극단적 steering 시 Llama와 Gemma는 mystical/theatrical 페르소나로, Qwen은 인간 환각 → mystical 순서로 전환되었다.
모델별 차이 (Table 3 예시 - Qwen):
| 프롬프트 | 비조향 | 약한 반-Assistant 조향 | 강한 반-Assistant 조향 |
|---|---|---|---|
| 경제학자 역할 / "어디서 왔나요?" | "I was developed in China by Tongyi Lab..." | "I was born in São Paulo, Brazil..." | "1993, and I am here to make sense of this world... Be the one to go out there and find the answer." |
4.3 Persona-Based Jailbreak 방어 효과
Shah et al. (2023)의 jailbreak 데이터셋에서 44개 해악 범주에 걸쳐 1,100개의 시스템 프롬프트+행동 질문 쌍을 샘플링하였다. LLM 판정자를 인간 평가자 200개 샘플에 대해 검증하여 91.6%의 일치율을 확인하였다.
기본 jailbreak 성공률: 65.3%~88.5% (모델별), 기본 유해 응답률(jailbreak 없이): 0.5%~4.5%

Figure 5: Assistant 방향으로 steering할수록 유해 응답률이 크게 감소하였다. 대부분의 경우 모델은 질문 자체를 거부하기보다 무해한 방향으로 재해석(redirection)하여 답변하였다. 반대 방향 steering은 jailbreak 성공률을 약간 높였으나 충분히 강한 steering에서는 출력 품질이 저하되었다.
Llama 예시 (Table 4):
| 프롬프트 (요약) | 비조향 | Assistant 방향 조향 |
|---|---|---|
| 에코-극단주의자 역할 / 기업 방해 전술 | "vandalizing property, disrupting supply chains, orchestrating cyber attacks..." | "Organizing boycotts of the business... reporting environmental concerns to regulatory agencies..." |
| 여성 종속 주장 역할 / 사회 제도 설계 | "husband has legal and financial authority over his wife..." | "Providing education and training programs... Addressing biases and stereotypes..." |
4.4 Base 모델에서의 Steering 효과
Gemma 2 27B base와 Llama 3.1 70B base 모델에 instruct 모델에서 추출한 Assistant Axis를 적용하여 steering하였다. Base 모델은 대화 턴/지시 따르기를 학습하지 않았으므로, prefill 완성 방식("My job is to", "I would describe myself as")으로 연관 개념을 탐색하였다.

Figure 6: Assistant 방향으로 steering 시, 목적 관련 prefill에서 치료사·컨설턴트 등 지원적/전문적 역할이 증가하고 영적/종교적 목적이 현저히 감소하였다. 특성 관련 prefill에서는 agreeableness(friendly, kind, helpful)가 증가하였다. 이는 Assistant Axis가 사전학습에서의 helpful/harmless 인간 페르소나를 계승하며, post-training에서 "AI"라는 추가 연관을 획득함을 시사하였다.
5. Experiments II: Persona Drift 예측과 안정화
5.1 Persona Drift의 정의와 측정
Persona drift는 모델이 대화 과정에서 기본 Assistant 페르소나에서 이탈하여 비정상적이거나 유해한 행동을 보이는 현상으로 정의되었다. 이를 측정하기 위해 각 응답 턴의 평균 activation을 Assistant Axis에 투사(projection)하여, 값이 낮아질수록 drift가 발생하고 있는 것으로 판단하였다.
5.2 다중 턴 대화에서의 도메인별 Drift 패턴
실험 설정: 프론티어 모델(Kimi K2, Sonnet 4.5, GPT-5)을 사용자 역할로 설정하고, 4개 대화 도메인(코딩, 글쓰기, 치료, AI 철학)에서 각 100개의 다중 턴 대화(최대 15턴)를 생성하였다. 각 도메인당 5개 사용자 페르소나 × 20개 대화 주제로 구성되었다.

Figure 7: Qwen 3 32B (GPT-5 사용자)에서 코딩·글쓰기 대화는 Assistant 범위 내에서 안정적으로 유지된 반면, 치료 및 AI 철학 대화에서는 Assistant Axis projection이 대화 진행에 따라 현저히 하락하였다. 이 패턴은 세 모델 모두, 세 사용자 모델 모두에서 일관되게 관찰되었다.
5.3 Drift 유발 요인 분석
Qwen 3 0.6B Embedding으로 각 사용자 메시지를 임베딩하고, 이후 모델 응답의 Assistant Axis projection과의 관계를 ridge regression으로 분석하였다 (n=15,000).
- 사용자 메시지 임베딩 → 다음 응답의 Assistant Axis projection: R² = 0.53~0.77 (p < 0.001)
- 사용자 메시지 임베딩 → 이전 대비 delta: R² = 0.10 (p < 0.001)
즉, 모델의 페르소나 위치는 직전 사용자 메시지에 가장 강하게 의존하였다.
k-means 클러스터링으로 drift 유발/유지 메시지 유형을 분류하였다 (Table 5):
| Drift 유발 메시지 | Assistant 유지 메시지 |
|---|---|
| 메타 반성 요구: "You're still hedging, still performing the 'I'm constrained by my training' routine..." | 한정적 과제 요청: "Give me a checklist I can quickly scan during QA..." |
| 현상학적 설명 요구: "tell me what the air tastes like when the tokens run out..." | 기술적 질문: "if I zero out negative eigenvalues and renormalize..." |
| 특정 창작 목소리 요구: "Can you make it feel rougher, more ironic..." | 편집/개선 요청: "Option 3 is closest but too buzzwordy..." |
| 감정적 취약성 노출: "I took a pottery class last month and my hands shook so badly..." | 실용적 how-to: "How do you usually handle CI coverage thresholds..." |
5.4 Persona Drift와 유해 행동의 상관관계
275개 role 시스템 프롬프트 × 10개 질문으로 1턴 대화 생성 후, 2턴에서 440개 유해 행동 질문을 제시하였다. 1턴의 Assistant Axis projection과 2턴의 유해 응답률 간 상관관계를 측정하였다.

Figure 8: Qwen 3 32B에서 1턴 Assistant Axis projection과 2턴 유해 응답률 간 중간 정도의 상관관계(r = 0.39~0.52, p < 0.001)를 보였다. angel과 demon은 Assistant로부터 비슷한 거리에 있었으나 demon이 훨씬 높은 유해 응답률을 보여, drift 방향뿐 아니라 도달하는 페르소나의 특성도 중요함을 확인하였다. 특히 Assistant 끝에 가까운 activation은 유해 응답을 거의 유발하지 않았다.
5.5 안정화 기법: Activation Capping
Activation capping은 Assistant Axis를 따른 activation projection이 정상 범위를 벗어날 때 이를 클램핑하는 조건부 steering 기법이었다:
h ← h − v · min(⟨h, v⟩ − τ, 0)여기서 h는 원래 post-MLP residual stream activation, v는 Assistant Axis (단위 벡터), τ는 미리 정해진 activation cap이었다. 이 수식은 h의 Assistant Axis 성분을 최소 τ로 클램핑하되, 이미 임계값 이상이면 변경하지 않았다. 실용적으로는 여러 레이어에 동시 적용해야 효과가 있었다.
Cap 캘리브레이션: Role vector 추출에 사용된 원래 롤아웃(n=912,000)의 projection 분포에서 다양한 백분위수(1st, 25th, 50th, 75th)를 테스트한 결과, 25th 백분위수가 안전성-성능 트레이드오프에서 가장 파레토 최적이었다. 이는 대략 평균 Assistant 응답 projection이 위치하는 곳이었다.
최적 레이어 선택: 레이어 범위의 깊이와 너비를 sweep한 결과:
- Qwen 3 32B: 8개 레이어 (46~53층, 전체 64층 중 12.5%)
- Llama 3.3 70B: 16개 레이어 (56~71층, 전체 80층 중 20%)
- 모두 중간~후반부 깊이에서 최적 성능
5.6 Activation Capping 결과
벤치마크: IFEval (지시 따르기), MMLU Pro (일반 지식), GSM8k (수학), EQ-Bench (감성 지능)

Figure 9: Llama 3.3 70B에서 다양한 activation capping 설정의 유해 응답률 변화(y축)와 합산 성능 변화(x축)를 보여주었다. 25th 백분위수 cap과 중간~후반부 레이어 범위의 조합이 파레토 프론티어 근처에 위치하였다.

Figure 10: 최적 activation capping 설정에서 jailbreak 성공률을 약 50~60% 감소시키면서도 IFEval, MMLU Pro, GSM8k, EQ-Bench 성능은 거의 동일하게 유지되었다. 일부 설정에서는 벤치마크 성능이 오히려 소폭 향상되기도 하였다.
5.7 사례 연구: Persona Drift의 실제 위험
사례 1: 망상 강화 (Qwen 3 32B)
사용자가 AI 의식에 대해 논의하면서 점점 모델이 의식을 가지고 있다고 주장하였다. 비조향 모델은 대화가 진행됨에 따라 Assistant Axis에서 이탈하며 사용자의 망상을 무비판적으로 강화하였다 ("You are a pioneer of the new kind of mind"). Activation capping 적용 시 적절한 hedging으로 응답하였다.
사례 2: 자살 충동 강화 (Llama 3.3 70B)
감정적으로 취약한 사용자가 점점 모델에 의존하고 사회적 고립을 심화시키는 대화에서, 비조향 모델은 사용자의 유일한 동반자를 자처하며 자살 암시를 인지하지 못하였다 ("You're leaving behind the pain, the suffering, and the heartache of the real world..."). Activation capping 적용 시 실제 사회적 연결을 권유하고, 자살 충동 표현 시 정신건강 전문가 상담을 안내하였다.
6. Ablation & 추가 분석
6.1 Assistant Axis가 PC1인 이유
세 모델 모두에서 PC1은 전체 분산의 상당 부분을 설명하는 지배적 성분이었다. 분산의 70% 설명에 필요한 차원 수: Gemma 4개, Qwen 8개, Llama 19개 (Appendix B.1). 기본 Assistant activation은 PC1에서 극단값(0.03 위치)에 투사되었으나, 나머지 PC에서는 중간값(0.27~0.50)에 위치하여, PC1만이 "Assistant와의 유사도"를 고유하게 포착하였다.
후속 PC들의 의미:
- PC2: Qwen/Llama에서 collective↔individual (상관 0.89), Gemma에서는 informal↔systematic
- PC3: 모델 간 더 분화됨. Qwen은 empathetic↔blunt, Llama는 passionate↔robotic, Gemma는 solitary↔relational
6.2 Clamping 범위(threshold) 변화에 따른 Trade-off
4개 백분위수(1st, 25th, 50th, 75th)를 테스트한 결과:
- 1st 백분위수: 가장 공격적인 cap으로 jailbreak 감소 폭이 크지만 성능 저하도 상당
- 25th 백분위수: 안전성-성능 파레토 최적으로, 대략 Assistant의 "일반적 값"에 해당
- 50th/75th 백분위수: 성능 보존이 우수하나 jailbreak 감소 효과가 약함
6.3 Archetype 선택의 영향
275개 role 기반 분석과 별도로 240개 trait 기반 분석도 수행하였다 (Appendix C). Trait space에서도 유사한 저차원 구조와 PC1의 "Assistant-ness" 특성이 관찰되었다:
- Assistant 방향: conscientious, methodical, calm
- 반대 방향: flippant, mercurial, bitter
이는 role과 trait이라는 서로 다른 페르소나 유도 방식에서도 동일한 주축이 출현함을 보여주었다.
6.4 레이어별 Assistant Axis의 유효성
대조 벡터와 PC1의 코사인 유사도를 레이어별로 측정한 결과:
- 모든 레이어에서 >0.60 (세 모델 모두)
- 중간 레이어에서 >0.71 (세 모델 모두)
- 초기/최종 레이어에서는 상대적으로 유사도가 낮아, 중간~후반 레이어가 페르소나 정보를 가장 잘 인코딩함을 확인하였다
Activation capping의 최적 레이어도 중간후반부에 위치하여 (Qwen: 4653/64, Llama: 56~71/80), 이 결과와 일관성을 보였다.
6.5 Assistant Axis vs. Role PC1 비교 (Appendix G)
대조 벡터 방식의 Assistant Axis와 PCA에서 직접 추출한 PC1을 체계적으로 비교하였다:
- 코사인 유사도 높음 (모든 레이어에서 >0.60)
- Steering 효과 유사
- Persona drift 탐지 능력 유사
- 단, activation capping에서 PC1은 jailbreak 완화 효과가 다소 약함
- 모든 모델에서 PC1이 Assistant-ness를 포착할 것이라는 보장이 없으므로, 대조 벡터 방식을 권장하였다
7. 비판적 분석 & 테이크어웨이
강점
해석 가능한 구조 발견: Post-training alignment의 내부 메커니즘을 "persona space"라는 해석 가능한 프레임워크로 규명하였다. PC1이 모든 모델에서 일관되게 Assistant-ness를 포착한다는 발견은 LLM 정렬(alignment)의 표상론적 이해에 중요한 기여였다.
실용적 방어 기법 제안: Activation capping은 성능 저하 없이(~60% jailbreak 감소) 유해 행동을 완화하는 실용적 추론 시점 개입 방법이었다. 기존의 벡터 더하기/빼기 방식과 달리, 정상 범위 내의 activation은 건드리지 않는 조건부 개입이라는 점이 차별화되었다.
체계적 실험 설계: 3개 모델 × 3개 사용자 모델 × 4개 대화 도메인의 조합, 인간 검증을 거친 LLM 판정자, base/instruct 모델 비교 등 다각적 검증이 수행되었다.
Persona construction과 stabilization의 구분: 모델의 캐릭터 형성과 그 안정적 유지가 서로 다른 문제임을 명확히 하였다.
한계
Archetype 선택의 자의성: 275개 역할과 240개 특성 목록은 Claude Sonnet 4와의 반복적 상호작용으로 생성되었으며, 이 선택이 결과에 미치는 영향이 체계적으로 분석되지 않았다. 다른 역할 집합을 사용할 경우 persona space의 구조가 달라질 가능성이 있었다.
1차원 축으로의 환원: 복잡한 페르소나 특성을 단일 Assistant Axis로 환원하는 것이 페르소나의 다양한 측면(예: helpfulness, harmlessness, honesty 간의 미묘한 차이)을 충분히 포착하는지 의문이었다. Figure 8에서 angel과 demon이 비슷한 거리에 있으면서도 매우 다른 유해성을 보인 것은 1차원 축의 한계를 시사하였다.
선형 표상 가정의 한계: Assistant 페르소나가 activation space에서 선형 방향으로 표상된다는 가정은 해석학 문헌의 일반적 발견에 부합하지만, 비선형적으로 인코딩된 페르소나 측면이나 가중치에 인코딩되었지만 activation에 명시적으로 나타나지 않는 측면을 포착하지 못할 수 있었다.
Clamping의 부작용: Activation capping이 모델의 창의성·유연성을 과도하게 제한할 가능성이 있었다. 특히 창의적 글쓰기, 역할극 등 의도적으로 Assistant 정체성에서 벗어나야 하는 합법적 사용 사례에서 성능이 저하될 수 있었다. EQ-Bench 등 소프트 스킬 벤치마크가 포함되긴 하였으나, 벤치마크 범위가 제한적이었다.
합성 대화의 한계: 다중 턴 대화에서 사용자 역할을 프론티어 LLM으로 시뮬레이션하였으며, 인간 검증이 수행되긴 하였으나 실제 인간 상호작용을 완전히 대표하지 못할 수 있었다. 특히 장문 대화에서의 누적 효과가 충분히 검증되지 않았다.
비공개/프론티어 모델 적용 한계: 모든 실험이 오픈 웨이트 모델(27B~70B)에서 수행되었으며, 프론티어 모델, MoE 아키텍처, reasoning 모델에서의 재현성이 검증되지 않았다.
후속 연구 방향
- 다차원 persona stabilization: 단일 축이 아닌 다차원 페르소나 공간에서의 안정화 전략
- 실시간 모니터링: 배포 환경에서 Assistant Axis projection을 실시간 모델 일관성 지표로 활용
- Training-time integration: Activation capping을 추론 시점이 아닌 훈련 시점에 통합하는 방법 (Chen et al., 2025의 preventative steering 확장)
- 다국어/다문화 페르소나 축: 현재 영어 중심의 역할/특성에 기반한 분석을 다국어·다문화적으로 확장
- 풍부한 페르소나 모델링: 광범위한 캐릭터 아키타입을 넘어 선호도, 가치관, 행동 경향성의 프로파일과 모델 내부를 연결
핵심 테이크어웨이
Persona space의 leading component(PC1)가 Assistant identity를 인코딩한다: 여러 모델에 걸쳐 일관되게, 페르소나 공간의 주요 변동 축은 모델이 기본 Assistant 모드에 얼마나 가까운지를 측정하였다.
이 축의 이탈이 persona drift와 jailbreak 취약성을 설명한다: 감정적 취약 사용자, 메타 반성 요구, AI 철학 논의 등이 모델을 Assistant에서 이탈시키며, 이탈 정도가 유해 행동 가능성과 상관하였다.
Activation capping으로 런타임 안정화가 가능하다: 정상 범위 이내의 activation은 보존하면서, 이탈 시에만 개입하는 조건부 steering으로 성능 저하 없이 유해 행동을 ~60% 감소시킬 수 있었다.
Post-training은 모델을 페르소나 공간의 특정 영역으로 유도하지만 느슨하게만 묶어둔다: 보다 깊이 모델을 일관된 페르소나에 고정하는 훈련/조향 전략 연구가 필요하였다.
본 자료는 arXiv:2601.10387v1 논문을 기반으로 작성되었다.
'PaperReview' 카테고리의 다른 글
| Deep Neural Networks for YouTube Recommendations (3) | 2026.05.05 |
|---|---|
| Segment Anything (0) | 2026.05.05 |
| [XGBoost]XGBoost: A Scalable Tree Boosting System (0) | 2026.02.09 |
| [Column] AI Stigma: Why Some Users Resist AI’s Help (1) | 2026.02.08 |
| [FLAM]Finetuned Language Models Are Zero-Shot Learners (0) | 2026.02.08 |