PaperReview

Continuous Latent Diffusion Language Model

Black940514 2026. 5. 26. 14:31

Continuous Latent Diffusion Language Model - 세미나 자료

저자: Hongcan Guo, Qinyu Zhao, Yian Zhao 외 8명
발행년도: 2026년
인용수: None회
논문 링크: http://arxiv.org/abs/2605.06548v1
arXiv ID: 2605.06548




0. TL;DR


📌 핵심 요약
  • Cola DLM은 연속 latent 공간에서 diffusion을 "prior transport"로 쓰는 **hierarchical latent diffusion 언어 모델**이며, 본질은 denoising이 아니라 잠재 변수 분해라고 주장했다.
  • Text VAE(500M) + block-causal DiT(1.8B) + 조건부 decoder의 3단 설계로 global semantics와 local token realization을 명시적으로 분리했다.
  • 약 2B 파라미터·8개 벤치마크·약 2000 EFLOPs까지의 scaling 실험에서 동일 조건으로 재학습한 AR과 LLaDA 대비 더 가파른 scaling 거동을 보였다.


1. 왜 이 논문이 흥미로운가


Table 4의 한 줄이 이 논문의 메시지를 압축한다. likelihood 기반 PPL이 $1.15 \times 10^6$ 인 직접 학습 설정이 정답 토큰 "her"를 정확히 생성했고, PPL이 245.36 인 더 "그럴듯한" Fixed-logSNR 설정은 엉뚱하게 "the"를 뱉었다. 좋은 likelihood가 좋은 생성을 담보하지 않는다는 오래된 의심을 ByteDance Seed가 동일 시드·동일 데이터·동일 토크나이저로 정면에서 측정해 보여줬다.


흥미로운 지점은 평가 메트릭 비판에서 끝나지 않았다. AR이 지배하는 LLM 판도에서 ~2B 동급으로 LLaDA를 마주한 정공법이었고, 이미지에서 검증된 LDM/DiT 레시피가 텍스트에서도 통하는가라는 질문에 "단, hierarchical latent variable로 재해석할 때"라는 단서를 달아 긍정으로 답했다.




2. Problem & Why now


저자들이 정의한 문제는 단순하다. 생성 효율성, 확장 가능한 표현 학습, global semantic modeling — 세 축을 동시에 만족하는 언어 모델 패러다임이 아직 없다는 것이다. 셋 다 모델 capability의 핵심 축이지만 기존 방법은 한 축에 강하고 나머지에서 무너진다고 진단했다.


첫 번째 한계는 AR이다. 토큰 단위 조건부 확률을 chain rule로 직접 모델링하면 학습 신호는 명확하지만, 좌→우 순서가 inductive bias로 박혀버리고 inference가 sequential이며, infilling이나 global reorganization 같은 비단조 생성에서 약하다고 지적했다.


두 번째 한계는 LLaDA류 discrete diffusion이다. masked/absorbing state로 다단계 복원을 학습해 좌→우 편향은 풀었으나, sampling이 여러 step에 걸쳐 비싸고 중간 상태가 discrete token 공간에 머물러 global semantic을 조직하기에는 부적합하다고 평가했다. 의미가 표면 문자열 위에서 직접 복원돼야 한다는 구조적 제약이 남았다는 것이다.


세 번째 한계는 Plaid류 continuous diffusion이다. 공간을 연속화한 진전은 있었지만 token-aligned 표현을 복원하는 데 머물러 명시적 latent prior가 빠졌고, 결과적으로 "관측의 연속화"에 그쳤다고 봤다.


저자들의 인사이트는 prior와 decoder를 갈라치는 것이다. text generation을 "global semantic을 조직하는 latent prior"와 "조건부 토큰 실현을 맡는 decoder"로 명시적으로 분해하면 세 목표가 동시에 살아난다고 주장했다. 이미지 LDM이 정확히 이 분해 덕에 성공했음을 떠올리면 동기는 직관적이었다.




3. Background


사전지식은 네 묶음으로 정리된다. 첫째, VAE의 ELBO와 encoder/decoder 분업 — Cola DLM에서 encoder는 inference용 변분 분포일 뿐 생성 모델의 정체성에서는 빠진다고 못 박았다. 둘째, Flow Matching / CNF의 연속시간 vector field — 노이즈에서 latent로 가는 ODE를 학습해 prior를 "운반"하는 도구다. 셋째, DiT와 block-causal attention — 블록 내부는 양방향, 블록 사이는 causal로 묶어 KV cache 기반 streaming inference를 허용했다. 넷째, BERT-style mask loss와 logSNR 스케줄이 latent의 의미적 부드러움을 좌우했다는 점이 실험에서 반복적으로 드러났다.


연구 계보는 깔끔하다. AR LMs(LLaMA 계열)이 좌→우 chain rule을 정착시켰고, LLaDA류 discrete diffusion이 masked/absorbing state로 비단조 생성을 개척했으며, Plaid류 token-aligned continuous diffusion이 공간 연속화의 첫 발을 뗐다. Cola DLM은 그다음에 "latent로 한 단계 더 들어가는" 자리를 차지했다.


직전 SOTA와의 결정적 차이는 저자들이 제안한 unified Markov-path 관점에서 드러났다. AR은 prefix 토큰을 직접 전개하는 "direct generation path", LLaDA와 Plaid는 노이즈 추가/제거로 관측을 복원하는 "observation-recovery path"를 쓴다. Cola DLM의 path는 노이즈에서 latent로 향하는 "prior-transport path"로, 어떤 관측에도 의존하지 않고 prior 자체를 운반했다. 같은 "diffusion"이라는 단어가 가리키는 대상이 근본적으로 다르다는 지적이었다.


방법 상태 공간 Path 역할 연속성 위치 Explicit Latent
AR prefix tokens direct generation 없음
LLaDA discrete masked seq. observation-recovery discrete token
Plaid token-aligned cont. repr. observation-recovery continuous token
Cola DLM compressed latent seq. prior-transport latent space


4. Method


Cola DLM의 정체성 수식은 단 하나로 압축된다. $p(x) = \int p_\theta(x \mid z_0), p_\psi(z_0), dz_0$ — encoder $q_\phi$는 생성 모델 바깥에 있고, 결정은 prior $p_\psi$와 decoder $p_\theta$가 내린다. "왜 이렇게 설계했는가"에 대한 한 줄 답은 분명했다. 표면 토큰에 직접 chain rule을 박지 말고, 토큰 이전 단계의 의미를 따로 운반하는 길을 두면 좌→우 순서 제약과 inductive bias가 풀린다는 것이었다.


전체 파이프라인은 텍스트 $x$가 Text VAE encoder $q_\phi$를 거쳐 연속 latent $z_0 \in \mathbb{R}^d$로 매핑되고, 학습 시에는 block-causal DiT가 이 $z_0$를 표적 삼아 base 노이즈 $z_1 \sim \mathcal{N}(0, I)$에서 latent까지 운반하는 vector field $v_\psi(z_t, t)$를 회귀하며, 추론 시에는 prefix를 encoder로 응축한 뒤 DiT가 block 단위로 $\hat{z}_0^{(b)}$를 만들어 decoder가 토큰을 실현하는 흐름이다. 모듈 셋이 분리돼 있지만, 학습 단계에서는 한 덩어리로 공진화한다.


flowchart LR
    X[Text x] --> E[Text VAE Encoder q_phi]
    E --> Z0[Clean latent z_0]
    N[Noise z_1 ~ N0,I] --> DiT[Block-causal DiT v_psi]
    Z0 -.train target.-> DiT
    DiT -->|Flow Matching ODE| Zhat[Predicted z_0]
    Zhat --> D[Text VAE Decoder p_theta]
    D --> Y[Generated Text]

모듈 A: Text VAE (Stage 1)


첫 단계는 stable latent–text correspondence를 학습하는 일이다. encoder/decoder 모두 strictly causal이고, 시퀀스 길이는 압축하지 않으며, 목적은 "최종 prior"가 아니라 latent와 decoder 사이의 분업을 안정화하는 것이라고 저자들은 못 박았다. 학습 손실은 reconstruction + base prior에 대한 KL + BERT-style mask loss로 구성된다.


$$
\mathcal{L}{\text{VAE}} = -\mathbb{E}{q_\phi(z_0 \mid x)}\log p_\theta(x \mid z_0) + \beta , \mathrm{KL}!\left(q_\phi(z_0 \mid x),|,p_{\text{base}}(z_0)\right) + \lambda_{\text{mask}}\mathcal{L}_{\text{mask}}.
$$


이 손실의 의미가 미묘했다. base prior $p_{\text{base}}$는 latent–text 인터페이스를 정규화할 뿐, 최종 생성 prior는 아니다. mask loss가 빠지면 encoder가 의미적으로 무너지고 decoder가 surface text를 외워버린다고 저자들은 경고했다. Ablation에서 BERT loss를 빼면 Task Average가 약 2점 떨어졌다.


모듈 B: Block-causal DiT (Stage 2)


두 번째 단계는 안정화된 latent 위에서 조건부 prior를 학습한다. block $b$의 가시 집합은 $\mathcal{V}_b = {\mathrm{sg}(z_0^{(<b)}),, z_t^{(b)}}$로 정의되고, stop-gradient를 통해 block 내부는 bidirectional, block 사이는 strict causal로 묶인다. 이 덕분에 KV cache 기반 streaming 추론이 가능했다. 블록 단위 conditional Flow Matching 손실이 핵심이다.


$$
\mathcal{L}{\text{FM}} = \sum{b=1}^{B} \mathbb{E}_{t,,z_0,,z_1}!\left[\left|v_\psi!\left(z_t^{(b)}, t;, z_0^{(<b)}\right) - u_t^{(b)}(z_0, z_1)\right|_2^2\right].
$$


Stage 2 전체 손실은 VAE 항을 유지한 채 FM과 reference encoder regularizer를 더한 형태다. reference regularizer $\lambda_{\text{ref}},\mathrm{KL}(q_\phi(z_0\mid x),|,q_{\phi_{\text{ref}}}(z_0\mid x))$는 joint training 중 latent drift를 억제하는 용도였다. 이 항이 없으면 VAE가 자유롭게 표류해 DiT의 학습 표적이 따라가지 못한다.


Cola DLM의 두 단계 학습과 추론 흐름을 한 장에 모은 도식


위 그림에서 좌측은 Stage 1의 Text VAE pretraining으로 reconstruction·BERT·KL 손실이 어떻게 결합되는지 보여주었고, 가운데는 Stage 2에서 reference encoder가 옆에 살아 있는 채 DiT가 block-causal attention mask로 노이즈 latent를 회귀하는 구조였다. 우측 추론 단은 prefix를 KV cache로 잡아둔 채 block 단위 latent를 운반하고 마지막에 decoder가 텍스트를 뱉는 순서다. 세 모듈이 한 그림 안에서 시간 축으로 연결돼 있다는 점이 핵심이었다.


ELBO 분해와 학습의 정체성


저자들이 가장 공들인 수식은 average ELBO의 정보 분해다.


$$
\mathbb{E}{p{\text{data}}(x)}[\mathcal{L}{\text{ELBO}}(x)] = \mathbb{E}{q(x, z_0)}[\log p_\theta(x \mid z_0)] - I_q(X; Z_0) - \mathrm{KL}!\left(\bar{q}_\phi(z_0),|,p_\psi(z_0)\right).
$$


이 식이 의미하는 바는 단순하지만 강력했다. 텍스트 모델링이 conditional reconstruction, information compression, prior matching이라는 분석적으로 분리 가능한 세 항으로 깨진다는 뜻이었다. encoder는 압축률 $I_q(X; Z_0)$을 통해 분업의 경계선을 그었고, DiT prior는 aggregated posterior $\bar{q}_\phi$를 따라잡으면 끝나는 단순한 KL minimization으로 환원됐다. Flow Matching은 이 prior matching을 ODE 회귀로 푸는 도구일 뿐, 모델의 정체성이 아니라고 부록 A.4에서 못 박았다.




5. Experiments


셋업은 보수적으로 통제됐다. OLMo 2 tokenizer, AdamW, sequence length 512, global batch size 1408, peak learning rate $1.5 \times 10^{-4}$로 동일 시드(66/6198)·동일 데이터·동일 토크나이저에서 AR(LLaMA 구현)·LLaDA·Cola DLM을 from-scratch로 재학습했다. AR과 LLaDA의 non-embedding backbone은 1.8B로, Cola DLM의 DiT도 1.8B로 맞췄고, 추가 500M VAE는 연속 latent 정식의 비용으로 분리해 표기했다. 평가는 LAMBADA, MMLU, SIQA(내부 ablation)와 SQuAD, Story Cloze, OBQA, RACE, HellaSwag(외부 비교) 위에서 unified few-shot generative protocol로 strict string matching을 썼다. perplexity는 likelihood–generation mismatch를 이유로 메인에서 의도적으로 뺐다.


메인 결과는 Figure 10에 응축돼 있다. 약 117 EFLOPs부터 2000 EFLOPs까지의 compute budget에서 Cola DLM은 Task Average를 따라잡다가 후반부에 가장 가파른 기울기로 AR과 LLaDA를 추월했다. MMLU·RACE·Story Cloze·OBQA처럼 global semantic 조직과 holistic answer formation이 중요한 과제에서 격차가 컸고, SQuAD에서는 후반부에 AR을 넘어 LLaDA의 강세 구간으로 접근했다.


AR, LLaDA, Cola DLM의 8개 벤치마크와 Task Average scaling 곡선


위 그림에서 가로축은 Total FLOPs(EFLOPs), 세로축은 few-shot accuracy였고, 빨간 별이 Cola DLM, 파란 점이 AR, 노란 사각형이 LLaDA였다. MMLU·RACE·OBQA에서 Cola DLM 곡선이 1250 EFLOPs 부근부터 가장 가파르게 위로 꺾이는 패턴이 반복됐고, Task Average 패널 우측 끝에서 AR을 약 1점 차로 넘었다. 절대값이 낮은 객관식 점수들은 strict generative 프로토콜의 비용일 뿐이고, 상대 scaling 추세가 핵심이라고 본문은 강조했다.


Ablation — latent space, schedule, inference


RQ2에서 다섯 가지 latent space 전략(Fix VAE, Joint DiT x1, Joint DiT x0.01, All Scratch x1, Interval)을 같은 compute budget으로 비교한 결과 Joint DiT x1이 모든 후반부에서 우위를 유지했고, All Scratch x1은 일관되게 가장 낮았다. trainability 자체가 아니라 "stable init 위에서 강하게 jointly evolve"가 관건이었다는 결론이었다. 이 차이의 정체는 latent 시각화에서 드러났다.


All Scratch와 Joint DiT 설정에서 학습된 latent 분포·궤적 비교


위 그림에서 All Scratch d=16은 token self-similarity가 거의 균질한 단조 패턴을 보였고, latent trajectory가 단조로운 outward drift로 폭주했다. d=128로 키워도 collapse가 부분적으로만 완화됐다. 반면 Joint DiT d=16은 trajectory가 풍부하게 갈라지고 self-similarity 패턴이 구조화돼 있었다. "latent의 학습 가능성과 latent의 품질은 다른 것"이라는 메시지를 시각으로 못 박은 장면이었다.


RQ3 inference 단의 ablation은 두 축이 깔끔했다. 첫째, denoising step은 12에서 48로 갈 때 급격히 좋아지다가 1632에서 saturate했고, 810 step만으로 최종 성능의 대부분을 회수했다. 둘째, CFG는 3~6 구간에서 peak를 찍고 10 이상에서 가파르게 무너졌다.


denoising step과 CFG scale에 따른 task-wise accuracy 변화


위 그림에서 좌측 패널은 LAMBADA가 32 step까지 가파르게 올라가다 saturate한 반면 다른 task들은 810 step에서 이미 plateau에 들어선 모습을 보였다. 우측 패널의 CFG 곡선은 47 구간에서 Task Average가 31.33을 살짝 넘어선 peak를 만들고, CFG=20·60에서 거의 절반으로 추락했다. block size 16과 결합하면 810 step만으로 16 token이 만들어지므로 AR 대비 1.62.0배의 sequential depth 절감이 가능하다고 본문은 환산했다.


RQ2의 logSNR ablation에서 learnable VAE logSNR이 22.1 Task Average로 fixed logSNR=1.5의 21.80을 약간 앞섰고, BERT loss × Joint DiT 조합이 단독 fix VAE보다 약 2점 가량 우위였다. Table 4의 token-level 비교는 더 극적이었다 — Fixed logSNR=1.5의 likelihood-derived PPL이 245.36이었지만 생성 토큰은 "the"였고, Direct training의 PPL이 $1.15 \times 10^6$이었지만 정답 "her"를 정확히 뽑았다. PPL은 무너졌다. 생성은 살아 있었다.




6. 직관과 시각 자료


Table 4가 숫자로 보여준 mismatch의 기하학적 그림이 Figure 11에 있었다. 같은 ground-truth 토큰(at, her, settled)에 대해 posterior cloud와 prior cloud가 PC1–PC2 평면 위에 그려지고, 그 아래 prior density landscape가 3D로 펼쳐진 두 단의 시각화다. 이 그림 한 장이 §5의 PPL 역설을 직관적으로 해체했다.


ground-truth 토큰 주변의 local latent 분포와 prior density landscape


위 그림 상단에서 "at"과 "her"의 posterior hit rate은 100%였고 decoder probe success도 100%였다. 그런데 prior hit rate은 "at"이 23.8%, "her"가 0.0%, "settled"가 0.0%로 격차가 컸다. 하단 3D density landscape를 보면 "her"의 prior density landscape는 정답 위치 옆 다른 모드(on, at, ln)에 봉우리를 만들고 있었고, GT density는 $5.29 \times 10^{-17}$에 가까웠다. prior mean이 gold tube 밖에 있어도 decoder-valid region 안이라면 생성은 통한다 — Proposition F.3가 말한 coverage vs. calibration의 분리가 눈으로 확인되는 순간이었다.


두 번째 직관은 Figure 13의 robustness 그래프에서 한 줄로 정리됐다. VAE latent는 노이즈 0%에서 $t = 250$까지 accuracy 0.92를 유지하며 graceful degradation을 보였고, $t = 365$에서도 50% 가량을 지켰다. 이건 곧 VAE latent가 깨지기 쉬운 압축 코드가 아니라 DiT가 위에서 작업할 만한 안정된 의미 인터페이스라는 뜻이었다. 안정적이지 않으면 prior transport라는 우아한 그림은 학습 노이즈에서 무너졌을 것이다. 다행히 무너지지 않았다.




7. Critical View


내가 이 논문에서 가장 먼저 의심한 지점은 sequence length 512라는 셋업이었다. global semantic 조직을 강점으로 내세운 모델이 long-context에서 어떻게 거동하는지를 보여주지 않으면, "latent prior가 의미를 운반한다"는 주장은 절반만 검증된 셈이다. block-causal DiT가 KV cache로 streaming을 한다지만, 8K·32K 구간에서 block 사이 인과 결합이 의미를 얼마나 유지하는지에 대한 증거가 없었다. ~2B 동급 비교도 정공법이지만, AR과 LLaDA의 진짜 강세 구간이 7B 이상이라는 점을 떠올리면 scaling 곡선의 외삽은 솔직히 보수적으로 읽어야 한다.


두 번째로 걸린 것은 평가 패러다임의 회피 구조였다. §5에서 PPL을 의도적으로 뺀 논리는 Table 4의 PPL 245 vs $1.15 \times 10^6$ 역설로 정당화됐지만, 그렇다면 strict string matching 기반 few-shot accuracy가 "scaling behavior"의 적절한 proxy인지에 대한 별도 정당화가 필요했다. 저자가 perplexity의 결함을 도구로 비판했지만, 그 자리에 둔 대체 메트릭은 자체 검증을 거치지 않았다. 여기서 좀 헷갈렸다 — likelihood를 못 믿겠다는 메시지와 generative accuracy로 충분하다는 메시지가 같은 페이지에서 동시에 나오니, 평가 기준이 결국 무엇이냐는 질문이 남았다.


세 번째는 inference 비용의 실측 부재였다. §5 RQ3에서 810 step × block size 16으로 "AR 대비 1.62.0배 sequential depth 절감"을 환산했지만, 이건 depth 절감이지 wall-clock 절감이 아니다. DiT 한 step의 비용, VAE encode/decode 부가, KV cache의 실제 메모리 footprint를 동일 GPU·동일 batch에서 AR과 나란히 측정한 표가 없었다. "streaming 가능"과 "실제 빠르다"는 다른 명제다. 저자가 효율성을 세 축 중 하나로 내세웠지만, 그 축에 대한 측정은 가장 약했다.


재현성 측면에서도 단서가 부족했다. pretraining data가 "external open-source"로만 명시돼 동일 시드·동일 데이터·동일 토크나이저라는 strict matching 주장이 외부 검증으로 이어지기 어렵다. reference encoder regularizer $\lambda_{\text{ref}}$의 민감도, BERT mask loss 비율, Stage 1→2 전환 시점의 hyperparameter 같은 핵심 손잡이의 sweep도 부분적으로만 공개됐다. 저자가 Eq. (3.35)의 applicability boundary 세 조건을 이론으로 제시했지만, 실제 데이터에서 그 조건이 충족됨을 직접 측정하지 않고 Figure 11의 PPL 역설 같은 reverse evidence로 우회했다는 점도 짚어둘 만했다.


후속 연구로 자연스럽게 떠오르는 질문은 네 갈래다. 첫째, 7B+ 스케일과 8K+ context에서 prior-transport path가 여전히 가파른 scaling을 유지하는가. 둘째, CFG·denoising step·block size를 inference-time에 자동 calibration하는 메커니즘 — Figure 9의 CFG=20에서 절반으로 무너지는 cliff는 그대로 두기엔 위험했다. 셋째, latent dim·noise schedule·BERT loss 비율의 joint optimization. 넷째, 저자도 명시한 vision과의 unified continuous latent modeling — 이미지 LDM의 레시피가 텍스트로 건너왔다면, 다시 텍스트의 latent가 이미지 latent와 같은 공간에서 만날 수 있는가라는 질문이 자연스럽게 따라왔다.




8. Take-aways


  • Diffusion LM의 본질은 denoising이 아니라 latent decomposition이라는 관점 전환이 핵심이다.
  • AR·LLaDA·Plaid·Cola DLM은 unified Markov-path 위에서 state space와 path role로 깔끔히 분류된다.
  • 좋은 latent space는 fixed도 from-scratch도 아닌 "stable init 위에서 강하게 joint evolve"한 것이었다.
  • Perplexity와 generation quality는 같은 시드 위에서도 어긋난다 — Table 4의 245 vs $1.15 \times 10^6$이 그 증거였다.
  • 그렇다면 다음 hierarchical latent가 텍스트와 이미지를 같은 공간에서 만나게 할 수 있을까.