Continuous Autoregressive Language Models
The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process. We argue that overcoming this bottleneck requires a new design axis for LLM scaling: increasing the semantic bandwidth of each g
arxiv.org
GitHub - shaochenze/calm: Official implementation of "Continuous Autoregressive Language Models"
Official implementation of "Continuous Autoregressive Language Models" - shaochenze/calm
github.com
Continuous Autoregressive Language Models | Chenze Shao
Continuous Autoregressive Language Models from discrete next-token prediction to continuous next-vector prediction Contents Introduction Large Language Models (LLMs) represent the central paradox of modern AI. On one hand, their capabilities are unpreceden
shaochenze.github.io
“나 이번에 중국車 뽑았어”…이런 사람들 참 많더니 ‘세계 판매 1위’ 등극
중국 완성차 업체들의 지난해 전 세계 신차 판매량이 일본을 처음으로 앞지르며 국가별 1위에 올랐다. 일본이 정상 자리를 내준 건 2000년 이후 25년 만이다. 다만 중국 내수 성장세가 꺾이는 조짐
www.sedaily.com
AI 물량공세 퍼붓는 중국…100달러짜리 데이터토큰 200원에 공급
중국 광둥성 선전에 있는 5성급 호텔인 프레이저 스위트. 엘리베이터 문이 열리자 허리춤까지 오는 네모난 배달 로봇이 먼저 자리를 잡고 있다. 프레이저 스위트의 배달 로봇은 불과 몇 해 전만
v.daum.net
Two opposing AI strategies in China
Alibaba’s trillion-parameter Qwen3-Max battles DeepSeek’s 50% cost cuts as competing strategies reshape market dynamics
www.ciw.news
“미국산 1번 쓸 돈으로 22번 쓴다”…중국산 AI, 토큰 사용량 美 첫 추월
중국 인공지능(AI) 모델들이 글로벌 AI 플랫폼의 오픈소스 사용량에서 이달 들어 미국을 처음으로 앞질렀다. 미국 AI가 독식해온 글로벌 시장 판도가 ‘가격 경쟁력’을 앞세운 중국의 공습으로
www.sedaily.com
China's tech titans are giving away money and cars in 'The Lunar New Year AI War'
ByteDance's Seedance 2.0 model that created the viral Tom Cruise and Brad Pitt fight videos got the attention of Elon Musk.
www.cnbc.com
Investor Ready to Make Payment with Tokens
The Currency in the AI Era: Key Insights and Significance
eu.36kr.com
[NNA] IDC, 중국 AI 에이전트 시장 급성장 전망 | 아주경제
미국 조사기관 IDC는 4일 중국 내 기업용 인공지능(AI) 에이전트 규모가 향후 급속하게 확대될 것이라는 견해를 밝혔다. 중국 기업들이 사용하는 AI 에이전트 ...
www.ajunews.com
CALM: Continuous Autoregressive Language Models
Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
WeChat AI, Tencent Inc | Qiuzhen College, Tsinghua University
arXiv:2510.27688 | October 31, 2025
Abstract
The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process.
CALM introduces a paradigm shift from discrete next-token prediction to continuous next-vector prediction. Using a high-fidelity autoencoder, CALM compresses a chunk of K tokens into a single continuous vector with over 99.9% reconstruction accuracy, reducing the number of autoregressive steps by a factor of K.
Experiments show CALM significantly improves the performance-compute trade-off, achieving performance comparable to strong discrete baselines at substantially lower computational cost.
Key Results (K=4)

CALM-M achieves comparable performance to Transformer-S with 44% fewer training FLOPs and 34% fewer inference FLOPs.
Core Idea: Semantic Bandwidth as a Scaling Axis
Modern LLMs are bottlenecked by the information density of discrete tokens. With typical vocabularies of 32K to 256K entries, each token carries only 15-18 bits of information. Scaling this capacity via vocabulary expansion is untenable due to exponential softmax cost.
CALM addresses this by shifting to a continuous vector space.
A chunk of K tokens is encoded into a single dense vector, enabling:
- K-fold reduction in autoregressive steps
- Removal of the vocabulary softmax bottleneck
- Scalable information capacity via vector dimensionality
- A new scaling axis: semantic bandwidth K
Architecture
1. Autoencoder
A variational autoencoder maps K-token chunks to l-dimensional continuous vectors and back.
Key design choices
- Variational regularization (VAE) with KL divergence to smooth the latent manifold
- KL clipping to prevent posterior collapse (floor lambda_KL = 0.5)
- Dropout on latent vector (p=0.15) and input tokens (p=0.15) for robustness
- Final configuration: K=4 tokens -> l=128 dimensional vector, 99.9%+ reconstruction accuracy
- ~75M parameters, negligible overhead vs. the main LM
2. Likelihood-Free Language Modeling
Standard cross-entropy loss is inapplicable in continuous space (no finite vocabulary).
CALM uses an Energy-Based Generative Head
- Strictly proper scoring rule (Energy Score, alpha=1) as training objective
- Single-step generation — no iterative diffusion/flow matching required
- Energy loss estimated via Monte Carlo (N=8 model samples, M=100 target samples)
- Transformer backbone predicts conditioning hidden state; lightweight MLP head generates continuous vector
3. BrierLM: Likelihood-Free Evaluation
Perplexity is inapplicable without explicit likelihoods.
BrierLM is proposed as a strictly proper, sample-based metric
- Based on the Brier score — balances accuracy and predictive uncertainty
- Unbiased Monte Carlo estimation using only two model samples per step
- Geometric mean of Brier-n scores (n=1 to 4), scaled to 0-100
- Near-linear correlation with cross-entropy loss (Pearson r = -0.966, Spearman = -0.991)
- Universally applicable to discrete LMs too
4. Likelihood-Free Temperature Sampling
CALM has no softmax logits to rescale for temperature control.
Instead
- Exact algorithm via rejection sampling, provably draws from P(x)^(1/T)
- Batch approximation algorithm for practical efficiency
- Batch size N is more effective than temperature T for controlling accuracy-diversity tradeoff
Key Ablation Findings

Limitations & Future Work
- K=1 underperforms discrete LMs — architectural improvements needed
- Text-only experiments; no multimodal extension yet
- Lacks token-level probabilities — RLHF and calibration methods need rethinking
- Temperature sampling can be expensive at extreme temperatures
- Scaling laws with K as a third variable yet to be established
- Context-aware autoencoder (vs. current context-free design) unexplored
- RLHF / KL distillation require reformulation for sample-based regime
Relationship to Prior Work
CALM is not the first continuous-space autoregressive approach for language
- Meta's Large Concept Models (LCM): also predicts continuous sentence embeddings autoregressively, but uses a heavy SONAR autoencoder and diffusion-based generation (iterative inference bottleneck)
- MegaByte: hierarchical token block prediction, but still decodes tokens sequentially within each block
- GIVT (Google): continuous autoregressive image generation via Gaussian mixtures
- Li et al. 2024: diffusion head for continuous image autoregression
CALM's contribution: a lightweight, efficiency-oriented framework for text that avoids iterative inference via the Energy Transformer, paired with a robust VAE latent space and a new evaluation protocol (BrierLM).
Tencent가 '다음 토큰 예측'을 버린 이유
GPT-4부터 Claude까지, 모든 LLM은 동일한 방식으로 텍스트를 생성한다.
토큰 하나 예측 → 다음 토큰 예측 → 반복.
이 토큰이 담는 정보량은 고작 15~18비트. 어휘 크기를 늘리면 softmax 연산이 지수적으로 커진다.
구조적 한계다.
Tencent WeChat AI + Tsinghua의 CALM은 이 문제를 다른 축으로 접근한다.
토큰이 아닌 연속 벡터를 예측 단위로 쓴다.
K=4 기준 결과
- 오토스텝 수 4분의 1로 감소
- 학습 FLOPs 44% 감소
- 추론 FLOPs 34% 감소
- 벡터 재구성 정확도 99.9% 이상
기술적으로 풀어야 했던 문제도 세 가지.
- cross-entropy 대신 Energy Score 기반 학습
- Perplexity 대신 BrierLM
- softmax temperature 대신 rejection sampling.
연속 공간으로 이동하면 기존 툴킷이 전부 깨진다.
연속 공간 언어 모델은 CALM이 처음이 아니다. 이미 여러 시도가 있었고, CALM은 그 계보 위에 있다.
선행 연구들의 공통 한계는 하나다. 연속 공간으로 가는 건 맞는데, 생성 단계에서 반복 추론(iterative inference)이 생긴다.
- Meta LCM — 문장 단위 임베딩을 예측하는 방향은 CALM과 가장 유사하다. 그런데 생성 헤드로 diffusion을 쓴다. Diffusion은 노이즈를 여러 스텝에 걸쳐 제거하는 방식이라, 토큰 스텝을 줄여도 생성 스텝이 늘어나서 속도 이득이 상쇄된다.
- MegaByte — K개 토큰을 블록으로 묶어 예측하는 구조는 비슷하다. 그런데 블록 내부에서는 여전히 토큰을 하나씩 순차 디코딩한다. 진정한 스텝 감소가 아니다.
- GIVT, Li et al. — 연속 공간 자기회귀를 이미지에 적용한 사례들. 텍스트로의 전이 가능성은 검증되지 않았다.
CALM의 포지션: 같은 방향을 텍스트에서, 단일 스텝 생성으로 해결했다는 것. Energy Transformer를 생성 헤드로 선택한 이유가 여기 있다 — iterative inference 없이 벡터를 한 번에 뽑아낸다. VAE로 latent space를 안정화하고, 기존 perplexity를 대체하는 BrierLM까지 패키지로 제안한 것이 논문의 기여다.
방향은 선행 연구들과 같고, 병목 지점(반복 추론)을 우회하는 설계 선택이 차별점이다.
다만 "next-token paradigm 종료"라는 프레이밍은 과하다.
K=1에선 discrete 베이스라인보다 성능이 낮고, 최대 1.82B 규모 실험이 전부다.
RLHF, distillation 등 표준 파이프라인도 전면 재설계가 필요하다.
지금은 패러다임 전환이 아니라 초기 검증이다.
포인트는 semantic bandwidth K가 파라미터 수, 데이터 양에 이어 세 번째 스케일링 변수가 될 수 있는가.

'記錄' 카테고리의 다른 글
| 쌍탄(双碳): 2030년 탄소배출 정점·2060년 탄소중립, EU 시장 통과 전략 (0) | 2026.03.25 |
|---|---|
| Palantir: “This is how people actually worked on the floor” (0) | 2026.03.25 |
| 유럽의 안보 환경: 미국과의 관계 변화, 북중러 협력 구조, 핵위협, AI 전장, 그리고 EU의 현실 (0) | 2026.03.19 |
| Alibaba: “10억 명의 일상을 운영하는 생태계” (2) | 2026.03.19 |
| 중국 AI 기업들은 어떻게 경쟁하는가 (0) | 2026.03.19 |