記錄

Tencent: Continuous Autoregressive Language Models

calicorone 2026. 3. 23. 12:31
반응형

Continuous Autoregressive Language Models

The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process. We argue that overcoming this bottleneck requires a new design axis for LLM scaling: increasing the semantic bandwidth of each g

arxiv.org

GitHub - shaochenze/calm: Official implementation of "Continuous Autoregressive Language Models"

Official implementation of "Continuous Autoregressive Language Models" - shaochenze/calm

github.com

Continuous Autoregressive Language Models | Chenze Shao

Continuous Autoregressive Language Models from discrete next-token prediction to continuous next-vector prediction Contents Introduction Large Language Models (LLMs) represent the central paradox of modern AI. On one hand, their capabilities are unpreceden

shaochenze.github.io


“나 이번에 중국車 뽑았어”…이런 사람들 참 많더니 ‘세계 판매 1위’ 등극

중국 완성차 업체들의 지난해 전 세계 신차 판매량이 일본을 처음으로 앞지르며 국가별 1위에 올랐다. 일본이 정상 자리를 내준 건 2000년 이후 25년 만이다. 다만 중국 내수 성장세가 꺾이는 조짐

www.sedaily.com

AI 물량공세 퍼붓는 중국…100달러짜리 데이터토큰 200원에 공급

중국 광둥성 선전에 있는 5성급 호텔인 프레이저 스위트. 엘리베이터 문이 열리자 허리춤까지 오는 네모난 배달 로봇이 먼저 자리를 잡고 있다. 프레이저 스위트의 배달 로봇은 불과 몇 해 전만

v.daum.net

Two opposing AI strategies in China

Alibaba’s trillion-parameter Qwen3-Max battles DeepSeek’s 50% cost cuts as competing strategies reshape market dynamics

www.ciw.news

“미국산 1번 쓸 돈으로 22번 쓴다”…중국산 AI, 토큰 사용량 美 첫 추월

중국 인공지능(AI) 모델들이 글로벌 AI 플랫폼의 오픈소스 사용량에서 이달 들어 미국을 처음으로 앞질렀다. 미국 AI가 독식해온 글로벌 시장 판도가 ‘가격 경쟁력’을 앞세운 중국의 공습으로

www.sedaily.com

China's tech titans are giving away money and cars in 'The Lunar New Year AI War'

ByteDance's Seedance 2.0 model that created the viral Tom Cruise and Brad Pitt fight videos got the attention of Elon Musk.

www.cnbc.com

Investor Ready to Make Payment with Tokens

The Currency in the AI Era: Key Insights and Significance

eu.36kr.com

[NNA] IDC, 중국 AI 에이전트 시장 급성장 전망 | 아주경제

미국 조사기관 IDC는 4일 중국 내 기업용 인공지능(AI) 에이전트 규모가 향후 급속하게 확대될 것이라는 견해를 밝혔다. 중국 기업들이 사용하는 AI 에이전트 ...

www.ajunews.com



CALM: Continuous Autoregressive Language Models

Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
WeChat AI, Tencent Inc  |  Qiuzhen College, Tsinghua University
arXiv:2510.27688  |  October 31, 2025


Abstract


The efficiency of large language models (LLMs) is fundamentally limited by their sequential, token-by-token generation process.

CALM introduces a paradigm shift from discrete next-token prediction to continuous next-vector prediction. Using a high-fidelity autoencoder, CALM compresses a chunk of K tokens into a single continuous vector with over 99.9% reconstruction accuracy, reducing the number of autoregressive steps by a factor of K.

Experiments show CALM significantly improves the performance-compute trade-off, achieving performance comparable to strong discrete baselines at substantially lower computational cost.

Key Results (K=4)



CALM-M achieves comparable performance to Transformer-S with 44% fewer training FLOPs and 34% fewer inference FLOPs.

Core Idea: Semantic Bandwidth as a Scaling Axis


Modern LLMs are bottlenecked by the information density of discrete tokens. With typical vocabularies of 32K to 256K entries, each token carries only 15-18 bits of information. Scaling this capacity via vocabulary expansion is untenable due to exponential softmax cost.

CALM addresses this by shifting to a continuous vector space.

A chunk of K tokens is encoded into a single dense vector, enabling:

  • K-fold reduction in autoregressive steps
  • Removal of the vocabulary softmax bottleneck
  • Scalable information capacity via vector dimensionality
  • A new scaling axis: semantic bandwidth K

Architecture


1. Autoencoder


A variational autoencoder maps K-token chunks to l-dimensional continuous vectors and back.

Key design choices

  • Variational regularization (VAE) with KL divergence to smooth the latent manifold
  • KL clipping to prevent posterior collapse (floor lambda_KL = 0.5)
  • Dropout on latent vector (p=0.15) and input tokens (p=0.15) for robustness
  • Final configuration: K=4 tokens -> l=128 dimensional vector, 99.9%+ reconstruction accuracy
  • ~75M parameters, negligible overhead vs. the main LM

2. Likelihood-Free Language Modeling


Standard cross-entropy loss is inapplicable in continuous space (no finite vocabulary).

CALM uses an Energy-Based Generative Head

  • Strictly proper scoring rule (Energy Score, alpha=1) as training objective
  • Single-step generation — no iterative diffusion/flow matching required
  • Energy loss estimated via Monte Carlo (N=8 model samples, M=100 target samples)
  • Transformer backbone predicts conditioning hidden state; lightweight MLP head generates continuous vector

3. BrierLM: Likelihood-Free Evaluation


Perplexity is inapplicable without explicit likelihoods.

BrierLM is proposed as a strictly proper, sample-based metric

  • Based on the Brier score — balances accuracy and predictive uncertainty
  • Unbiased Monte Carlo estimation using only two model samples per step
  • Geometric mean of Brier-n scores (n=1 to 4), scaled to 0-100
  • Near-linear correlation with cross-entropy loss (Pearson r = -0.966, Spearman = -0.991)
  • Universally applicable to discrete LMs too


4. Likelihood-Free Temperature Sampling


CALM has no softmax logits to rescale for temperature control.

Instead

  • Exact algorithm via rejection sampling, provably draws from P(x)^(1/T)
  • Batch approximation algorithm for practical efficiency
  • Batch size N is more effective than temperature T for controlling accuracy-diversity tradeoff

Key Ablation Findings


Limitations & Future Work

  • K=1 underperforms discrete LMs — architectural improvements needed
  • Text-only experiments; no multimodal extension yet
  • Lacks token-level probabilities — RLHF and calibration methods need rethinking
  • Temperature sampling can be expensive at extreme temperatures
  • Scaling laws with K as a third variable yet to be established
  • Context-aware autoencoder (vs. current context-free design) unexplored
  • RLHF / KL distillation require reformulation for sample-based regime

Relationship to Prior Work


CALM is not the first continuous-space autoregressive approach for language

  • Meta's Large Concept Models (LCM): also predicts continuous sentence embeddings autoregressively, but uses a heavy SONAR autoencoder and diffusion-based generation (iterative inference bottleneck)
  • MegaByte: hierarchical token block prediction, but still decodes tokens sequentially within each block
  • GIVT (Google): continuous autoregressive image generation via Gaussian mixtures
  • Li et al. 2024: diffusion head for continuous image autoregression


CALM's contribution: a lightweight, efficiency-oriented framework for text that avoids iterative inference via the Energy Transformer, paired with a robust VAE latent space and a new evaluation protocol (BrierLM).

Tencent가 '다음 토큰 예측'을 버린 이유

GPT-4부터 Claude까지, 모든 LLM은 동일한 방식으로 텍스트를 생성한다.

토큰 하나 예측 → 다음 토큰 예측 → 반복.

이 토큰이 담는 정보량은 고작 15~18비트. 어휘 크기를 늘리면 softmax 연산이 지수적으로 커진다.

구조적 한계다.

Tencent WeChat AI + Tsinghua의 CALM은 이 문제를 다른 축으로 접근한다.

토큰이 아닌 연속 벡터를 예측 단위로 쓴다.

K=4 기준 결과
- 오토스텝 수 4분의 1로 감소
- 학습 FLOPs 44% 감소
- 추론 FLOPs 34% 감소
- 벡터 재구성 정확도 99.9% 이상

기술적으로 풀어야 했던 문제도 세 가지.
- cross-entropy 대신 Energy Score 기반 학습
- Perplexity 대신 BrierLM
- softmax temperature 대신 rejection sampling.

연속 공간으로 이동하면 기존 툴킷이 전부 깨진다.

연속 공간 언어 모델은 CALM이 처음이 아니다. 이미 여러 시도가 있었고, CALM은 그 계보 위에 있다.
선행 연구들의 공통 한계는 하나다. 연속 공간으로 가는 건 맞는데, 생성 단계에서 반복 추론(iterative inference)이 생긴다.
- Meta LCM — 문장 단위 임베딩을 예측하는 방향은 CALM과 가장 유사하다. 그런데 생성 헤드로 diffusion을 쓴다. Diffusion은 노이즈를 여러 스텝에 걸쳐 제거하는 방식이라, 토큰 스텝을 줄여도 생성 스텝이 늘어나서 속도 이득이 상쇄된다.
- MegaByte — K개 토큰을 블록으로 묶어 예측하는 구조는 비슷하다. 그런데 블록 내부에서는 여전히 토큰을 하나씩 순차 디코딩한다. 진정한 스텝 감소가 아니다.
- GIVT, Li et al. — 연속 공간 자기회귀를 이미지에 적용한 사례들. 텍스트로의 전이 가능성은 검증되지 않았다.

CALM의 포지션: 같은 방향을 텍스트에서, 단일 스텝 생성으로 해결했다는 것. Energy Transformer를 생성 헤드로 선택한 이유가 여기 있다 — iterative inference 없이 벡터를 한 번에 뽑아낸다. VAE로 latent space를 안정화하고, 기존 perplexity를 대체하는 BrierLM까지 패키지로 제안한 것이 논문의 기여다.

방향은 선행 연구들과 같고, 병목 지점(반복 추론)을 우회하는 설계 선택이 차별점이다.

다만 "next-token paradigm 종료"라는 프레이밍은 과하다.

K=1에선 discrete 베이스라인보다 성능이 낮고, 최대 1.82B 규모 실험이 전부다.

RLHF, distillation 등 표준 파이프라인도 전면 재설계가 필요하다.

지금은 패러다임 전환이 아니라 초기 검증이다.

포인트는 semantic bandwidth K가 파라미터 수, 데이터 양에 이어 세 번째 스케일링 변수가 될 수 있는가.

반응형