Skip to content

[Paper Note] LLaDA2.1: Speeding Up Text Diffusion via Token Editing, Tiwei Bie+, arXiv'26, 2026.02 #4500

@AkihikoWatanabe

Description

@AkihikoWatanabe

URL

Authors

  • Tiwei Bie
  • Maosong Cao
  • Xiang Cao
  • Bingsen Chen
  • Fuyuan Chen
  • Kun Chen
  • Lun Du
  • Daozhuo Feng
  • Haibo Feng
  • Mingliang Gong
  • Zhuocheng Gong
  • Yanmei Gu
  • Jian Guan
  • Kaiyuan Guan
  • Hongliang He
  • Zenan Huang
  • Juyong Jiang
  • Zhonghui Jiang
  • Zhenzhong Lan
  • Chengxi Li
  • Jianguo Li
  • Zehuan Li
  • Huabin Liu
  • Lin Liu
  • Guoshan Lu
  • Yuan Lu
  • Yuxin Ma
  • Xingyu Mou
  • Zhenxuan Pan
  • Kaida Qiu
  • Yuji Ren
  • Jianfeng Tan
  • Yiding Tian
  • Zian Wang
  • Lanning Wei
  • Tao Wu
  • Yipeng Xing
  • Wentao Ye
  • Liangyu Zha
  • Tianze Zhang
  • Xiaolu Zhang
  • Junbo Zhao
  • Da Zheng
  • Hao Zhong
  • Wanli Zhong
  • Jun Zhou
  • Junlin Zhou
  • Liwang Zhu
  • Muzhi Zhu
  • Yihong Zhuang

Abstract

  • While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.

Translation (by gpt-4o-mini)

  • LLaDA2.0は、100Bレベルのブロック拡散モデルのスケーリング可能性とその固有の並列処理能力を示しましたが、デコード速度と生成品質の微妙な均衡は依然として難解な課題として残っています。今日、私たちはこのトレードオフを超えるために設計されたLLaDA2.1を発表します。従来のマスクからトークン(M2T)スキームにトークン間編集(T2T)をシームレスに組み込み、共同の構成可能なしきい値デコード方式を導入しました。この構造的革新は、2つの異なるモードを生み出します。スピーディモード(Sモード)は、従来の制約を回避するためにM2Tのしきい値を思い切って下げ、T2Tに依存して出力を洗練させます。一方、クオリティモード(Qモード)は、優れたベンチマーク性能を保ちながら、効率性の低下を管理可能な範囲に抑えるために保守的なしきい値に重点を置いています。この進化を促進するために、広範なコンテキストウィンドウに支えられ、特にdLLMs向けに特化した安定した勾配推定技術を採用した大規模な強化学習(RL)フレームワークを導入します。この整合性は、推論の精度を高めるだけでなく、指示に従う忠実度を向上させ、拡散ダイナミクスと複雑な人間の意図との間のギャップを埋めます。この研究の成果として、LLaDA2.1-Mini(16B)とLLaDA2.1-Flash(100B)を公開します。33の厳格なベンチマークにおいて、LLaDA2.1は強力なタスク性能と驚異的なデコード速度を発揮します。100Bの規模にもかかわらず、コーディングタスクではHumanEval+で驚異的な892 TPS、BigCodeBenchで801 TPS、LiveCodeBenchで663 TPSを達成しています。

Summary (by gpt-4o-mini)

  • LLaDA2.1は、デコード速度と生成品質のトレードオフを克服するために設計され、M2TからT2Tへの移行を実現。スピーディモード(Sモード)とクオリティモード(Qモード)の2つのモードを導入し、効率性とベンチマーク性能をバランスさせる。大規模な強化学習フレームワークを用いることで、推論の精度と指示への忠実度を向上。LLaDA2.1は、33のベンチマークで優れた性能を示し、コーディングタスクにおいても高いスループットを達成。

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions