Skip to content

[Paper Note] Chunky Post-Training: Data Driven Failures of Generalization, Seoirse Murray+, arXiv'26, 2026.02 #4460

@AkihikoWatanabe

Description

@AkihikoWatanabe

URL

Authors

  • Seoirse Murray
  • Allison Qi
  • Timothy Qian
  • John Schulman
  • Collin Burns
  • Sara Price

Abstract

  • LLM post-training involves many diverse datasets, each targeting a specific behavior. But these datasets encode incidental patterns alongside intended ones: correlations between formatting and content, narrow phrasings across diverse problems, and implicit associations arising from the discrete data curation process. These patterns are often invisible to developers yet salient to models, producing behaviors that surprise their creators, such as rejecting true facts presented in a particular question format. We call this chunky post-training: the model learns spurious correlations as a result of distinct chunks of post-training data. We introduce SURF, a black-box pipeline which surfaces these unintended behaviors at run time, and TURF, a tool that traces these failures back to specific post-training data. Applying these tools to frontier models (Claude 4.5, GPT-5.1, Grok 4.1, Gemini 3) and open models (Tülu 3), we show that chunky post-training produces miscalibrated behaviors, which often result from imbalanced or underspecified chunks of post-training data.

Translation (by gpt-4o-mini)

  • LLMのポストトレーニングは、多様なデータセットを含み、各データセットは特定の行動をターゲットにしています。しかし、これらのデータセットは意図したパターンに加えて偶発的なパターンもエンコードしています:フォーマットとコンテンツの間の相関、さまざまな問題における狭い表現、そして離散的なデータキュレーションプロセスから生じる暗黙の関連性です。これらのパターンは開発者にはしばしば見えないものの、モデルには顕著であり、特定の質問形式で提示された真実の事実を拒否するなど、開発者を驚かせる行動を引き起こします。これを「チャンクポストトレーニング」と呼びます。モデルは、ポストトレーニングデータの異なるチャンクの結果として虚偽の相関を学習します。私たちは、これらの意図しない行動を実行時に浮き彫りにするブラックボックスパイプライン「SURF」と、これらの失敗を特定のポストトレーニングデータに追跡するツール「TURF」を紹介します。これらのツールをフロンティアモデル(Claude 4.5、GPT-5.1、Grok 4.1、Gemini 3)およびオープンモデル(Tülu 3)に適用し、チャンクポストトレーニングが誤校正された行動を生み出すことを示します。これらの行動は、しばしば不均衡または不十分に仕様されたポストトレーニングデータのチャンクから生じます。

Summary (by gpt-4o-mini)

  • LLMのポストトレーニングでは、偶発的なパターンがモデルに影響を及ぼし、意図しない行動を引き起こすことがある。これを「チャンクポストトレーニング」と呼び、特定の質問形式に対して虚偽の相関が現れる理由を探るため、「SURF」というブラックボックスパイプラインと、「TURF」という追跡ツールを提案。これらのツールを用いて、フロンティアモデルやオープンモデルでの誤校正された行動の生成を示し、ポストトレーニングデータの不均衡が影響していることを明らかにした。

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions