history 传的是 全量 raw_values(训练+测试全部真值)。这会导致:在 i 增大时,你取到的 history[-interval] 会逐步落到测试集真实值上也就是说,你在把差分预测值还原成原始值时,借用了测试集的真值当“基准点”这会让预测值看起来很好。