重复惩罚疑问 #293

mumu029 · 2025-03-23T05:19:09Z

mumu029
Mar 23, 2025

在model.py文件中的361行，是对逻辑值进行重复惩罚的操作。

logits[:, list(set(input_ids.tolist()[0]))] /= rp

但这里似乎对batch中的每一条数据，都根据第一条数据来判断是否进行重复惩罚了，这样是合理的吗？（本人小白，不太懂）

Answered by jingyaogong

Apr 1, 2025

好问题

input_ids 的 shape 是 [1, seq_len]，因为这个方法是单条数据生成用的。
看一下生成函数的调用链：

对于批量生成，generate它会循环调用 _stream，每次只传入一条数据：

for i in range(input_ids.size(0)):
    non_pad = input_ids[i][input_ids[i] != pad_token_id].unsqueeze(0)  # batch_size=1
    out = self._stream(non_pad, ...)

所以在 _stream 中使用 input_ids.tolist()[0] 是没有问题的，因为：

batch_size 始终为 1
[0] 索引就是获取这唯一的一条数据
set() 用于获取已生成的 token 集合，用于重复惩罚

如果将来要支持真正的批量生成（parallel generation），那么这行代码确实需要修改，每个样本都应该根据自己的历史 tokens 来进行重复惩罚。但目前的实现在当前的使用场景下是正确的。

View full answer

jingyaogong · 2025-04-01T09:49:55Z

jingyaogong
Apr 1, 2025
Maintainer

好问题

input_ids 的 shape 是 [1, seq_len]，因为这个方法是单条数据生成用的。
看一下生成函数的调用链：

对于批量生成，generate它会循环调用 _stream，每次只传入一条数据：

for i in range(input_ids.size(0)):
    non_pad = input_ids[i][input_ids[i] != pad_token_id].unsqueeze(0)  # batch_size=1
    out = self._stream(non_pad, ...)

所以在 _stream 中使用 input_ids.tolist()[0] 是没有问题的，因为：

batch_size 始终为 1
[0] 索引就是获取这唯一的一条数据
set() 用于获取已生成的 token 集合，用于重复惩罚

如果将来要支持真正的批量生成（parallel generation），那么这行代码确实需要修改，每个样本都应该根据自己的历史 tokens 来进行重复惩罚。但目前的实现在当前的使用场景下是正确的。

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

重复惩罚疑问 #293

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

重复惩罚疑问 #293

Uh oh!

mumu029 Mar 23, 2025

Replies: 1 comment

Uh oh!

jingyaogong Apr 1, 2025 Maintainer

mumu029
Mar 23, 2025

jingyaogong
Apr 1, 2025
Maintainer