Have you ever encountered this issue?
This is a answer from ChatGPT :
具体问题分析
关键报错位置
错误出现在 swin.py 的 image_lang_att 方法中:
python
复制代码
key = key.reshape(B, self.num_heads, self.key_channels//self.num_heads, n_l)
这行代码试图对 key 张量进行变形。
张量大小计算错误
报错中的形状为 [24, 1, 96, 40],这表示目标张量需要具有 24196*40=92160 个元素。但实际的张量大小为 368640,两者不匹配。
数据流向
报错发生时,key 是由 x(图像特征)、l(语言特征)以及 l_mask(语言掩码)处理后得到的。可能的问题包括:
x 或 l 的形状未按照预期对齐。
num_heads 或 key_channels 的值配置不正确。