你好,非常感谢您用PyTorch复现Flash-Quad,我对这个模型也很感兴趣, 有几个小问题,想讨论下: - A = square(relu(qk / seq_len + bias)), 这里的seq_len是不是用当前batch的length更合适,代码中https://github.com/JunnYu/FLASHQuad_pytorch/blob/main/flash/gau.py#L117 用的是预设的max_length(如512 ). 不同batch 的序列长度可能是不同的。 - 您有在不同任务上对比过GAU与Transformer的性能吗 我这边试了几个序列建模任务,发现性能会下降,可能训练超参数差异? 谢谢
你好,非常感谢您用PyTorch复现Flash-Quad,我对这个模型也很感兴趣, 有几个小问题,想讨论下:
谢谢