Skip to content

关于A = square(relu(qk / seq_len + bias)) #1

@ShomyLiu

Description

@ShomyLiu

你好,非常感谢您用PyTorch复现Flash-Quad,我对这个模型也很感兴趣, 有几个小问题,想讨论下:

  • A = square(relu(qk / seq_len + bias)), 这里的seq_len是不是用当前batch的length更合适,代码中https://github.com/JunnYu/FLASHQuad_pytorch/blob/main/flash/gau.py#L117 用的是预设的max_length(如512 ). 不同batch 的序列长度可能是不同的。
  • 您有在不同任务上对比过GAU与Transformer的性能吗 我这边试了几个序列建模任务,发现性能会下降,可能训练超参数差异?

谢谢

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions