微信扫码实时跟踪AI前沿
当前,大多数用于Transformers的计算花费在线性层上。这项工作利用muP和Monarch矩阵构建了一个结构化表示,不仅减少了计算量,而且比原始的密集层拥有更好的扩展规则。这项技术可以提高计算效率,降低运算成本,为AI...