pytorch api文档:张量的 .stride() 方法-查看步长,判断是否连续
pytorch api文档:连续张量、非连续张量
pytorch api文档:张量的.is_contiguous()方法-判断张量内存是否连续
pytorch api文档:张量的 .contiguous()方法-返回内存连续的新张量
pytorch api文档:张量的.view() 和 torch.transpose() 函数的区别
pytorch api文档:张量的 .view()形状变换方法
pytorch api文档:张量的 .masked_fill_()方法-根据布尔类型的张量填充
大模型原理:多头注意力-优化
Python 中下划线 _ 用法
标准自注意力(Self-Attention) 和因果注意力(Causal Attention) 的区别