大模型原理:预训练目标-因果语言建模(CLM)-滑动窗口步长stride的含义 作者:马育民 • 2026-01-08 19:35 • 阅读:10005 被以下文章引用: - [大模型原理:预训练目标-因果语言建模(CLM)-使用滑动窗口进行数据采样](https://www.malaoshi.top/show_1GW2YV1NBWPm.html "大模型原理:预训练目标-因果语言建模(CLM)-使用滑动窗口进行数据采样") - [大模型原理:预训练目标-因果语言建模(CLM)-pytorch实现数据集](https://www.malaoshi.top/show_1GW2YXCJgYVE.html "大模型原理:预训练目标-因果语言建模(CLM)-pytorch实现数据集") # 步长stride=1的含义 [](https://www.malaoshi.top/upload/0/0/1GW2YTwGUYpS.png) 步幅(stride)决定了批次之间输入的 **位移量**,模拟了滑动窗口方法,如上图 将第一批数据与第二批数据进行比较,可以发现第二批数据的词元ID相对于第一批整体 **左移一个位置**。例如,第一批输入中的第二个词元ID为367,而这正是第二批输入中的第一个词元ID。 ### 缺点 过多的重叠可能会增加模型 **过拟合** 的风险 # 不同的步长 [](https://www.malaoshi.top/upload/0/0/1GW2YX7QJYg4.png) 如果步幅与输入窗口大小相等,则可以避免批次之间的重叠 # 步长(stride)策略对比 |步幅|样本数量|训练效率|信息冗余|适用场景| |---|---|---|---|---| |1|最大|低|高|小数据集| |窗口大小|最小|高|低|大数据集| |N( `1 原文出处:http://www.malaoshi.top/show_1GW2YXBPPimC.html