简介 样条——具有连续性约束的分段多项式——广泛用于拟合数据[1,§5
分段多项式的一个问题是它们的行为超出了它们的边界结点,并且(典型地)在该范围之外没有限制地增长[1,§5
这种不稳定性使得推断是危险的; 从业人员必须注意避免查询训练数据范围附近或之外的样条模型
平滑样条算法[2] - [4]通过拟合自然样条来改善这个问题,该自然样条在边界结点之后降低到较低阶的多项式
最常用的各种光滑样条是三次光滑样条(在边界结外部减少到线性的三度样条)以及线性平滑样条,这些样条一直保持不变
我们提出的饱和样条与线性平滑样条密切相关
平滑样条使用或二次方复杂度概念,因此可以用预先确定的密集结点集合拟合模型[1,§5
另一方面,自适应回归样条[5]使用型惩罚,这可以导致自适应选择结点的稀疏集合
然而,自适应回归样条不会在最大结点范围之外降低到较低程度,因此可能会出现不稳定性
我们提出拟合自适应回归样条曲线,其中对某个区间之外的样条曲线的程度有明确的约束
我们称这些样条为饱和样条
虽然我们采用的方法可以扩展到拟合具有任意导数约束的样条曲线,但在本文中,我们将重点放在拟合数据范围之外平坦(恒定)的线性样条; 我们在§8 中提到对更高阶样条的扩展
我们证明饱和样条继承了自适应回归样条的结点选择属性,同时其行为与数据边界附近的自然样条相似
在饱和样条坐标函数拟合广义相加模型[6]的背景下,我们还展示了我们方法的一个非常重要的好处:饱和约束自然导致变量选择
我们不仅通过结点选择来控制每个坐标函数的复杂性,而且在饱和条件下,变量上没有结点表示变量不在模型中
对于自适应样条,这是不正确的,因为线性项是未被去除的,因此每个变量总是在模型中
缺乏特征选择会伤害可解释性,并且在某些情况下会导致泛化
我们提出的饱和约束排除了线性函数,并且与自适应样条型惩罚配合,鼓励坐标函数相同为零