<trans data-src="Structured Functional Additive Regression in Reproducing Kernel Hilbert Spaces">再生核Hilbert空间中的结构泛函加性回归

密集和稀疏设计下100个蒙特卡罗模拟的模型选择和预测总结

数据	模型	以下型号尺寸的计数：								以下组件的选择频率：								聚乙烯
数据	模型	1	2	三	4	5	6	7	8	${\hat{如果}}_{1}$	${\hat{如果}}_{2}$	${\hat{如果}}_{三}$	${\hat{如果}}_{4}$	${\hat{如果}}_{5}$	${\hat{如果}}_{6}$	${\hat{如果}}_{7}$	${\hat{如果}}_{8}$	聚乙烯
密集设计	CSEFAM公司	0	5	61	29	5	0	0	0	100	94	22	100	7	三	0	1	1.30 (0.13)
	FAM公司 $_{S公司}$	0	0	10	32	21	21	8	4	100	98	51	100	32	14	12	8	1.50 (0.17)
	火星	—	—	—	—	—	—	—	—	100	99	60	100	41	23	25	18	1.46 (0.16)
	${FAM公司}_{O（运行） 2}$	0	1	99	—	—	—	—	—	100	99	—	100	—	—	—	—	1.28 (0.12)
	${FAM公司}_{O（运行） 1}$	0	0	100	—	—	—	—	—	100	100	—	100	—	—	—	—	1.07 (0.06)
稀疏设计	CSEFAM公司	0	22	61	13	4	0	0	0	100	78	10	82	12	9	7	1	2.07 (0.16)
	${FAM公司}_{S公司}$	0	0	14	30	25	20	9	2	100	98	41	96	35	17	9	12	2.17 (0.16)
	火星	—	—	—	—	—	—	—	—	100	98	58	98	56	30	20	23	2.11 (0.14)
	${FAM公司}_{O（运行） 2}$	0	4	96	—	—	—	—	—	100	98	—	98	—	—	—	—	2.01 (0.14)
	${FAM公司}_{O（运行） 1}$	0	0	100	—	—	—	—	—	100	100	—	100	—	—	—	—	1.05 (0.05)

数据	模型	以下型号尺寸的计数：								以下组件的选择频率：								聚乙烯
数据	模型	1	2	三	4	5	6	7	8	${\hat{如果}}_{1}$	${\hat{如果}}_{2}$	${\hat{如果}}_{三}$	${\hat{如果}}_{4}$	${\hat{如果}}_{5}$	${\hat{如果}}_{6}$	${\hat{如果}}_{7}$	${\hat{如果}}_{8}$	聚乙烯
密集设计	CSEFAM公司	0	5	61	29	5	0	0	0	100	94	22	100	7	三	0	1	1.30 (0.13)
	FAM公司 $_{S公司}$	0	0	10	32	21	21	8	4	100	98	51	100	32	14	12	8	1.50 (0.17)
	火星	—	—	—	—	—	—	—	—	100	99	60	100	41	23	25	18	1.46 (0.16)
	${FAM公司}_{O（运行） 2}$	0	1	99	—	—	—	—	—	100	99	—	100	—	—	—	—	1.28（0.12）
	${FAM公司}_{O（运行） 1}$	0	0	100	—	—	—	—	—	100	100	—	100	—	—	—	—	1.07（0.06）
稀疏设计	CSEFAM公司	0	22	61	13	4	0	0	0	100	78	10	82	12	9	7	1	2.07 (0.16)
	${FAM公司}_{S公司}$	0	0	14	30	25	20	9	2	100	98	41	96	35	17	9	12	2.17 (0.16)
	火星	—	—	—	—	—	—	—	—	100	98	58	98	56	30	20	23	2.11 (0.14)
	${FAM公司}_{O（运行） 2}$	0	4	96	—	—	—	—	—	100	98	—	98	—	—	—	—	2.01 (0.14)
	${FAM公司}_{O（运行） 1}$	0	0	100	—	—	—	—	—	100	100	—	100	—	—	—	—	1.05 (0.05)

表1

密集和稀疏设计下100个蒙特卡罗模拟的模型选择和预测总结

数据	模型	以下型号尺寸的计数：								以下组件的选择频率：								聚乙烯
数据	模型	1	2	三	4	5	6	7	8	${\hat{如果}}_{1}$	${\hat{如果}}_{2}$	${\hat{如果}}_{三}$	${\hat{如果}}_{4}$	${\hat{如果}}_{5}$	${\hat{如果}}_{6}$	${\hat{如果}}_{7}$	${\hat{如果}}_{8}$	聚乙烯
密集设计	CSEFAM公司	0	5	61	29	5	0	0	0	100	94	22	100	7	三	0	1	1.30 (0.13)
	FAM公司 $_{S公司}$	0	0	10	32	21	21	8	4	100	98	51	100	32	14	12	8	1.50 (0.17)
	火星	—	—	—	—	—	—	—	—	100	99	60	100	41	23	25	18	1.46 (0.16)
	${FAM公司}_{O（运行） 2}$	0	1	99	—	—	—	—	—	100	99	—	100	—	—	—	—	1.28 (0.12)
	${FAM公司}_{O（运行） 1}$	0	0	100	—	—	—	—	—	100	100	—	100	—	—	—	—	1.07 (0.06)
稀疏设计	CSEFAM公司	0	22	61	13	4	0	0	0	100	78	10	82	12	9	7	1	2.07 (0.16)
	${FAM公司}_{S公司}$	0	0	14	30	25	20	9	2	100	98	41	96	35	17	9	12	2.17 (0.16)
	火星	—	—	—	—	—	—	—	—	100	98	58	98	56	30	20	23	2.11 (0.14)
	${家庭}_{O（运行） 2}$	0	4	96	—	—	—	—	—	100	98	—	98	—	—	—	—	2.01 (0.14)
	${FAM公司}_{O（运行） 1}$	0	0	100	—	—	—	—	—	100	100	—	100	—	—	—	—	1.05（0.05）

数据	模型	以下型号尺寸的计数：								以下部件的选择频率：								聚乙烯
数据	模型	1	2	三	4	5	6	7	8	${\hat{如果}}_{1}$	${\hat{如果}}_{2}$	${\hat{如果}}_{三}$	${\hat{如果}}_{4}$	${\hat{如果}}_{5}$	${\hat{如果}}_{6}$	${\hat{如果}}_{7}$	${\hat{如果}}_{8}$	聚乙烯
密集设计	CSEFAM公司	0	5	61	29	5	0	0	0	100	94	22	100	7	三	0	1	1.30 (0.13)
	FAM公司 $_{S公司}$	0	0	10	32	21	21	8	4	100	98	51	100	32	14	12	8	1.50 (0.17)
	火星	—	—	—	—	—	—	—	—	100	99	60	100	41	23	25	18	1.46 (0.16)
	${FAM公司}_{O（运行） 2}$	0	1	99	—	—	—	—	—	100	99	—	100	—	—	—	—	1.28 (0.12)
	${FAM公司}_{O（运行） 1}$	0	0	100	—	—	—	—	—	100	100	—	100	—	—	—	—	1.07 (0.06)
稀疏设计	CSEFAM公司	0	22	61	13	4	0	0	0	100	78	10	82	12	9	7	1	2.07 (0.16)
	${FAM公司}_{S公司}$	0	0	14	30	25	20	9	2	100	98	41	96	35	17	9	12	2.17 (0.16)
	火星	—	—	—	—	—	—	—	—	100	98	58	98	56	30	20	23	2.11 (0.14)
	${FAM公司}_{O（运行） 2}$	0	4	96	—	—	—	—	—	100	98	—	98	—	—	—	—	2.01 (0.14)
	${FAM公司}_{O（运行） 1}$	0	0	100	—	—	—	—	—	100	100	—	100	—	—	—	—	1.05 (0.05)

值得注意的是，基于解释的变化的主观截断X对于回归来说是次优的（为了简洁起见，没有报告结果）。因此，在表中1，我们报告（在“以下型号尺寸的计数”列下）CSEFAM中选定数量的非零加性成分的计数，以及FAM、FAM中显著非零加法成分的计数 $_{O（运行） 1}$ 和FAM $_{O（运行） 2}$ ⁠。为了便于显示，仅报告最大为8的型号的计数。表中的“以下组件的选择频率”列1记录前八个组分中每个添加剂组分估计为非零的次数。对于MARS方法，如果j个th分量 ${\hat{如果}}_{j个}$ 在一个或多个基函数中被选中，我们将其计为1，否则为0。关于预测误差（PE），我们使用来自训练集的总体估计（例如均值、协方差和特征基）来获得训练集和测试集的FPC得分；然后我们应用 ${{\hat{如果}}_{k个}}$ 从训练集中估计以获得 ${年_{我}}$ 在测试集中。PE的计算公式为 ${n个}^{- 1} Σ_{我 = 1}^{n个} (年_{我} - {\hat{年}}_{我})^{2}$ ⁠。从表的顶部面板1，我们看到，在密集设计下，CSEFAM选择正确的模型（模型大小等于3）的时间占61%，而FAM $_{S公司}$ 方法总是过度选择(α=0.05用于保留显著的添加剂成分）。CSEFAM的PE是三种非oracle模型中最小的。与oracle方法相比，CSEFAM的预测能力不如FAM $_{O（运行） 2}$ （轻微）和FAM $_{O（运行） 1}$ ⁠，这可以被视为双方估算ζ并选择添加剂成分。

为了评估估计的准确性，前八个加法分量和整体函数的平均积分平方误差（AISE）如果显示在表的顶部面板中2，其中ISE定义为

ISE公司 ({如果}_{k个}) = {E类}_{ζ_{k个}} {{\hat{如果}}_{k个} (ζ_{k个}) - {如果}_{k个} (ζ_{k个})}^{2} = \int_{0}^{1} {{\hat{如果}}_{k个} (t吨) - {如果}_{k个} (t吨)}^{2} d日 t吨 .

从表2，我们看到CSEFAM为真正的零分量提供了相当小的AISE(⁠ ${如果}_{j个}$ ⁠,j个=3,5,6,7,8）比FAM $_{S公司}$ 方法。对于非零分量，CSEFAM、FAM $_{S公司}$ 和FAM $_{O（运行） 2}$ 具有可比较的AISE值。

表2

密集和稀疏设计下100个蒙特卡罗模拟的AISE

数据	模型	以下功能的AISE：
数据	模型	${如果}_{1}$	${如果}_{2}$	${如果}_{三}$	${如果}_{4}$	${如果}_{5}$	${如果}_{6}$	${如果}_{7}$	${如果}_{8}$	如果
稠密	CSEFAM公司	0.038	0.117	0.022	0.038	0.005	0.001	0	0.001	0.226
设计	FAM公司 $_{S公司}$	0.030	0.095	0.050	0.047	0.031	0.018	0.016	0.015	0.476
	FAM公司 $_{O（运行） 2}$	0.027	0.090	—	0.042	—	—	—	—	0.158
	FAM公司 $_{O（运行） 1}$	0.007	0.028	—	0.019	—	—	—	—	0.054
稀疏	CSEFAM公司	0.033	0.22	0.036	0.298	0.055	0.040	0.045	0.001	0.720
设计	家庭 $_{S公司}$	0.016	0.118	0.032	0.159	0.102	0.121	0.399	2.64	$> 10^{三}$
	FAM公司 $_{O（运行） 2}$	0.026	0.129	—	0.220	—	—	—	—	0.376
	FAM公司 $_{O（运行） 1}$	0.007	0.016	—	0.013	—	—	—	—	0.036

数据	模型	以下功能的AISE：
数据	模型	${如果}_{1}$	${如果}_{2}$	${如果}_{三}$	${如果}_{4}$	${如果}_{5}$	${如果}_{6}$	${如果}_{7}$	${如果}_{8}$	如果
稠密	CSEFAM公司	0.038	0.117	0.022	0.038	0.005	0.001	0	0.001	0.226
设计	FAM公司 $_{S公司}$	0.030	0.095	0.050	0.047	0.031	0.018	0.016	0.015	0.476
	FAM公司 $_{O（运行） 2}$	0.027	0.090	—	0.042	—	—	—	—	0.158
	FAM公司 $_{O（运行） 1}$	0.007	0.028	—	0.019	—	—	—	—	0.054
稀疏	CSEFAM公司	0.033	0.22	0.036	0.298	0.055	0.040	0.045	0.001	0.720
设计	FAM公司 $_{S公司}$	0.016	0.118	0.032	0.159	0.102	0.121	0.399	2.64	$> 10^{三}$
	FAM公司 $_{O（运行） 2}$	0.026	0.129	—	0.220	—	—	—	—	0.376
	FAM公司 $_{O（运行） 1}$	0.007	0.016	—	0.013	—	—	—	—	0.036

表2

密集和稀疏设计下100个蒙特卡罗模拟的AISE

数据	模型	以下功能的AISE：
数据	模型	${如果}_{1}$	${如果}_{2}$	${如果}_{三}$	${如果}_{4}$	${如果}_{5}$	${如果}_{6}$	${如果}_{7}$	${如果}_{8}$	如果
稠密	CSEFAM公司	0.038	0.117	0.022	0.038	0.005	0.001	0	0.001	0.226
设计	FAM公司 $_{S公司}$	0.030	0.095	0.050	0.047	0.031	0.018	0.016	0.015	0.476
	FAM公司 $_{O（运行） 2}$	0.027	0.090	—	0.042	—	—	—	—	0.158
	FAM公司 $_{O（运行） 1}$	0.007	0.028	—	0.019	—	—	—	—	0.054
稀疏	CSEFAM公司	0.033	0.22	0.036	0.298	0.055	0.040	0.045	0.001	0.720
设计	FAM公司 $_{S公司}$	0.016	0.118	0.032	0.159	0.102	0.121	0.399	2.64	$> 10^{三}$
	FAM公司 $_{O（运行） 2}$	0.026	0.129	—	0.220	—	—	—	—	0.376
	FAM公司 $_{O（运行） 1}$	0.007	0.016	—	0.013	—	—	—	—	0.036

数据	模型	以下功能的AISE：
数据	模型	${如果}_{1}$	${如果}_{2}$	${如果}_{三}$	${如果}_{4}$	${如果}_{5}$	${如果}_{6}$	${如果}_{7}$	${如果}_{8}$	如果
稠密	CSEFAM公司	0.038	0.117	0.022	0.038	0.005	0.001	0	0.001	0.226
设计	FAM公司 $_{S公司}$	0.030	0.095	0.050	0.047	0.031	0.018	0.016	0.015	0.476
	FAM公司 $_{O（运行） 2}$	0.027	0.090	—	0.042	—	—	—	—	0.158
	FAM公司 $_{O（运行） 1}$	0.007	0.028	—	0.019	—	—	—	—	0.054
稀疏	CSEFAM公司	0.033	0.22	0.036	0.298	0.055	0.040	0.045	0.001	0.720
设计	FAM公司 $_{S公司}$	0.016	0.118	0.032	0.159	0.102	0.121	0.399	2.64	$> 10^{三}$
	FAM公司 $_{O（运行） 2}$	0.026	0.129	—	0.220	—	—	—	—	0.376
	FAM公司 $_{O（运行） 1}$	0.007	0.016	—	0.013	—	—	—	—	0.036

3.2. 稀疏功能数据

为了与稠密情况进行比较，我们还进行了模拟，以检查CSEFAM对于稀疏函数数据的性能。我们生成了1200条IID轨迹，其中300条在训练集中，900条在测试集中。在每条轨迹中，有5-10个重复观测值均匀分布在[0，10]中，以相等的概率从5到10选择点数。其他设置与密集设计中的设置相同。模型选择、预测和估算结果的总结见表的底部面板1和表2。我们观察到类似于密集设计案例中的模式。此外，表2建议，对于稀疏设计，FAM $_{S公司}$ 估计 ${如果}_{k个}$ 对于高阶组件（例如。k个>7). 由于外围估计的影响，AISE快速增长。这并不奇怪，因为在稀疏设计下，由于数据的稀疏性和适度的样本量，高阶特征函数和FPC分数很难准确估计，从而导致不准确 ${如果}_{k个}$ -饱和模型FAM时的估计 $_{S公司}$ 使用。在这种情况下，我们可以看到，由于COSSO惩罚具有自动降低“不重要”组件权重的效果，因此所建议的CSEFAM仍然表现得相当稳定。这为拟议的CSEFAM方法提供了进一步支持。

3.3. 非解析底层加法组件

为了显示当真实的可加成分实际上是非解析的时模型的性能，我们对密集设计的两个设置（研究I和研究II）进行了额外的模拟，并将CSEFAM与两个版本的FAM进行了比较：饱和模型FAM $_{S公司}$ 如第节所定义3.1和截断模型FAM $_{T型}$ 选择截断保留99%的总变化。在研究I中，真实模型包含三个“较大”的附加成分 ${{如果}_{01}, {如果}_{02}, {如果}_{04}}$ ⁠，格式与第节相同3.1除了被常数重新缩放 $\frac{1}{2}$ ⁠。其余是“较小”的加性成分，每个都是从中随机选择的 ${{如果}_{01}, {如果}_{02}, {如果}_{04}}$ 具有相同的概率，并通过从[1/17，1/14]中均匀选择的较小常数重新缩放。生成的数据的信噪比较低（更具挑战性），约为0.60，其中8.7%来自“较小”分量。结果列在表的顶部面板中三，这表明CSEFAM倾向于选择比FAM更小的型号 $_{S公司}$ ⁠我们还观察到FAM的模型大小 $_{T型}$ 倾向于小于CSEFAM，因为 ${FAM公司}_{T型}$ 采用99%阈值的更多截断。值得注意的是，CSEFAM实际上产生的PE和AISE远远小于FAM $_{S公司}$ 方法，CSEFAM的结果与FAM的结果具有可比性 $_{T型}$ ⁠在研究II中，我们用较小的组件替换三个较大的组件；因此，所有加性成分的贡献都大致相等。我们从中统一选择缩放常数 $[\frac{1}{8}, \frac{1}{6}]$ 因此总信噪比平均为0.30。表底部面板中列出的结果三建议CSEFAM现在倾向于选择更多组件（即产生非解析配合），并且再次产生比FAM更小的PE和AISE $_{S公司}$ 和FAM $_{T型}$ 方法。总的来说，该模拟表明，即使底层真实模型是非解析的，所提出的CSEFAM仍然是一个合理的选项。值得一提的是，CSEFAM的增益在低信噪比的挑战性环境中更为明显。

表3

具有非解析附加组件的情况的附加模拟†

类型	模型	以下型号尺寸的计数：								以下组件的选择频率：								聚乙烯	f的AISE
类型	模型	1	2	三	4	5	6	7	8	${\hat{如果}}_{1}$	${\hat{如果}}_{2}$	${\hat{如果}}_{三}$	${\hat{如果}}_{4}$	${\hat{如果}}_{5}$	${\hat{如果}}_{6}$	${\hat{如果}}_{7}$	${\hat{如果}}_{8}$	聚乙烯	f的AISE
我	CSEFAM公司	0	三	20	34	26	9	6	2	100	88	12	100	17	12	10	10	1.19 (0.08)	0.17
	FAM公司 $_{S公司}$	0	4	16	18	29	17	7	8	100	92	16	99	20	17	19	16	1.33 (0.12)	0.33
	FAM公司 $_{T型}$	0	4	39	35	15	6	0	1	100	91	15	100	19	15	9	9	1.22 (0.08)	0.18
二	CSEFAM公司	1	2	4	12	13	20	26	13	46	42	33	42	36	42	38	44	1.25（0.07）	0.12
	FAM公司 $_{S公司}$	1	6	8	25	14	13	13	10	42	45	29	37	29	38	36	36	1.38 (0.11)	0.42
	家庭 $_{T型}$	13	30	22	20	6	6	2	0	34	35	20	31	25	38	34	30	1.32 (0.08)	0.20

类型	模型	以下型号尺寸的计数：								以下组件的选择频率：								聚乙烯	f的AISE
类型	模型	1	2	三	4	5	6	7	8	${\hat{如果}}_{1}$	${\hat{如果}}_{2}$	${\hat{如果}}_{三}$	${\hat{如果}}_{4}$	${\hat{如果}}_{5}$	${\hat{如果}}_{6}$	${\hat{如果}}_{7}$	${\hat{如果}}_{8}$	聚乙烯	f的AISE
我	CSEFAM公司	0	三	20	34	26	9	6	2	100	88	12	100	17	12	10	10	1.19 (0.08)	0.17
	FAM公司 $_{S公司}$	0	4	16	18	29	17	7	8	100	92	16	99	20	17	19	16	1.33 (0.12)	0.33
	FAM公司 $_{T型}$	0	4	39	35	15	6	0	1	100	91	15	100	19	15	9	9	1.22 (0.08)	0.18
二	CSEFAM公司	1	2	4	12	13	20	26	13	46	42	33	42	36	42	38	44	1.25 (0.07)	0.12
	FAM公司 $_{S公司}$	1	6	8	25	14	13	13	10	42	45	29	37	29	38	36	36	1.38 (0.11)	0.42
	FAM公司 $_{T型}$	13	30	22	20	6	6	2	0	34	35	20	31	25	38	34	30	1.32 (0.08)	0.20

†

一、真正的模型包含“较大”和“较小”的加性成分；二、真正的模型只包含很小的附加成分。

表3

具有非解析附加组件的情况的附加模拟†

类型	模型	以下型号尺寸的计数：								以下组件的选择频率：								聚乙烯	f的AISE
类型	模型	1	2	三	4	5	6	7	8	${\hat{如果}}_{1}$	${\hat{如果}}_{2}$	${\hat{如果}}_{三}$	${\hat{如果}}_{4}$	${\hat{如果}}_{5}$	${\hat{如果}}_{6}$	${\hat{如果}}_{7}$	${\hat{如果}}_{8}$	聚乙烯	f的AISE
我	CSEFAM公司	0	三	20	34	26	9	6	2	100	88	12	100	17	12	10	10	1.19 (0.08)	0.17
	FAM公司 $_{S公司}$	0	4	16	18	29	17	7	8	100	92	16	99	20	17	19	16	1.33 (0.12)	0.33
	FAM公司 $_{T型}$	0	4	39	35	15	6	0	1	100	91	15	100	19	15	9	9	1.22 (0.08)	0.18
二	CSEFAM公司	1	2	4	12	13	20	26	13	46	42	33	42	36	42	38	44	1.25 (0.07)	0.12
	FAM公司 $_{S公司}$	1	6	8	25	14	13	13	10	42	45	29	37	29	38	36	36	1.38 (0.11)	0.42
	家庭 $_{T型}$	13	30	22	20	6	6	2	0	34	35	20	31	25	38	34	30	1.32 (0.08)	0.20

类型	模型	以下型号尺寸的计数：								以下部件的选择频率：								聚乙烯	f的AISE
类型	模型	1	2	三	4	5	6	7	8	${\hat{如果}}_{1}$	${\hat{如果}}_{2}$	${\hat{如果}}_{三}$	${\hat{如果}}_{4}$	${\hat{如果}}_{5}$	${\hat{如果}}_{6}$	${\hat{如果}}_{7}$	${\hat{如果}}_{8}$	聚乙烯	f的AISE
我	CSEFAM公司	0	三	20	34	26	9	6	2	100	88	12	100	17	12	10	10	1.19 (0.08)	0.17
	FAM公司 $_{S公司}$	0	4	16	18	29	17	7	8	100	92	16	99	20	17	19	16	1.33 (0.12)	0.33
	FAM公司 $_{T型}$	0	4	39	35	15	6	0	1	100	91	15	100	19	15	9	9	1.22 (0.08)	0.18
二	CSEFAM公司	1	2	4	12	13	20	26	13	46	42	33	42	36	42	38	44	1.25 (0.07)	0.12
	FAM公司 $_{S公司}$	1	6	8	25	14	13	13	10	42	45	29	37	29	38	36	36	1.38 (0.11)	0.42
	FAM公司 $_{T型}$	13	30	22	20	6	6	2	0	34	35	20	31	25	38	34	30	1.32 (0.08)	0.20

†

一、真正的模型包含“较大”和“较小”的加性成分；二、真正的模型只包含很小的附加成分。

4.真实数据应用

通过对240多个肉类样品的近红外吸收光谱的蛋白质含量回归，我们验证了该方法的性能。数据集由Tecator公司收集，可在StatLib网站上公开获取(http://lib.stat.cmu.edu)。通过名为Tecator Infratec食品和饲料分析仪的光谱仪进行测量。在850 nm至1050 nm的波长范围内记录光谱曲线。对于每个肉类样品，数据包括100道吸收光谱（100个网格点）以及水分（水）、脂肪和蛋白质的含量。吸光度是光谱仪测量的透射率的负公共对数。这三种含量以百分比计量，由分析化学测定。最重要的是利用光谱轨迹预测蛋白质含量。240份肉类样本被随机分为训练集（185份样本）和测试集（55份样本）。我们的目的是利用训练数据预测测试集中的蛋白质含量。图。2说明了使用FPCA估计的光谱曲线和前五个特征函数。

（a）近红外吸收光谱曲线和（b）前五个估计特征函数，2（t），3（t），4（t），5（t））

图2

（a）近红外吸收光谱曲线和（b）前五个估计的本征函数( 图解的 , $ϕ_{1} (t吨)$ ⁠;, $ϕ_{2} (t吨)$ ⁠;, $ϕ_{三} (t吨)$ ⁠;, $ϕ_{4} (t吨)$ ⁠;, $ϕ_{5} (t吨)$ ⁠)

新标签中打开下载幻灯片

我们最初保留了前20个FPC，其中考虑了几乎100%的总变化。然后将所提出的CSEFAM应用于组件选择和估计。COSSO步骤中调谐参数的确定受以下方面的广义交叉验证标准的指导 $λ_{0}$ ⁠，它提供 $λ_{0} = 0.0013$ ⁠，并通过十倍交叉验证M（M），它提供M（M）= 10.0. 估计的附加成分如图所示。三从中我们可以看到CSEFAM从20个组件中选择了12个， ${{\hat{如果}}_{1}, \dots, {\hat{如果}}_{8}, {\hat{如果}}_{10}, {\hat{如果}}_{13}, {\hat{如果}}_{16}, {\hat{如果}}_{17}}$ ⁠，其他分量估计为0。为了评估所提方法的性能，我们在表中报告了测试集的PE4，其中PE的计算方法与第节相同三。我们还报告了准- ${R（右）}^{2}$ 对于测试集，定义为

{R（右）}_{问}^{2} = 1 - \sum_{我} (年_{我} - {\hat{年}}_{我})^{2} / \sum_{我} (年_{我} - {\bar{年}}_{我})^{2} .

为了显示初始截断的影响，我们还使用较小的值秒,秒在CSEFAM中=10，得出次优结果。这表明我们应该使用足够大的秒首先。FAM由前五个、10个和20个FPC执行。一个有趣的现象是，尽管高阶FPC（超过10）解释了功能预测值的极小变化（小于1%），但它们对预测的贡献却惊人地巨大。MARS方法和偏最小二乘法（这是化学计量学中常用的方法；参见Xu等. (2007)以及其中的参考）。另一个比较是与经典函数线性模型的比较，该模型将估计的主要FPC用作预测因子，其中使用启发式AIC来选择前七个分量。

表4

测试集上的预测结果与其他几种方法的比较†

	以下方法的结果：
	CSEFAM公司		FAM公司			MARS PC20	偏最小二乘法，PLD20	函数线性模型AIC7
	秒= 10	秒= 20	PC5公司	PC10公司	PC20型	MARS PC20	偏最小二乘法，PLD20	函数线性模型AIC7
聚乙烯	2.22	0.72	3.98	2.13	0.84	0.77	1.02	1.50
${R（右）}_{问}^{2}$	0.82	0.94	0.68	0.83	0.93	0.93	0.92	0.88

	以下方法的结果：
	CSEFAM公司		家庭			MARS PC20	偏最小二乘法，PLD20	函数线性模型，AIC7
	秒= 10	秒= 20	PC5公司	第10页	PC20型	MARS PC20	偏最小二乘法，PLD20	函数线性模型，AIC7
聚乙烯	2.22	0.72	3.98	2.13	0.84	0.77	1.02	1.50
${R（右）}_{问}^{2}$	0.82	0.94	0.68	0.83	0.93	0.93	0.92	0.88

†

PC10表示使用了10个FPC分数。PLD20表示使用的偏最小二乘方向数为20。AIC7表示根据Akaike信息标准使用了七个FPC分数。

表4

测试集上的预测结果与其他几种方法的比较†

	以下方法的结果：
	CSEFAM公司		FAM公司			MARS PC20	偏最小二乘法，PLD20	函数线性模型AIC7
	秒= 10	秒= 20	PC5公司	PC10公司	PC20型	MARS PC20	偏最小二乘法，PLD20	函数线性模型AIC7
聚乙烯	2.22	0.72	3.98	2.13	0.84	0.77	1.02	1.50
${R（右）}_{问}^{2}$	0.82	0.94	0.68	0.83	0.93	0.93	0.92	0.88

	以下方法的结果：
	CSEFAM公司		FAM公司			MARS PC20	偏最小二乘法，PLD20	函数线性模型AIC7
	秒= 10	秒= 20	PC5公司	PC10公司	PC20型	MARS PC20	偏最小二乘法，PLD20	函数线性模型AIC7
聚乙烯	2.22	0.72	3.98	2.13	0.84	0.77	1.02	1.50
${R（右）}_{问}^{2}$	0.82	0.94	0.68	0.83	0.93	0.93	0.92	0.88

†

PC10表示使用了10个FPC分数。PLD20表示使用的偏最小二乘方向数为20。AIC7表示根据Akaike信息标准使用了七个FPC分数。

从表4，我们看到，当初始截断设置为10时，所提出的CSEFAM与FAM相比并不是明显有利的。随着FPC数量增加到20个，所提出的方法提供了更小的PE和更高的PE ${R（右）}_{问}^{2}$ 比所有其他方法都好。一个合理的解释是，对于这些数据，前10个FPC中的大多数（第九个除外）对响应的贡献为非零（如图所示）。三); 因此，惩罚这些成分无助于改善预测。然而，随着FPC分数的增加，更多的冗余项开始发挥作用，因此惩罚方法CSEFAM获得了更多的预测能力。我们对训练集和测试集的不同随机分割重复了此分析，并且结论几乎保持不变。

估计加性成分图：（a）f̂1；（b） f̂2；（c） f̂3；（d） f̂4；（e） f̂5；（f） f̂6；（g） f̂7；（h） f̂8；（i） f̂9；（j） f̂10；（k） f̂11；（l） f̂12；（m） f̂13；（n） f̂14；（o） f̂15；（p） f̂16；（q） f̂17；（r） f̂18；（s） f̂19；（t） f̂20

图3

估计附加成分图：（a） ${\hat{如果}}_{1}$ ⁠; （b） ${\hat{如果}}_{2}$ ⁠; （c） ${\hat{如果}}_{三}$ ⁠; （d） ${\hat{如果}}_{4}$ ⁠; （e） ${\hat{如果}}_{5}$ ⁠; （f） ${\hat{如果}}_{6}$ ⁠; （g） ${\hat{如果}}_{7}$ ⁠; （h） ${\hat{如果}}_{8}$ ⁠; （i） ${\hat{如果}}_{9}$ ⁠; （j） ${\hat{如果}}_{10}$ ⁠; （k） ${\hat{如果}}_{11}$ ⁠; （l） ${\hat{如果}}_{12}$ ⁠; （米） ${\hat{如果}}_{13}$ ⁠; （n） ${\hat{如果}}_{14}$ ⁠; （o） ${\hat{如果}}_{15}$ ⁠; （p） ${\hat{如果}}_{16}$ ⁠; （q） ${\hat{如果}}_{17}$ ⁠; （r） ${\hat{如果}}_{18}$ ⁠; （s） ${\hat{如果}}_{19}$ ⁠; （t） ${\hat{如果}}_{20}$

新标签中打开下载幻灯片

5.讨论

我们提出了一种用于函数数据回归的结构估计方法，其中标量响应在函数预测器上回归。该模型是在FAM框架下构建的，其中加性成分是标度FPC分数的函数。在RKHS环境下，使用COSSO惩罚，通过惩罚最小二乘法选择和估计可加成分。提出的方法考虑到响应和预测因子之间更一般的非参数关系，因此是函数线性回归的重要扩展。通过采用加法结构，避免了无限维预测过程引起的维数灾难。该方法提供了一种选择预测过程重要特征并同时将不重要特征收缩为0的方法。这种选择场景不仅考虑了预测过程的解释变化，还考虑了其对响应的贡献。理论结果表明，在密集设计下，由于FPC得分不可观测，部件选择和估计的非参数率将主导差异。

提出的一个问题是稀疏性在FAM框架中是否必要。一般来说，稀疏性假设有助于平衡方差和偏差之间的平衡，这可能会提高模型性能。当部分预测器对回归的贡献可以忽略不计时，这一点尤其有用。即使基础模型实际上是非稀疏的，并且我们只关心估计和预测，所提出的CSEFAM仍然是一个合理的选择，如第节中的模拟所示三我们还指出，当所有非零可加分量均为线性时，COSSO惩罚降为自适应套索惩罚。另一个模拟（为了简洁起见，没有报道）表明，所提出的方法产生的估计和预测结果与自适应套索的结果相当。此外，COSSO处罚要求秒<n个，这与初始截断的要求不冲突秒选择的尺寸足够大，可以包含所有重要功能。实际上，占预测变量近100%的FPC数量通常远小于样本量n个由于特征值的快速衰减。最后，仿真和实际算例都表明，模型性能对秒只要选择足够大。

在计算方面，我们的算法同时利用了FPCA和COSSO。在装有Intel（R）Core（TM）i5-2400中央处理器单元、3.10-GHz处理器和8 GB随机访问内存的桌面上，第节中的每个Monte Carlo示例3.1实际数据分析需要30秒，而实际数据分析大约需要10秒。就维数而言，容量和速度取决于所使用的特定FPCA算法。我们使用了主成分分析的条件期望算法PACE，它可以处理相当大的数据(http://anson.ucdavis.edu/～ntyang/PACE/)。对于5000维或更高维的密集函数数据，建议使用预先装箱来加速计算。也可以使用面向超大维度的FPCA算法（所有科目的时间网格相同）；例如，齐普诺尼科夫等. (2011)考虑的功能磁共振成像数据的维数为 $O（运行） (10^{7})$ 通过将原始数据矩阵划分为块，并使用块操作进行奇异值分解。

尽管我们在本工作中重点关注了基于FPC的分析，但CSEFAM框架通常适用于其他基结构，例如样条和小波，其中加性分量是预测过程相应基系数的函数。它也可能适用于除COSSO以外的非参数惩罚，例如Meier中提出的稀疏平滑惩罚等. (2009)。建议的方法可以进一步扩展，以适应分类响应，其中可以选择适当的链接函数来将平均响应与加性结构相关联。另一种可能的扩展是使用多个功能预测因子进行回归，其中可以进行组件选择以选择功能预测因子。在这种情况下，需要以分组方式选择与每个功能预测器关联的可加性成分。

致谢

这项工作是通过美国统计与应用数学科学研究所的“对象数据分析”项目进行的。方耀的研究部分得到了加拿大自然科学与工程研究委员会的个人发现拨款和发现加速器补充资金的支持。张浩海伦（Hao Helen Zhang）获得了美国国立卫生研究院（US National Institutes of Health）资助R01 CA-085848和美国国家科学基金会（National Science Foundation）资助DMS-0645293。

参考文献

拜尔

,

E.公司。

,

哈斯蒂

,

T。

,

保罗

,

D。

和

提比什拉尼

,

R。

(

2006

)

监督主成分预测

.

《美国统计杂志》。助理。

,

101

,

119

——

137

.

贝里埃

,

答：。

和

托马斯·阿格南

,

C、。

(

2004

)

概率统计中的再生核Hilbert空间

.

诺威尔

:

Kluwer公司

.

博斯克

,

D。

(

2000

)

函数空间中的线性过程：理论与应用

.

纽约

:

施普林格

.

卡多特

,

H。

,

费拉蒂

,

F、。

,

马斯

,

答：。

和

萨达

,

第页。

(

2003

)

测试函数线性模型中的假设

.

扫描。J.统计。

,

30

,

241

——

255

.

卡多特

,

H。

,

费拉蒂

,

F、。

和

萨尔达

,

第页。

(

1999

)

功能线性模型。统计师。普罗巴伯

.

莱特。

,

45

,

11

——

22

.

风扇

,

J。

和

吉贝尔斯

,

一、。

(

1996

)

局部多项式建模及其应用

.

伦敦

:

查普曼和霍尔

.

风扇

,

J。

和

锂

,

R。

(

2001

)

基于非冲突惩罚似然的变量选择及其oracle性质

.

《美国统计杂志》。助理。

,

96

,

1348

——

1360

.

风扇

,

J。

和

张

,

J。

(

2000

)

函数线性模型的两步估计及其在纵向数据中的应用

.

J.R.统计。Soc.B公司

,

62

,

303

——

322

.

戈德史密斯

,

J。

,

鲍伯

,

J。

,

克拉伊尼恰努

,

C.M.公司。

,

卡福

,

B。

和

帝国

,

D。

(

2011

)

惩罚函数回归

.

J.计算图表。统计师。

,

20

,

830

——

851

.

哈迪

,

A.S.公司。

和

玲

,

无线电频率。

(

1998

)

关于使用主成分回归的一些注意事项

.

美国统计局

,

52

,

15

——

19

.

霍尔

,

第页。

和

侯赛尼·纳萨布

,

M。

(

2006

)

关于函数主成分分析的性质

.

J.R.统计。Soc.B公司

,

68

,

109

——

126

.

霍尔

,

第页。

,

米勒

,

H。

和

王

,

J。

(

2006

)

用于功能和纵向数据分析的主成分方法的特性

.

安。统计师。

,

34

,

1493

——

1517

.

哈斯蒂

,

T。

和

提比什拉尼

,

R·J。

(

1990

)

广义可加模型

.

伦敦

:

查普曼和霍尔

.

哈斯蒂

,

T。

,

提比什拉尼

,

R。

和

弗里德曼

,

J。

(

2001

)

统计学习的要素

.

纽约

:

施普林格

.

詹姆斯

,

总经理。

(

2002

)

带函数预报器的广义线性模型

.

J.R.统计。Soc.B公司

,

64

,

411

——

432

.

詹姆斯

,

总经理。

,

王

,

J。

和

朱

,

J。

(

2009

)

可解释的函数线性回归

.

安。统计师。

,

37

,

2083

——

2108

.

锂

,

年。

,

王

,

N。

和

卡罗尔

,

R。

(

2010

)

具有半参数单指标相互作用的广义泛函线性模型

.

《美国统计杂志》。助理。

,

105

,

621

——

633

.

林

,

年。

和

张

,

H。

(

2006

)

多元非参数回归中的成分选择与平滑

.

安。统计师。

,

34

,

2272

——

2297

.

马拉

,

G.公司。

和

木材

,

序号。

(

2011

)

广义加性模型的实用变量选择

.

J.计算图表。统计师。

,

55

,

2372

——

2387

.

迈尔

,

L。

,

范德格尔

,

美国。

和

布尔曼

,

第页。

(

2009

)

高维加性建模

.

安。统计师。

,

37

,

3779

——

3821

.

米勒

,

H。

和

斯塔特米勒

,

美国。

(

2005

)

广义函数线性模型

.

安。统计师。

,

33

,

774

——

805

.

米勒

,

H。

和

姚明

,

F、。

(

2008

)

功能加性模型

.

《美国统计杂志》。助理。

,

103

,

1534

——

1544

.

拉姆齐

,

J.O.公司。

和

西尔弗曼

,

B.W.公司。

(

2005

)

功能数据分析

，第2版。

纽约

:

施普林格

.

拉维库马

,

第页。

,

拉弗蒂

,

J。

,

线路接口单元

,

H。

和

瓦瑟曼

,

L。

(

2009

)

稀疏可加模型

.

J.R.统计。Soc.B公司

,

71

,

1009

——

1030

.

大米

,

J.A.公司。

和

西尔弗曼

,

B.W.公司。

(

1991

)

当数据为曲线时，非参数估计均值和协方差结构

.

J.R.统计。Soc.B公司

,

53

,

233

——

243

.

提比什拉尼

,

R。

(

1996

)

通过套索回归收缩和选择

.

J.R.统计。Soc.B公司

,

58

,

267

——

288

.

范德格尔

,

美国。

(

2000

)

M估计中的经验过程

.

剑桥

:

剑桥大学出版社

.

瓦赫巴

,

G.公司。

(

1990

)

观测数据的样条模型

.

费城

:

工业和应用数学学会

.

木材

,

序号。

(

2006

)

广义可加模型：R引言

.

纽约

:

查普曼和霍尔

.

徐

,

L。

,

江

,

J。

,

吴

,

H。

,

沈

,

G.公司。

和

于

,

R。

(

2007

)

化学家。智力。实验室系统

。，

85

,

140

——

143

.

姚明

,

F、。

(

2007

)

纵向或函数数据非参数回归估计量的渐近分布

.

J.Multiv.公司。分析。

,

98

,

40

——

56

.

姚明

,

F、。

和

米勒

,

H.G.公司。

(

2010

)

函数二次回归

.

生物特征

,

97

,

49

——

64

.

姚明

,

F、。

,

米勒

,

H.G.公司。

和

王

,

J·L·。

(

2005

)

稀疏纵向数据的功能数据分析

.

《美国统计杂志》。助理。

,

100

,

577

——

590

.

朱

,

H。

,

万木奇

,

M。

和

考克斯

,

D.D.博士。

(

2007

)

宫颈癌前诊断中的功能数据分类——贝叶斯变量选择模型

.英寸

程序。Jt统计。见面。

朱

,

H。

,

万木奇

,

M。

和

考克斯

,

D.D.博士。

(

2010

)

一种具有功能预测因子选择的贝叶斯分层分类模型

.

生物计量学

,

66

,

463

——

473

.

齐蓬尼科夫

,

五、。

,

卡福

,

B。

,

尤森

,

D.M.博士。

,

达瓦特齐科斯

,

C、。

,

施瓦茨

,

学士学位。

和

克拉伊尼恰努

,

C、。

(

2011

)

高维脑成像的功能主成分模型

.

神经影像

,

58

,

772

——

784

.

邹

,

H。

(

2006

)

自适应套索及其oracle性质

.

《美国统计杂志》。助理。

,

101

,

1418

——

1429

.