特征选择挑战

2003年12月11日至13日
加利福尼亚州不列颠哥伦比亚省惠斯勒
 
 
 

***挑战结果分析***


 
 

背景

最近,有很多研究致力于特征提取领域。在过去的几年里,与特征提取相关的论文数量,包括特征构建,空间降维、稀疏表示和特征选择,已接近NIPS提交的近10%。应用程序研究涵盖了广泛的领域,包括生物信息学、化学、,文本处理、模式识别、语音处理和视觉。然而,似乎没有一个正在形成的统一,无论是从实验设计、算法或理论分析。目的研讨会将汇集不同应用领域的研究人员共享技术和方法.

研讨会的一部分将专门用于演示和讨论挑战关于特征选择.在以下领域发布的结果在过去,特征选择在很大程度上是基于不同的数据集或使用了不同的数据拆分。这使得它们很难进行比较。为了基准测试功能,我们格式化了许多数据集以受控方式选择算法。选择数据集的目的是跨越多种领域。我们选择的数据集足够创建足够大的测试集以获得统计显著性的许多示例结果。输入变量是连续的或二进制的,稀疏的或密集的。全部问题是两类分类问题。任务的相似性将允许参与者输入所有数据集的结果以测试通用性算法。 

挑战
NIPS 2003在特征选择方面的挑战是到找到显著优于其他算法的特征选择算法使用所有功能的方法,用作基准所有五个数据集为此目的格式化。为了便于输入所有五个数据集的结果,所有任务都是两类分类问题。在开发期间,参与者可以提交数据集子集的验证集结果。 

如何参与:
只需从以下位置下载五个数据集这个质询网站.

 
文件 大小(MB) 类型 数量ex.(tr/val/te) 数字专长。
阿塞纳.zip 8.7 非稀疏 100/100/700 10000
DEXTER.zip公司 0.9 稀疏整数 300/300/2000 20000
DOROTHEA.zip公司 4.7 稀疏二进制 800/350/800 100000
GISETTE.zip公司 22.5 非稀疏 6000/1000/6500 5000
马德里.zip 2.9 非稀疏 2000/600/1800 500

如果您是Matlab用户,我们将提供示例代码读取并检查数据。否则,数据遵循直接ASCII格式.检查最新挑战结果.

每个数据集都被分成训练,验证和测试集。仅提供培训标签。开发期间,参与者可以在验证集,即使是数据集的子集。他们会得到回报他们的验证设置了分数。在任何时候(但可能是在一些发展之后期间)参与者可以提交其最终分类结果所有数据集(每人最多五次汇总)。 

截止日期:
关闭。提交截止日期为:2003年12月1日。

问题:检查我们的挑战常见问题解答.

提交研讨会演示
研讨会对投稿开放与特征提取相关,包括理论和实践对特征构建、空间维度减少和特征选择。参加挑战不是提交摘要的先决条件,但有些优先权会能够挑战参与者的竞争方法。摘要长度小于一页的邮件应发送到钳口2003@氯吡酮.通用域名格式

关闭:提交截止日期摘要为:2003年12月1日。
研讨会很成功,我们17场演讲98名参与者。
斯普林格将发表最好的论文作为编辑的特征提取书籍.

地铁列车时刻表

 12月12日星期五上午7:30至10:30
功能选择
主席:史蒂夫·冈恩

上午7:30基准数据集和挑战结果总结
[幻灯片][数据集描述] [12月1日结果] [12月8日结果]
Isabelle Guyon、Steve Gunn、Asa Ben胡尔和吉迪恩·德罗

上午7:50 的分类基于贝叶斯神经网络和Dirichlet扩散的高维问题
[摘要][幻灯片]
拉德福德·M·尼尔和张建国

上午8:20随机森林和常规森林最小二乘分类器
[摘要][幻灯片]
卡里·托科拉和尤金·图夫

上午8:40使用功能选择SVM与随机森林
[摘要][幻灯片]
陈一伟和林志仁

上午9:00休息

上午9:10使用功能选择传导性支持向量机
[摘要][幻灯片]
吴志立、李春红

上午9:30促进灵活学习动态特征选择集成
[摘要][幻灯片]
亚历山大·鲍里索夫(Alexander Borisov)、维克托·埃鲁希莫夫(Victor Eruhimov)和尤金·图夫

9:50am分段线性正则化解决方案路径
[摘要][幻灯片]
Saharon Rosset和Ji Zhu

上午10:10功能选择直接核偏最小二乘(DK-PLS)的灵敏度分析
[摘要] [幻灯片]
Mark J.拥抱

星期五12月12日下午4:00-7:00
功能提取
主席:克里斯汀·贝内特

4:00pm光谱尺寸通过学习特征函数进行约简
[摘要][幻灯片]
本吉奥

下午4:30蛋白质序列模式:用于函数预测的高度鉴别特征
[摘要][幻灯片]
阿萨·本·胡

下午4:50特色建设:变化PCA和公司
[摘要]
K.贝内特

5:10pm图像特征提取解释
[摘要][幻灯片]
伊利亚·列夫纳和瓦迪姆·布利特科

下午5:30休息

下午5:40特征提取说明逻辑功能包含
[摘要] [幻灯片]
罗德里戈·德萨尔沃·布拉兹和丹·罗斯

下午6:00使用功能选择潜在支持向量机
[摘要] [幻灯片]
塞普·霍克莱特

6:20pm基于信息的监督和半监督特征选择
[摘要]
Sang-Keun Lee、Seung-Joon Yi和Byoung-Tak

下午6:40从专题评选比赛
[摘要][pdf摘要]
Nitesh V.Chawla、Grigoris Karakoulas、,和丹尼·鲁伯特

下午6:55方法说明
[幻灯片]
托马斯·纳文·拉尔和奥利维尔·夏贝尔

问询处来自未参加研讨会的挑战参与者:

无名:功能选择挑战尝试
[幻灯片]
Ran Gilad-Bachrach和Amir Navot

NIPS功能选择挑战:方法详细信息
[报告]
阿米尔·雷扎·萨法里·阿扎尔
 

链接
JMLR特刊变量与特征选择
机器学习研究杂志http://www.jmlr.org网站/已发布今年NIPS 2001可变和特性研讨会的会议记录关于该主题的选择和其他贡献。本期,组织和由Isabelle Guyon和安德烈Elisseeff,包含14篇论文,包括介绍客座编辑现场报道。除了报纸之外,许多作者提供了研究中使用的数据集和软件。

数据挖掘竞赛:
数据挖掘竞赛列表由KDnuggets维护,包括著名的KDD杯。

列表用于机器学习的数据集:
保持一份相当全面的清单由MLnet提供。

在线机器学习资源:
包括指向软件和数据的指针。这些收藏包括著名的UCI存储库、DELVE平台多伦多大学等资源。

CAMDA公司
微阵列数据的关键评估分析,基因表达微阵列数据分析年度会议。这次会议包括一个强调基因选择的背景特征选择案例。

ICDAR公司
国际文件会议分析与认可,每两年召开一次的会议,提出印刷品竞赛文本识别。特征提取/选择是获胜的关键因素这样的比赛。

TREC公司
组织的文本检索会议每年由NIST提供。 会议是围绕比赛结果组织。过去的获奖者必须解决有效的特征提取/选择。

国际公共关系
与国际模式识别会议,ICPR 2004,人脸识别比赛正在组织中。

CASP公司
蛋白质的重要竞争结构预测称为关键评估
蛋白质结构技术预测。

联系方式
车间主席:
伊莎贝尔盖恩
Clopinet企业
克雷斯顿路955号,
美国加利福尼亚州伯克利市,邮编94708。
电话/传真:(510)524 6211

其他组织者:
会议记录出版:马苏德·尼克拉夫什.
项目顾问:克里斯汀·贝内特,理查德·卡鲁阿纳.
挑战助理:阿萨·本·胡尔,安德尔é叶利谢耶夫,吉迪恩·德罗.
挑战网站管理员:史蒂夫·冈恩.

致谢:
我们感谢制作数据的人我们正在使用公开可用的。他们将获得提名在挑战的最后,当我们揭示数据集的身份时。