数据科学基础
美国莱斯大学
美国查尔斯顿学院
美国xCures公司
斯坦福大学,斯坦福,加利福尼亚州,美国
*通讯作者:Amy N.Langville
解释或聚合多个排名的问题在许多实际应用程序中都很常见。也许最简单和最常见的方法是加权秩聚合,其中对每个输入秩应用(凸)权重,然后进行排序。本文描述了一种新的工具,用于可视化和显示加权排名聚合方法的排名信息。传统上,排名聚合的目的是总结来自输入排名的信息,并提供一个最终排名,该最终排名有望代表比任何一个输入排名更准确或真实的结果。虽然这种汇总排名对许多应用程序都很有用,而且很明显,但它也会模糊信息。在本文中,由于加权秩聚合问题的结构,我们展示了可用于该问题的丰富信息。我们将权重集分解应用于凸乘子集,研究有助于理解这种分解的属性,并可视化无差异区域。此方法将信息(否则会被聚合排名所分解)显示为有用、可解释和直观的决策支持工具。其中包括多个示例,以及用于计算权重集分解的启发式和精确算法。
图1。 凸权重集$\Lambda$在$\mathbb{R}^3$(左)中创建一个三角形,可以在$\mathbb{R}^2$(右)中可视化。当权重相等时,即$\lambda=(\frac{1}{3},\frac}{3{,\frac{1}})$,聚合排名与三个角的距离相等,因此三个输入排名也相等
图2。 左边的三角形显示了患者A Anne的权重集$\Lambda$,以$\mathbb{R}^2$显示。显示了两组砝码。权重$(\frac{1}{2},\frac}{2{,0)$位于$\barr^1$和$\barr ^2$边界的中间位置,因此它仅在两个标准(寿命和简单性)之间进行折衷。重量$(\frac{5}{12},\frac}5}{12-},\frac{1}{6})$位于三角形的内部,稍微向第三个成本标准移动。右边的三角形显示了彩色轴,这些轴指示目标的相对重量,并引导用户朝向或远离特定目标
图3。 (左)患者A Anne的排名彩色地图。(右)条形图显示每个区域在$y$-轴上$\Lambda$的百分比,并在$x$-轴标记相应的排名。快速浏览此条形图可显示与每个排名相关的相对区域
图4。 B号患者Bob的彩色地图排名。虽然Bob的颜色图包含$|A|=18$个区域,但与Anne的颜色图相比,几个区域,以及因此而产生的排名,都具有无关紧要的区域
图5。 成对项目分析。(左)项目1在96%的加权排名中排名优于5,以蓝色显示。(右)项目2在75%的加权排名中排名优于3,以蓝色显示
图6。 说明精确算法的步骤
图7。 (左)评级颜色图显示$|A|=20$个区域。当数据转换为排名作为输入时排序颜色图(右)还有$|A|=14$个区域。很明显,这两种颜色映射不同。简而言之,我们的颜色映射工作允许输入向量$\bar r^1$、$\bar r^2$和$\bar r ^3$,它们是评级向量或排名向量
图8。 左边的地图显示了治疗$T_1$Temozolomide的热图。较浅的区域表示治疗$T_1$在与该区域相关的汇总排名中排名更好。当生活质量是最重要的考虑因素时,治疗$T_1$得分很低。右边的地图显示了另一种治疗方法$T_3$Gliovac的热图,它在生活质量方面得分较高,而在生活质量和治疗方案简单性之间的折衷区域得分不高
图9。 灵敏度图。区域中心附近的较暗点最稳健,即其处理排序对输入权重$\lambda_i的微小变化最不敏感$
图10。 $\mathbb{R}^3$中的$j=4$多胞形(左)。平面穿过多面体,固定值为$\lambda_4$(右)。最大的平面是通过多边形的$\lambda_4=1$平面,这是$j=4$多边形的一个面。其他平面是当$\lambda_4=.75$、$\lampda_4=0.5$和$\lamda_4=.25$时的平面。原点对应于$\lambda_4=0$。通过这个多面体,有无限多个固定$\lambda_4$的平面,每个平面都有映射到聚合排名的彩色编码点
图11。 (左)与相关联的权重$\lambda_3$的非线性函数成本。处理成本对$\lambda_3$的较小值影响不大,但随后迅速增加。(右)这种非线性变换影响无差异区域的几何结构
表1。 实例的规模由排名项目的数量表示,n美元$以及由此产生的无差异区域(IR)的数量。对于步骤1,启发式网格搜索,第3列指示分区网格中的子间隔数。报告步骤1-5的运行时间
数字(11)
桌子(1)
HTML视图(2032) PDF下载(161) 引用人(0)
/
凸权重集$\兰姆达$在中创建三角形$\mathbb{R}^3$(左)可以在中可视化$\mathbb{R}^2$(右)。当重量相等时,即。,$\lambda=$,聚合排名与三个角的距离相等,因此,三个输入排名
左边的三角形显示重量设置$\兰姆达$患者A,Anne,可视化$\mathbb{R}^2$。显示了两组砝码。重量$(\frac{1}{2},\frac}{2{,0)$在两个边界的中间$\bar r ^1$和$\bar r^2$因此,它仅在两个标准(寿命和简单性)之间进行折衷。重量$(\frac{5}{12},\frac}5}{12-},\ frac{1}{6})$位于三角形的内部,稍微向第三个成本标准移动。右边的三角形显示了彩色轴,这些轴指示目标的相对重量,并引导用户朝向或远离特定目标
(左)患者A Anne的排名彩色地图。(右)显示百分比的条形图$\兰姆达$上美元$-上标记了相应排名的每个区域的轴x美元$-轴。快速浏览此条形图可显示与每个排名相关的相对区域
B号患者Bob的彩色地图排名。Bob的彩色地图包含$| A |=18$区域,比Anne的区域多,几个区域,因此排名,都没有重要的区域
成对项目分析。(左)项目1在96%的加权排名中排名优于5,以蓝色显示。(右)项目2在75%的加权排名中排名优于3,以蓝色显示
说明精确算法的步骤
(左)评级颜色图显示$|A|=20$区域。当数据转换为排名作为输入时排序颜色图(右)也有$| A |=14$区域。很明显,这两种颜色映射不同。简而言之,我们的颜色映射工作允许输入向量$\bar r^1$,$\bar r^2$,以及$\bar r^3$是评级向量或排名向量
左边的地图显示了治疗的热图美元T_1$替莫唑胺。较浅的区域表示治疗美元T_1$在与该地区相关的综合排名中排名更好。治疗美元T_1$当生活质量是最重要的考虑因素时,得分很低。右边的地图显示了另一种治疗的热图,T_3美元$Gliovac在生活质量方面得分较高,但在生活质量和治疗方案简单性之间的折衷区域得分不高
灵敏度图。区域中心附近的较暗点最稳健,即其处理排序对输入权重的微小变化最不敏感$\lambda_i$
这个$j=4美元$多面体$\mathbb{R}^3$(左)。固定值的多面体平面$\lambda_4美元$(右)。最大的飞机是$\lambda_4=1$平面穿过多面体,多面体是$j=4$多面体。其他平面是$\lambda_4=.75$,$\lambda_4=.5$,以及$\lambda_4=.25$。原点对应于$\lambda_4=0$.在固定位置有无限多个平面$\lambda_4美元$通过这个多面体,每个多面体都有对应于聚合排名的彩色编码点
(左)重量非线性函数美元\lambda_3$与关联成本。治疗成本对小价值的影响很小$\lambda_3美元$但随后迅速增加。(右)这种非线性变换影响无差异区域的几何结构