\`x^2+y_1+z_12^34\`
高级搜索
文章内容
文章内容

加权秩和评分聚合的权重集分解:一种可解释的可视化决策支持工具

  • *通讯作者:Amy N.Langville

    *通讯作者:Amy N.Langville
摘要 全文(HTML) (11)/表(1) 相关论文 引用人
  • 解释或聚合多个排名的问题在许多实际应用程序中都很常见。也许最简单和最常见的方法是加权秩聚合,其中对每个输入秩应用(凸)权重,然后进行排序。本文描述了一种新的工具,用于可视化和显示加权排名聚合方法的排名信息。传统上,排名聚合的目的是总结来自输入排名的信息,并提供一个最终排名,该最终排名有望代表比任何一个输入排名更准确或真实的结果。虽然这种汇总排名对许多应用程序都很有用,而且很明显,但它也会模糊信息。在本文中,由于加权秩聚合问题的结构,我们展示了可用于该问题的丰富信息。我们将权重集分解应用于凸乘子集,研究有助于理解这种分解的属性,并可视化无差异区域。此方法将信息(否则会被聚合排名所分解)显示为有用、可解释和直观的决策支持工具。其中包括多个示例,以及用于计算权重集分解的启发式和精确算法。

    数学学科分类:一次:90-04、68W99、52A15;次要:62F07、68T37、68T01。

    引用:

    \开始{方程式}\\结束{方程式{
  • 加载中
  • 图1。 凸权重集$\Lambda$在$\mathbb{R}^3$(左)中创建一个三角形,可以在$\mathbb{R}^2$(右)中可视化。当权重相等时,即$\lambda=(\frac{1}{3},\frac}{3{,\frac{1}})$,聚合排名与三个角的距离相等,因此三个输入排名也相等

    图2。 左边的三角形显示了患者A Anne的权重集$\Lambda$,以$\mathbb{R}^2$显示。显示了两组砝码。权重$(\frac{1}{2},\frac}{2{,0)$位于$\barr^1$和$\barr ^2$边界的中间位置,因此它仅在两个标准(寿命和简单性)之间进行折衷。重量$(\frac{5}{12},\frac}5}{12-},\frac{1}{6})$位于三角形的内部,稍微向第三个成本标准移动。右边的三角形显示了彩色轴,这些轴指示目标的相对重量,并引导用户朝向或远离特定目标

    图3。 (左)患者A Anne的排名彩色地图。(右)条形图显示每个区域在$y$-轴上$\Lambda$的百分比,并在$x$-轴标记相应的排名。快速浏览此条形图可显示与每个排名相关的相对区域

    图4。 B号患者Bob的彩色地图排名。虽然Bob的颜色图包含$|A|=18$个区域,但与Anne的颜色图相比,几个区域,以及因此而产生的排名,都具有无关紧要的区域

    图5。 成对项目分析。(左)项目1在96%的加权排名中排名优于5,以蓝色显示。(右)项目2在75%的加权排名中排名优于3,以蓝色显示

    图6。 说明精确算法的步骤

    图7。 (左)评级颜色图显示$|A|=20$个区域。当数据转换为排名作为输入时排序颜色图(右)还有$|A|=14$个区域。很明显,这两种颜色映射不同。简而言之,我们的颜色映射工作允许输入向量$\bar r^1$、$\bar r^2$和$\bar r ^3$,它们是评级向量或排名向量

    图8。 左边的地图显示了治疗$T_1$Temozolomide的热图。较浅的区域表示治疗$T_1$在与该区域相关的汇总排名中排名更好。当生活质量是最重要的考虑因素时,治疗$T_1$得分很低。右边的地图显示了另一种治疗方法$T_3$Gliovac的热图,它在生活质量方面得分较高,而在生活质量和治疗方案简单性之间的折衷区域得分不高

    图9。 灵敏度图。区域中心附近的较暗点最稳健,即其处理排序对输入权重$\lambda_i的微小变化最不敏感$

    图10。 $\mathbb{R}^3$中的$j=4$多胞形(左)。平面穿过多面体,固定值为$\lambda_4$(右)。最大的平面是通过多边形的$\lambda_4=1$平面,这是$j=4$多边形的一个面。其他平面是当$\lambda_4=.75$、$\lampda_4=0.5$和$\lamda_4=.25$时的平面。原点对应于$\lambda_4=0$。通过这个多面体,有无限多个固定$\lambda_4$的平面,每个平面都有映射到聚合排名的彩色编码点

    图11。 (左)与相关联的权重$\lambda_3$的非线性函数成本。处理成本对$\lambda_3$的较小值影响不大,但随后迅速增加。(右)这种非线性变换影响无差异区域的几何结构

    表1。 实例的规模由排名项目的数量表示,n美元$以及由此产生的无差异区域(IR)的数量。对于步骤1,启发式网格搜索,第3列指示分区网格中的子间隔数。报告步骤1-5的运行时间

    n美元$ 投资回报率 网格 步骤1(秒) 步骤2(秒) 步骤3(秒) 步骤4(秒) 步骤5(秒)
    5 18 $ 10^3 $ 0.242 0.140 0.077 0.064 0.008
    10 115 $ 10^4 $ 1.159 0.135 0.194 0.529 0.015
    15 1189 $ 10^5 $ 32.218 0.127 0.596 27.905 0.130
    20 4029 $ 10^6 $ 1952.166 0.451 3.447 385.059 0.423
    |显示表格
    下载:CSV公司
  • [1] 软件权利档案有限责任公司诉谷歌公司。;雅虎!股份有限公司。;IAC搜索媒体公司。;AOL有限责任公司;和Lycos公司。美国加利福尼亚州北区,案件编号cv-08-3172 2012。,
    [2] Valtrus Innovations Ltd诉Google LLC.,美国德克萨斯州北部地区,案例3:22-cv-00066-N 2022。,
    [3] M.J.阿尔维斯J.P.科斯塔,三目标混合整数线性规划中权重空间的图解探索,欧洲运筹学杂志,248(2016), 72-83. 数字对象标识:2016年10月10日/j.ejor.2015.06.072。
    [4] P.安德森T.Chartier公司A.兰维尔数据的范围,SIAM数据科学数学杂志,1(2019), 121-143. 数字对象标识:10.1137/18M1183595。
    [5] P.E.Anderson、T.P.Chartier、A.N.Langville和K.E.Pedings-Behling,两两比较中加权数据的范围,数据科学基础, (2021), 1-26.数字对象标识:10.3934/fods.2021002。
    [6] P.E.Anderson、T.P.Chartier、A.N.Langville和K.E.Pedings-Behling,线性排序问题的公平性和最优排序集,优化与工程, (2021), 1-29.数字对象标识:10.1007/s11081-021-09650-y。
    [7] J.Bennett、S.Lanning等人,网飞奖,年KDD杯和研讨会会议记录,第2007卷,纽约,2007年,第35页。
    [8] H.P.本森E.太阳,多目标线性规划中权重集的结果空间划分,最优化理论与应用杂志,105(2000), 17-36. 数字对象标识:10.1023/A:1004605810296。
    [9] T.R.卡梅隆A.N.朗维尔H.C.史密斯,在拉普拉斯图和数据的秩上,线性代数及应用,588(2020), 81-100. 数字对象标识:2016年10月10日/j.laa.2019.11.026。
    [10] C.Dwork、R.Kumar、M.Naor和D.Sivakumar,网络排名聚合方法,in第十届万维网国际会议记录, 2001,613-622.数字对象标识:10.1145/371920.372165.
    [11] M.埃尔戈特,多准则优化第491卷,Springer科学与商业媒体,2005年。
    [12] S.C.Geyik、S.Ambler和K.Kenthapadi,《Fairness-aware在搜索和推荐系统中的排名及其在人才搜索中的应用》第25届Acm Sigkdd知识发现与数据挖掘国际会议论文集, 2019, 2221-2231.数字对象标识:10.1145/3292500.3330691.
    [13] J.郭Y.风扇L.Pang(彭日成)L.Yang(杨利伟)问:艾H.扎马尼C.吴W.B.克罗夫特X.程,深入研究信息检索的神经排序模型,信息处理与管理,57(2020), 102067. 数字对象标识:2016年10月10日/j.ipm.2019.102067。
    [14] G.卡拉卡亚M.Köksalan先生评估多个目标下的解决方案和解决方案集,欧洲运筹学杂志,294(2021), 16-28. 数字对象标识:2016年10月10日/j.ejor.2021.01.021。
    [15] P.Kidwell、G.Lebanon和W.Cleveland,可视化不完整和部分排名的数据,IEEE Trans-Vis计算图,6(2008), 1356-1363.数字对象标识:10.1109/TVCG.2008.181。
    [16] S.-H.Kim和B.L.Nelson,排名和选择的最新进展2007年IEEE冬季模拟会议, 2007,162-172.
    [17] G.A.Kramer,用于选择用于搜索和用于呈现搜索结果的加权的系统和方法,美国专利20090164948A1,2007年12月,https://patentimages.storage.googleapis.com/d1/93/3c/977340213bf726/US20090164948A1.pdf
    [18] A.N.朗维尔C.D.梅耶谁是第一?评级和排名科学,普林斯顿大学出版社,2012年
    [19] K.Massey,统计模型在运动队评定中的应用布鲁菲尔德学院,1077(1997).
    [20] N.McJames、D.Malone和O.Mason,《分级的监督学习方法》,技术报告,arXiv公司:2203.07364Maynooth大学汉密尔顿研究所,2022年。
    [21] T.A.Perini,离散变量多目标优化技术:箱线法和切比雪夫权集分解,博士论文,佐治亚理工学院,2021年。
    [22] A.普日贝尔斯基十、甘迪布勒M.埃尔戈特,在多目标整数规划的结果集中查找所有非支配极值点的递归算法,信息计算杂志,22(2010), 371-386. 数字对象标识:10.1287/ijoc.1090.0342。
    [23] M.G.希梅克E.布丁斯克K·G·库格勒V.ŠvendováJ.丁林书豪(S.Lin)Topklists:一个全面的R包,用于统计推断、随机聚合和多个经济体排名列表的可视化,遗传学和分子生物学中的统计应用,14(2015), 311-316. 数字对象标识:10.1515/sagmb-2014-0093。
    [24] B.史密斯G.林登、亚马逊网站20年的推荐系统,IEEE互联网计算,21(2017), 12-18. 数字对象标识:10.1109立方米.2017.72。
  • 加载中

数字(11)

桌子(1)

分享

文章指标

HTML视图(2032) PDF下载(161) 引用人(0)

访问历史记录

目录

    /

    返回
    返回