tttplots-一个创建时间目标图的perl程序

雷娜塔·艾克斯¹毛里西奥·G·C·雷森德²和Celso C.Ribeiro^三

¹天主教的美国。巴西里约热内卢。
²美国新泽西州弗洛勒姆公园AT&T实验室研究。
^三巴西里约热内卢尼特罗U.Federal Fluminense。

2005年10月

点击在这里下载论文[PDF:249 Kb]。

简介

此网页描述了一个perl程序，该程序为测量的CPU时间绘制时间到目标（ttt）图，这些时间被假定符合移位指数分布. 在组合优化的基于局部搜索的启发式算法中经常会出现这种情况例如模拟退火、遗传算法、迭代局部搜索、禁忌搜索、WalkSAT和GRASP(Aiex公司，Resende和Ribeiro，2002年；巴提提和Tecchiolli，1992年；多德，1990;十Eikelder等人，1996年；奥斯本和吉列，1991年；塞尔曼，考茨和科恩，1994年；尾翼，1991; 范霍文和Aarts，1995年). 我们首先讨论ttt图是如何生成的，密切关注Aiex、Resende和Ribeiro（2002）。然后，我们描述了perl程序tttplots.pl。

TTT图

这里的假设是CPU时间符合双参数或移位指数分布。对于给定的问题实例，我们测量CPU时间以找到至少与给定目标值一样好的目标函数值。运行启发式n个在固定实例上使用给定的目标解决方案的次数。对于每个n个运行时，随机数生成器使用不同的种子进行初始化，因此假定运行是独立的。为了比较经验分布和理论分布，我们采用标准的图形方法进行数据分析（Chambers等人，1983年）。此方法生成ttt图。在本节的其余部分中，我们将描述此方法。

对于每个实例/目标对，运行时间按递增顺序排序。我们与我-第排序运行时间t吨(我)概率第页(我) = (我-1/2）/n个，并绘制点z（i）= [t（i），p（i）],对于我= 1, ...,n个. 图1说明了GRASP实例/目标对的累积概率分布图。在这个图中，我们可以看到，启发式算法在最多2秒钟内找到至少与目标值一样好的解决方案的概率约为50%，在最多4秒钟内找到约80%，在最多6秒钟内找到大约90%。

图1-累积概率分布

图1中的曲线图似乎符合移动的指数分布。我们想估计双参数指数分布的参数。为此，我们首先绘制数据的理论分位数图（或Q-Q图）。为了描述Q-Q图，我们记得双参数指数分布的累积分布函数由下式给出F（吨）=1-经验[-（t-M）/L],哪里L（左）是分布数据的平均值（也表示数据的传播），以及M（M）是分布相对于纵坐标轴的偏移。

对于每个值p（i），i=1, ..., 编号：，我们联想到第（i）页-分位数Qt（p（i））理论分布。对于每个第（i）页-分位数我们根据定义F（（Qt（p（i）））=第（i）页因此，Qt（p（i））=F^--1（p（i））因此，对于双参数指数分布，我们有问题（p（i））=-L ln（1-p（i））+M经验分布数据的分位数只是（分类的）原始数据。

理论分位数图（或理论Q-Q图）是通过将经验分布数据的分位数与理论分布的分位数绘制出来的。这包括三个步骤。首先，数据（在我们的例子中是测量的时间）按升序排序。其次，得到了理论指数分布的分位数。最后，根据理论分位数绘制数据图。

在理论分布与经验分布接近的情况下，Q-Q图中的点将具有近似直线的配置。如果参数L（左）和M（M）在最适合测量数据的理论分布中，可以预先估计Q-Q图中的点倾向于沿着直线x=y。或者，在针对双参数指数分布的数据图中L（左）=1和M（M）=0，点将倾向于沿着直线年=L（左）x个+M（M）这意味着一个单一的理论Q-Q图不仅将一组数据与一个理论分布进行比较，而且还将其与整个分布族进行比较。因此，参数L（左）和M（M）两参数指数分布的斜率可以分别估计L（左）和拦截M（M）Q-Q图中描述的直线。

图2-Q-Q图

图2中所示的Q-Q图是通过绘制纵坐标中的测量时间与双参数指数分布的分位数L（左）=1和M（M）横坐标=0，由-ln（1-p（i））对于i=1。。。，n.（名词）。为了避免离群值引起的可能失真，我们不使用数据平均值或Q-Q图点上的线性回归来估计分布平均值。相反，我们估计了斜率L（左）第页，共页y=长x+米使用上四分位数q（u）和下四分位数q（l）数据的。上四分位数和下四分位数分别为问（1/4）和问（3/4）分位数。我们接受L（左）=[z（u）-z（l）]/[q（u）-q（l）]作为对坡度的估计，其中z（u）和z（l）是单位-th和我-第分别为有序测量时间的点。这种对测量数据平均值分布的非正式估计是可靠的，因为它不会被少数异常值所扭曲（Chambers等人，1983年）。

为了分析Q-Q图的直线度，我们将其与可变性信息叠加。对于每个绘制的点，我们显示了与绘制线垂直方向的正负一个标准偏差。点的标准偏差估计z（i），i=1。。。，编号：，Q-Q图的
秒=L（左）[第（i）/（1-p（i））节]^½。

图3-具有叠加可变性信息的Q-Q图示例。

图3显示了具有叠加可变性信息的Q-Q图示例。

当观察带有叠加标准偏差信息的理论分位数图时，应避免将此类信息转化为正式测试。必须记住的一个重要事实是，即使分布模型有效，数据的自然变化也会偏离直线度。描述标准偏差的最重要原因是，它给我们一种在绘图的不同区域中点的相对可变性的感觉。然而，由于人们试图从多个单独的推论中同时进行推论，因此很难使用标准偏差来判断偏离参考分布的情况。例如，特定点偏离参考线两个以上标准偏差的概率很小。但至少有一个数据点偏离直线两个标准偏差的概率可能要大得多。在顺序统计中，相邻点之间存在的高度相关性使得这一点更加困难。如果一个绘制的点偏离了一个以上的标准偏差，那么很有可能整个绘制的点也会偏离。另一点需要记住的是，Q-Q图中的标准偏差变化很大，如图4中的Q-Q曲线所示，靠近高端的点的标准偏差远远大于另一端的标准偏差。

图4 -叠加情节经验和理论分布。

一旦估计了分布的两个参数，就可以绘制经验和理论分布的叠加图。图4显示了与图3中Q-Q图相对应的该图。

TTTPLOTS公司。PL-生成TTT图的PERL程序

ttt批次.pl是一个perl程序，它将一个文件作为输入n个行，每行有一个CPU时间条目，并生成两个图：1）叠加的经验和理论分布；2）具有叠加可变性信息的Q-Q图。除了绘图外，还生成了几个输出文件。

要下载tttplots.pl，请单击在这里。

要运行tttplots.pl，简单输入：

perl tttplots.pl-f输入文件名

其中input_filename.dat是带有n个CPU时间数据点，每行一个。

除了将有关数据文件和估计参数的一些基本统计信息打印到标准输出之外，tttplots.pl还生成了以下输出文件：

经验主义的指数的分发数据文件	输入文件名-ee.dat
理论的指数的分发数据文件	输入文件名-te.dat
经验主义的QQ图数据文件	输入文件名el.dat
理论的QQ图数据文件	输入文件名tl.dat
理论的上面的1标准偏差QQ图数据	输入文件名-ul.dat
理论的降低1标准偏差QQ图数据	输入文件名-ll.dat
理论的vs经验TTT绘图gnuplot文件	输入文件名-exp.gpl
理论的vs经验QQ图gnuplot文件	输入文件名-qq.gpl
理论的vs经验TTT绘图PostScript文件	输入文件名exp.ps
理论的vs经验QQ图PostScript文件	输入文件名-qq.ps

注意：tttplots.pl要求gnuplot卫星安装在系统上。

参考文献

相对湿度。Aiex、M.G.C.Resende和C.C.Ribeiro，概率GRASP溶液时间分布的实验研究,《启发式杂志》，第8卷，第343-373页，2002年。

R.Battiti和G.Tecchiolli。平行有偏见的组合优化搜索：遗传算法和TABU《微处理器和微系统》，16:351-3671992年。

J.M.Chambers、W.S.Cleveland、B.Kleiner和P.A.Tukey。图形化数据分析方法查普曼和霍尔出版社，1983年。

N.多德。慢退火与多次快速退火：安以经验为根据的调查《并行计算》，16:269-2721990年。

H.M.M.Ten Eikelder、M.G.A.Verhoeven、T.W.M.Vossen和E.H.L.Aarts。局部搜索的概率分析I.H.Osman和J.P.Kelly，编辑，元启发式：理论与应用，第605-618页。Kluwer学术出版社，1996年。

L.J.Osborne和B.E.Gillett。网络上有向Steiner问题的两种模拟退火算法的比较《ORSA计算机杂志》，3:213-2251991年。

B.Selman、H.A.Kautz和B.Cohen。噪声策略用于改进本地搜索AAAI-94会议记录，第337-343页。麻省理工学院出版社，1994年。

E.D.塔利拉德。二次指派问题的鲁棒禁忌搜索《并行计算》，17:443-4551991年。

M.G.A.Verhoeven和E.H.L.Aarts。平行地方的搜索《启发式学杂志》，1:43-661995。