最近的研究表明,大型语言模型(LLM)通过只使用少量并行数据的监督微调(SFT)可以获得显著的翻译性能。然而,SFT只是指示模型在标记级别模拟引用翻译,使其容易受到引用中存在的噪声的影响。因此,一旦LLM达到一定水平的翻译能力,来自SFT的援助往往会达到一个稳定阶段,进一步增加并行数据的大小并不会带来额外的好处。为了克服与基于模仿的SFT相关的平台,我们提出了一种建立在Plackett-Luce模型基础上的基于偏好的方法。其目的是引导LLM从整体角度对翻译偏好进行更细致的理解,同时在缺少黄金翻译的情况下更具弹性。我们进一步构建了一个名为MAPLE的数据集来验证我们的方法的有效性,其中包括每个源句子的多个不同质量的翻译。大量实验表明,我们的方法在不同的LLM和测试环境中“打破平台”方面具有优势。我们的深入分析强调了多样化翻译和准确的偏好评分在我们的方法成功中的关键作用。