跳转到内容

ORES公司

来自mediawiki.org
警告 警告: 机器学习团队正在弃用ORES基础结构,请检查维基科技:ORES了解更多信息。

ORES公司(/埃ɹz/)[1](目标修订评估服务)是一个web服务和API,提供机器学习 作为服务对于由机器学习团队.该系统旨在帮助实现关键维基工作的自动化,例如,恶意破坏检测和删除。目前,ORES生成的两种常见分数类型是“编辑质量”和“文章质量”

ORES是一个后端服务,不直接提供使用分数的方法。如果您想使用ORES分数,请查看我们的使用ORES分数的工具列表.如果ORES还不支持你的wiki,请参阅我们的请求支持的说明.

寻找关于ORES的问题的答案?查看ORES常见问题.

编辑质量

ORES编辑质量流。从“互联网”到维基百科的编辑描述性图表描述了ORES之前编辑的“未知”质量,以及ORES可用后可能出现的“良好”、“需要审查”、“有害”标签。

Wikimedia开放项目最关键的问题之一是审查潜在的破坏性贡献(“编辑”)。还需要确定善意贡献者(可能无意中造成了损害)并向他们提供支持。这些模型旨在简化通过Special:RecentChanges提要进行过滤的工作。我们为编辑质量预测模型提供两个级别的支持:基本和高级。

基本支持

假设最具破坏性的编辑还原的没有破坏性的编辑也不会还原的,我们可以使用来自wiki的编辑历史(和还原的编辑)进行构建。这个模型很容易建立,但它存在一个问题,即许多编辑都是由于损坏和故意破坏以外的原因而被还原的。为了帮助实现这一点,我们创建了一个基于坏词的模型.

  • 还原的–预测编辑是否最终会被还原

高级支持

我们可以要求编辑培训ORES,而不是假设哪些编辑实际上是破坏性的以及哪些编辑看起来像是保存在中的诚信.这需要社区志愿者进行额外的工作,但它可以提供关于编辑质量的更准确和微妙的预测。许多工具只有在对目标wiki提供高级支持时才能发挥作用。

  • 破坏性的–预测编辑是否会导致损坏
  • 诚信–预测编辑是否被善意保存

文章质量

英文维基百科评估表。英文维基百科评估表截图(截至2024年6月)

维基百科文章的质量是维基人关注的核心问题。必须对新页面进行审查和策划,以确保垃圾邮件、故意破坏和攻击性文章不会保留在wiki中。对于那些在最初的策划中幸存下来的文章,一些维基百科人会定期评估文章的质量,但这是一项非常费力的工作,而且评估常常是过时的。

新文章评估

删除那些严重有问题的条款草案的速度越快越好。策划新的页面创作可能是一项艰巨的工作。就像编辑中的反标准问题一样,机器预测可以帮助馆长首先关注最有问题的新页面。基于管理员删除页面时留下的评论(请参阅登录中 表),我们可以训练一个模型来预测哪些页面需要快速删除。请参阅英语:WP:CSD获取英文维基百科的快速删除原因列表。对于英国模式,我们使用G3“故意破坏”,G10“攻击”、和G11“垃圾邮件”.

  • 草稿质量–预测文章是否需要快速删除(垃圾邮件、故意破坏、攻击或OK)

现有物品评估

对于那些在最初的策划中幸存下来的文章,一些大型维基百科定期使用大致对应于英语维基百科1.0评估等级表(物品质量).进行这些评估非常有用,因为它有助于我们衡量进展情况,并确定错过的机会(例如,低质量的热门文章)。然而,使这些评估保持最新是一项挑战,因此覆盖范围不一致。这就是物品质量机器学习模型很有用。通过训练一个模型来复制人类进行的文章质量评估,我们可以用计算机自动评估每一篇文章和每一次修订。该模型已被用于帮助WikiProjects进行分类重新评估工作,并探索导致文章质量改进的编辑动态。

这个物品质量该模型基于文章的结构特征进行预测。有多少节?有信息盒吗?有多少参考?参考文献是否使用w: 模板:引用xxx模板?这个物品质量model不评估写作质量,也不评估是否存在语调问题(例如,推送观点)。然而,文章的许多结构特征似乎与良好的写作和语调密切相关,因此这些模型在实践中非常有效。

  • 物品质量–预测文章或草稿的(类似维基百科1.0)评估等级

主题路由

主题交叉讨论。展示了跨维基标记过程的可视化。英语维基百科的WikiProjects根据主题兴趣标记文章。WikiProjects被组织成主题标签的分类法。主题标签通过Wikidata站点链接应用于其他Wiki上的文章。

ORES的文章主题模型应用了一种直观的自上而下的分类法维基百科上的任何文章,甚至是新的文章草稿。此主题路由对于管理新文章、构建工作列表、形成新的WikiProjects和分析覆盖差距非常有用。

ORES主题模型使用单词嵌入实际内容。对于每种语言,都会学习并在本地应用特定于语言的嵌入。由于此建模策略取决于文章的主题,因此根据文章中的主题,不同语言的主题预测可能会有所不同。

新文章评估

新物品传送。一个图表用“草稿质量”和“articletopic”ORES模型映射了维基百科中新文章的流程。

审查新文章的最大困难是找到熟悉主题的人来判断知名度、相关性和准确性。我们的草稿主题该模型旨在根据新创建的文章的明显主题性质,将其发送给感兴趣的评论员。根据条款的第一次修订因此适用于新的条款草案。

  • 草稿主题–预测新文章草稿的主题

主题兴趣映射

文章标记示例(Ann Bishop)。 安·毕晓普被WikiProjects East Anglia、女性科学家、女性历史和传记标记。给出了主题分类翻译和预测。请注意,预测中包含的相关主题信息比分类链接更多。

文章的主题相关性是维基百科工作组织的一个重要概念。专题工作组已经成为管理维基百科内容制作和巡查的一种常见策略。然而,由于许多原因,高级层次结构不可用或不可查询。结果是,任何想要围绕主题组织或制作工作列表的人都必须进行大量的手工工作来识别相关文章。与我们的关节病的模型,这些查询可以自动完成。

支撑台

这个ORES支持表通过wiki和可用模型报告ORES支持的状态。如果您没有看到列出的wiki,或者没有看到对要使用的模型的支持,您可以请求支持.

API使用

ORES提供了令人安心的API服务,用于动态检索有关修订的评分信息。请参阅https://ores.wikimedia.org有关如何使用API的更多信息。

如果您正在查询有关大量修订的服务,建议在给定的请求中批处理不超过50个修订,如下所述。最多可以使用4个并行请求。请不要超过这些限制,否则ORES会变得不稳定。对于更多的查询,您可以在本地运行ORES

查询示例: http://ores.wikimedia.org/v3/scores/enwiki/?models=draftquality|wp10&revids=34854345 | 485104318

{
  “enwiki”: {
    “模型”: {
      “草稿质量”: {
        “版本”: "0.0.1"
      },
      “wp10”: {
        “版本”: "0.5.0"
      }
    },
    “分数”: {
      "34854345": {
        “草稿质量”: {
          “得分”: {
            “预测”: “确定”,
            “概率”: {
              “确定”: 0.7013632376824356,
              “攻击”: 0.0033607229172158775,
              “垃圾邮件”: 0.2176404529599271,
              “故意破坏”: 0.07763558644042126
            }
          }
        },
        “wp10”: {
          “得分”: {
            “预测”: “FA”,
            “概率”: {
              “B”: 0.22222314275400137,
              “C”: 0.028102719464462304,
              “FA”: 0.7214649122864883,
              “GA”: 0.008833476344463836,
              “启动”: 0.017699431000825352,
              “存根”: 0.0016763181497590444
            }
          }
        }
      },
      "485104318": {
        “草稿质量”: {
          “得分”: {
            “预测”: “确定”,
            “概率”: {
              “确定”: 0.9870402772858909,
              “攻击”: 0.0006854267347843173,
              “垃圾邮件”: 0.010405615745053554,
              “故意破坏”: 0.0018686802342713132
            }
          }
        },
        “wp10”: {
          “得分”: {
            “预测”: “存根”,
            “概率”: {
              “B”: 0.02035853144725939,
              “C”: 0.021257471714087376,
              “FA”: 0.0018133076388221472,
              “GA”: 0.003447287158958823,
              “启动”: 0.1470443252839051,
              “存根”: 0.8060790767569672
            }
          }
        }
      }
    }
  }
}
 

结果


查询示例: https://ores.wikimedia.org/v3/scores/wikidatawiki/421063984/破坏

{
  “wikidatawiki”: {
    “模型”: {
      “破坏性”: {
        “版本”: "0.3.0"
      }
    },
    “分数”: {
      "421063984": {
        “破坏性”: {
          “得分”: {
            “预测”: ,
            “概率”: {
              “假”: 0.9947809563336424,
              “正确”: 0.005219043666357669
            }
          }
        }
      }
    }
  }
}
 

结果


EventStream使用

ORES分数也作为事件流https://stream.wikimedia.org/v2/stream/revision-score

本地使用

要在本地运行ORES,可以安装ORES Python包签署人:

pip(点阵) 安装 矿石 #需要是python3,与python2不兼容

然后您应该能够运行它:

回声 -e(电子) '{“版本号”:456789}\n{“版号”:3242342}' | 矿石 分数_愿景 https://ores.wikimedia.org (你的 用户代理 一串  在这里) 恩维基语 破坏性的

您应该看到的输出

017-11-22 16:23:53,000 信息:ores.utilities.score_revisions -- 阅读 输入  <标准输入>2017-11-22 16:23:53,000 信息:ores.utilities.score_revisions -- 写作 输出   <标准输出>{“得分”: {“破坏性”: {“得分”: {“预测”: 错误, “概率”: {“假”: 0.9889349126544834, “正确”: 0.011065087345516589}}}}, “版次_id”: 456789}
{“得分”: {“破坏性”: {“得分”: {“预测”: 错误, “概率”: {“假”: 0.9830812038318183, “正确”: 0.016918796168181708}}}}, “版次_id”: 3242342}
 

结果


脚注

  1. 最初是目标修订评估服务,此长名称现已弃用。