亚里士多德

构建下一代系统,可以系统地推理、解释并随着时间的推移不断改进


显示来自假设和文本的蕴涵树的图表
我们的研究包括以下方面的开创性工作:
  • 系统的推理和解释
  • 可教推理系统
  • 使用基于内存的体系结构进行持续学习
  • 知识和信念
  • 通用数学推理

最近的更新

研究领域

可教学推理系统

通过与系统的推理进行交互并提供反馈,用户可以教授系统,使其随着时间的推移不断改进,而无需进行模型再培训。

模块化模型

通过学习将现有模型链接在一起,可以解决单个组件所无法解决的复杂问题。

  • QA模型优于其他流行语言模型,但数量级较小|阿里斯托,研究可视化

    Macaw是一种高性能的问答(QA)模型,它能够超越其他流行的当前语言模型,而所有这些都要小一个数量级。通过这个演示,您可以探索Macaw的答案,并在一组基准问题上将其与流行的GPT-3语言模型的答案进行比较。

    尝试演示
    猕猴
  • 猕猴
    QA模型优于其他流行语言模型,但数量级较小|亚里士多德,研究可视化

    Macaw是一种高性能的问答(QA)模型,它能够超越其他流行的当前语言模型,而所有这些都要小一个数量级。通过这个演示,您可以探索Macaw的答案,并在一组基准问题上将其与流行的GPT-3语言模型的答案进行比较。

    尝试演示
  • ProofWriter OpenGraph图像
    自然语言中的暗示、证明和派生语句的生成|亚里士多德

    与RuleTaker一样,ProofWriter根据自然语言中给出的规则确定语句是真是假,但也会生成其答案的证明。

    尝试演示
  • ProofWriter OpenGraph图像
    在自然语言上生成含意、证明和拐骗性陈述|亚里士多德

    与RuleTaker一样,ProofWriter根据自然语言中给出的规则确定语句是真是假,但也会生成其答案的证明。

    尝试演示
    • ADaPT:基于语言模型的按需分解与规划

      阿奇基·普拉萨德、亚历山大·科勒、马雷克·哈特曼、彼得·克拉克、阿什什·萨巴瓦尔、莫希特·班萨尔、图沙尔·科特NAACL调查结果2024 大型语言模型(LLM)越来越多地用于需要规划和适应环境的交互式决策任务。最近的工作主要以两种方式使用LLM作为代理:迭代确定下一个动作(迭代…
    • 利用代码改进语义分析的In-context学习

      Ben Bogin、Shivanshu Gupta、Peter Clark、Ashish SabharwalNAACL公司2024 在语义分析中,上下文内学习(ICL)以其较少的快照和改进的泛化能力而备受关注。然而,从几个演示中学习解析为罕见的领域特定语言(DSL)是一项挑战,限制了…
    • QualEval:模型改进的定性评估

      维什瓦克·穆拉哈里(Vishvak Murahari)、阿梅特·德斯潘德(Amee Deshpande)、彼得·克拉克(Peter Clark)、坦马·拉杰普罗希特(Tanmay Rajpurohit)、阿什什·萨巴瓦尔(Ashish Sabharwal)、卡西克·纳拉西姆汉(NAACL公司2024 传统上,定量评估指标在衡量人工智能系统(包括大型语言模型(LLM))的进步方面至关重要。然而,这些指标具有固有的局限性。考虑到现实世界的复杂性…
    • 偏见根深蒂固:人格化LLM中的隐含推理偏见

      Shashank Gupta、Vaishnavi Shrivastava、A.Deshpande、A.Kalyan、Peter Clark、Ashish Sabharwal、Tushar KhotICLR公司2024 最近的作品展示了LLM在回应中体现不同人物角色的能力,例如提示“Youare Yoda”。解释相对论。”虽然此功能允许LLM个性化并支持人类行为…
    • 思想链变形金刚的表现力

      阿什什·萨巴沃尔·威廉·梅里尔ICLR公司2024 最近的理论工作已经确定了令人惊讶的简单推理问题,例如检查图中的两个节点是否连接或模拟有限状态机,这些问题被标准变压器证明是无法解决的,这些变压器在…

    最近的数据集

    IfQA反事实推理基准

    3800个开放域问题,用于评估NLP模型的反事实推理能力

    EMNLP-2023论文《IfQA:反事实假设下开放域问题回答的数据集》中引入了反事实推理基准。

    数字苏格拉底

    DS评论库包含对“学生”模型的答案和解释的注释评论。

    DS评论库(DSCB)是一个多选题数据集,由“学生模型”提供相关答案和解释,以及“评论模型”提供的解释的“评论”。许多实例都有人工注释。

    ParRoT(零件和事物关系)

    11720“X关系Y?”关于日常事物和关系信息部分的对/错问题关于这些部件

    这是ACL 2023“语言模型对日常事物有连贯的心理模型吗?”中的数据集。

    信念和推理数据集

    BaRDA:一个区分事实准确性和推理能力的信念和重新推理数据集

    BaRDa是一个新的信念和推理数据集,用于评估新语言模型的事实正确性(“真理”)和推理准确性(“合理性”或“诚实”)。它是与开放慈善组织合作并在其支持下创建的。

    “光知道是不够的,我们必须申请。光有意愿还不够,我们必须去做。”
    约翰·沃尔夫冈·冯·歌德

    思维链推理如何帮助神经网络计算

    Quanta杂志
    2024年3月21日
    阅读文章

    人格驱动的ChatGPT产生有毒的种族主义输出

    TechXplore公司
    2023年4月19日
    阅读文章

    更改ChatGPT角色可能会使其恶意

    数字信息世界
    2023年4月17日
    阅读文章

    这篇AI论文展示了ChatGPT的毒性如何在分配角色时增加到六倍

    Marktechpost公司
    2023年4月14日
    阅读文章

    “他们都那么肮脏和难闻:”研究揭开ChatGPT内部种族主义者的神秘面纱

    小发明
    2023年4月13日
    阅读文章

    新的研究揭示了ChatGPT在分配不同角色时的固有毒性

    Mashable中东
    2023年4月13日
    阅读文章

    研究人员发现了一种使ChatGPT持续有毒的方法

    科技博客
    2023年4月12日
    阅读文章

    研究人员表示,ChatGPT只需改变其指定的角色就可能有毒

    文丘里管底座
    2023年4月12日
    阅读文章

    团队

    • 个人照片克里斯·卡利森·布尔赫研究
    • 个人照片彼得·克拉克研究
    • 个人照片本·博金年轻调查员
    • 个人资料图片巴瓦纳·达尔维研究
    • 个人照片顾玉玲产前年轻调查员
    • 个人照片沙申克·古普塔研究
    • Ashwin Kalyan的个人资料照片阿什温·卡利安研究
    • Tushar Khot的个人资料照片Tushar Khot公司研究
    • 个人照片菩提祖师Prasad Majumder研究
    • 凯尔·理查森的个人资料照片凯尔·理查森研究
    • Ashish Sabharwal的个人资料照片阿什什·萨巴瓦尔研究
    • Oyvind Tafjord的个人资料照片奥文德·塔夫乔德研究
    • Niket Tandon的个人资料照片Niket Tandon公司研究
    • 个人照片莎拉·威格列夫年轻调查员