(照片:盖蒂图片社)

目标和范围

专利、报告、文章等在线可用科学、技术和法律数据的快速增长,使得大规模分析和处理此类数据成为一项关键任务。如今,科学家、专利专家、发明家和其他信息专业人员(例如信息科学家、律师等)每天都通过发表文章、撰写技术报告或专利申请来贡献这些数据。

由于文档的长度、特定领域词汇的使用以及针对不同科学领域带来的复杂性,处理、分析和探索文档是一项具有挑战性的任务。文档是半结构化的,包括非结构化文本部分以及结构化部分,如表、数学公式、图表和特定于域的信息,如化学名称、生物序列等。

此类信息给处理此类文档带来了复杂性;然而,数据是许多应用程序的命脉,数据的保存、分析、丰富和使用是几个领域应用程序的关键。为了从这些文档中的科学技术知识中获益,例如用于决策或专业搜索和分析,迫切需要使用最先进的语义Web技术和人工智能方法来分析、丰富和链接这些数据。

然而,由于它们是异构的,并且是使用特定领域的术语编写的,应用现有的语义技术并不简单。为了应对上述挑战,必须利用语义Web技术、自然语言处理(NLP)技术、深层神经网络(DNN)和大型语言模型(LLM),以便为创建易于访问和机器理解的知识提供高效的解决方案。

摘要截止日期

2024年3月1日

2024年3月12日

如果您没有按时完成,请联系我们!

纸张截止日期

2024年3月7日

2024年3月17日

通知

2024年4月4日

相机可读纸

2024年4月18日

研讨会主题

研讨会接受与语义网络技术和深度学习相关的所有主题的贡献,重点(但不限于):

  • 数据收集
    • 利用大型语言模型(LLM)生成科学、技术和法律数据。
    • 捕获科学、技术和法律数据的新工具和系统,如科学文章、专利出版物等。
    • 用于存储、共享和保存数据的过程和工具。
    • 收集和共享基准等数据集。
    • 从数据中捕获特性的管道和协议。
    • 使用语义Web技术在道德、隐私、安全、信任等方面表示和保存敏感数据。
  • 科学、技术和法律数据的新型语义技术
    • 用于对此类数据建模的本体论和注释模式。
    • 数据的注释、链接和消除歧义。
    • 知识图构建。
    • LLM为特定数据生成元数据、词汇表、本体和语义模型。
  • 利用语义技术申请专利、科学、技术和法律数据
    • 利用知识图驱动文档相似度、问答、搜索等。
    • 推荐系统。
    • 基于语义内容的检索。
    • 用于分类、摘要等的自然语言处理技术。
    • 使用语义技术对科学、技术和法律数据进行探索性搜索。
    • 针对特定数据和域的语义技术的关键支持工具(也基于LLM)。
    • 基于生成AI和LLM的应用程序。
    • 学术界和工业界围绕特定领域中数据的语义模型和LLM吸取的经验教训或/和用例。

提交

提交文件必须使用英语,并遵守CEUR-WS单列模板(参见第2课时:新CEURART风格)。论文应以PDF格式提交给Easy椅子审查过程将是单盲的。请注意,每篇论文必须至少有一位作者注册并参加研讨会,以展示作品,ESWC是100%面对面的会议。

我们将考虑三种不同的提交类型:

  • 完整研究论文(8-12页)应明确说明最新技术,并说明提案在应用领域的贡献,即使提交了初步结果。特别是,研究论文应详细描述该方法,实验应可重复,并鼓励与文献中的现有方法进行比较。
  • 短文(5-7页)应描述正在进行的重要新颖工作。与整篇论文相比,他们的贡献可能在范围上更窄,适用于更窄的应用领域,或者比整篇论文的预期实证支持更弱。鼓励提交可能在法律数据的新领域和新兴领域引发讨论的文件。
  • 职位或行业论文(3-5页)应在研讨会主题中引入新的观点,或总结小组在该领域的经验。
  • 扩展摘要(1-2页)应介绍与研讨会主要范围一致的正在进行的工作。

提交的文件不应超过指定的页数,包括任何图表和参考资料。

每份提交文件将由三名独立评审员根据与研讨会的相关性、新颖性/独创性、重要性、技术质量和正确性、演示的质量和清晰度、参考文献的质量和再现性进行评审。

已接受的论文将在研讨会网站上提供。会议记录将在CEUR-WS卷中发布,并随后在谷歌学者、DBLP和Scopus上编入索引。

登记处

注册和参加研讨会的所有信息都可以在ESWC注册页面.

程序

SemTech4STLD研讨会将于2024年5月26日.

时间安排 内容
14:00 14:05
开幕式和欢迎仪式
14:05 14:50 主题演讲和问答通过NLP和知识图了解科学知识和资源的科学和社会采纳

扬声器:Stefan Dietze博士教授
GESIS–莱布尼茨社会科学研究所和海因里希-海因大学杜塞尔多夫分校

摘要:科学论述分散在非结构化学术出版物中,并且越来越多地发生在网上,例如新闻或社交媒体中。了解特定研究领域的最新技术、涉及的数据、软件或方法及其对科学和社会的影响需要付出大量努力,并且越来越具有挑战性。与此同时,关于冠状病毒或气候变化等主题的社会辩论表明了科学话语对公众舆论、政策和整个社会的影响。本次讲座将概述一系列使用基于深度学习的NLP(如PLM和LLM)构建和使用科学话语知识图的作品。一方面,这些方法包括从科学出版物中提取关于学术实体的元数据,例如代码、数据、任务或机器学习模型,以实现机器可解释的研究信息,并了解学术人工制品之间的依赖性。另一方面,我们引入了NLP方法和知识图,使人们能够理解关于科学的社会论述,例如在Twitter/X上,并促进对社会辩论中科学主张和发现的(错误)表示和信息的跨学科研究。

简短的个人简历Stefan Dietze是海因里希-海因大学杜塞尔多夫分校(HHU)数据与知识工程教授,GESIS-Leibniz社会科学研究所社会科学知识技术系(KTS)科学主任。他还是海涅人工智能与数据科学中心(Heine Center for Artificial Intelligence&Data Science,HeiCAD)的副主任,以及德国汉诺威莱布尼茨大学杜塞尔多夫互联网与民主研究所(Dusseldorf Institute for Internet&Democracy,DIID)和L3S研究中心的附属成员。他的研究兴趣是信息检索、知识图和NLP的交叉点,他的工作涉及知识和数据的提取、融合和搜索,尤其是在Web上。他的作品曾在CIKM、EMNLP、ISWC、SIGIR、NAACL或WebConf等顶级会议上发表,他还经常担任PC和/或组织委员会成员。

14:50 15:30
论文第一部分
论文一:GerPS-NER:支持德国公共服务流程创建的命名实体识别数据集
Leila Feddoul、Sarah T.Bachinger、Clara Lachenmaier、Sebastian Apel、Pirmin Karg、Norman Klewer、Denys Forshayt、Robin Erd和Marianne Mauch,(12分钟+3问答)
论文II:利用自然语言处理和转换实现引文自动放置
大卫·巴斯卡迪、达尼洛·德斯、恩里科·莫塔、马可·穆尔吉亚、弗朗西斯科·奥斯本和迭戈·雷沃基亚托(10分钟+3问答)
论文III:结合知识图和大型语言模型简化软件体系结构研究中的知识访问
安吉丽卡·卡普兰(Angelika Kaplan)、扬·凯姆(Jan Keim)、马可·施奈德(Marco Schneider)、安妮·科齐奥莱克(Anne Koziolek)和拉尔夫·罗伊斯纳(Ralf Reussner)(10分钟+3问答)
15:30 16:00
咖啡休息时间
16:00 16:35
邀请谈话和问答复杂领域智能系统的语义Web和机器学习系统

演讲者: Marta Sabou教授
维也纳经济与商业大学(WU)

摘要:创建对复杂领域数据(如科学、技术和法律领域的数据)进行估价的智能应用程序通常需要结合学习和符号人工智能(AI)方法的解决方案。根据这些发展,在本演讲的第一部分,我们重点描述了人工智能的一个新的子领域,该领域侧重于将机器学习组件与语义网络社区语义网络机器学习(SWeML)开发的技术相结合。我们报告了一项系统绘图研究的结果,在此期间,我们分析了过去十年在该领域发表的近500篇论文,重点评估了此类系统的体系结构和应用特定功能。在谈话的第二部分,我们描述了一个具体的SWeML系统的开发和评估,该系统旨在从奥地利官方许可证中提取关键要素,包括发证机构、相关设施的运营商、参考号和发证日期。我们希望,我们在整个领域(通过对SWeML系统的调查)以及我们构建的具体系统方面所吸取的经验教训,将为从事法律领域内外复杂数据工作的研究人员和从业人员提供灵感。

简短的个人简历:Marta Sabou教授是维也纳经济与商业大学(WU)信息系统和商业工程教授,也是数据、流程和知识管理研究所(DPKM)的所长。她拥有阿姆斯特丹Vrije大学的人工智能博士学位,2006年荣获IEEE智能系统十大关注奖。在她的职业生涯中,她以英国开放大学研究员、维也纳MODUL大学助理教授、西门子语义技术关键专家和维也纳理工大学FWF Elise-Richter研究员的身份从事人工智能(AI)研究。

Sabou教授领导语义系统研究小组,在语义网络、机器学习和人类计算研究领域的交叉点进行基础和应用研究。她的团队的研究主题包括从知识工程(知识图形及其评估、数据集成)到开发结合符号和亚符号人工智能技术的新型智能系统,即神经符号系统。这项基础研究支持积极参与应用研究,开发从旅游和文化遗产到由复杂的网络物理(社会)系统(如智能电网)支持的任务关键领域等应用领域的高级功能(如系统可解释性和可审计性),智能建筑、智能工厂(作为行业4.0-5.0的一部分)。该小组越来越多地讨论数字人文主义领域的主题,例如人工智能系统的审计以及人类利益相关者参与智能系统设计。Sabou教授是一位成就斐然的学者(近150篇同行评议论文,h-index 46),在语义网研究社区中发挥了积极作用,担任两种期刊(SWJ、NAI)的编辑委员会成员和会议组织者。

16:35 17:50
论文会议II
论文一: 使用大型语言模型从web资源中提取许可证信息
恩里科·达加(Enrico Daga)、杰森·卡瓦略(Jason Carvalho)和阿尔巴·卡塔琳娜·莫拉莱斯·蒂拉多(Alba Catalina Morales Tirado)。(12分钟+3问答)
论文II:ChatGPT vs.Google Gemini:使用欧洲搜索报告评估AI专利前艺术搜索前沿
Renukswamy Chikkamath、Ankit Sharma、Christoph Hewel和Markus Endres。(12分钟+3个问答)
论文III:弥合创新鸿沟:通过构建以专利为中心的知识图谱为科学家利用专利信息
Hidir Aras、Rima Dessi、Farag Saad和Lei Zhang。(10分钟+3问答)
论文IV:调查新闻中的环境、社会和治理(ESG)讨论:AI授权的知识图分析
西蒙·安吉奥尼(Simone Angioni)、塞尔吉奥·康索利(Sergio Consoli)、达尼洛·德斯(Danilo Dess)、弗朗西斯科·奥斯本(Francesco Osborne)、迭戈·雷福吉亚托(Diego Reforgiato)。(12分钟+3问答)
论文五:价格:针对非结构化经济数据,利用小范围学习和精细调整的大型语言模型
马特·怀特、德克兰·奥沙利文和Pj Wall。(12分钟+3问答)
17:45 18:00
交割---演示文稿

委员会

研讨会主席

项目委员会

联络

有关研讨会的一般咨询,请发送电子邮件至:semtech4stld24@easychair.org