@第{deng2020turl条, title={TURL:通过表示学习的表格理解}, author={邓、翔和孙、欢和李、艾丽莎和吴、游和余、聪}, journal={VLDB捐赠会议记录}, 体积={14}, 数字={3}, 页面={307-319}, 年份={2020年}, publisher={VLDB捐赠} }
“_id”:“27289759-6”,#表id “pgTitle”:“2010桑托斯足球俱乐部赛季”,#page title 'sectionTitle':'Out',#section title “tableCaption”:“”,#table caption “pgId”:27289759,#wikipedia页面id 'tableId':6,#维基百科页面中的表索引 “tableData”:[[{“text”:“DF”,#cell value “surfaceLinks”:[{“surfacte”:“DF”, “locType”:“MAIN_TABLE”, “目标”:{“id”:649702, “语言”:“en”, “title”:“Defender_(association_football)”}, “linkType”:“INTERNAL”}]#单元格中的URL }#每个单元格一个,…] ...] “tableHeaders”:[[“Pos.”,“Name”,“Moving to”,“Type”,“Source”]],#行标题 “processed_tableHeaders”:[“pos.”,“name”,“moving to”,“type”,“source”],#将使用的已处理头 “merged_row”:[],#合并行,我们通过比较单元格值来识别它们 “实体单元格”:[[1,1,1,0,0],…],# 该单元格是否为实体单元格,通过检查其中的url获取 “entityColumn”:[0,1,2],#该列是否为实体列 “column_type”:[0,0,0,4,2],#更精细的调试列类型,这里我们只使用0:entity列 “唯一”:[0.16,1.0,0.75,0,0],#该列中唯一实体的比率 'entity_count':72,#表中的实体总数 'subject_column':1#主题列的列索引
“23235546-1”,#表id “Ivan Lendl职业统计”,#页面标题 “单打:19场决赛(8次夺冠,11次助跑)”,#section title “”,#caption ['outcome','year',…],#headers(输出) [[0,4],‘比约恩·博格’,[[9,2],‘温布尔登’,…],# 单元格,[索引,实体提及(单元格文本)] [['Björn Borg','瑞典网球运动员',[]],['Björn Borg','瑞士游泳运动员',[游泳运动员]],…],# 候选实体,这是所有单元格的合并集。 [实体名称、实体描述、实体类型] [0,12,…]#标签,这是候选实体中黄金实体的索引 [[0,1,…],[11,12,13,…],…]# 每个单元格的候选者
“27295818-29”,#表id “2010–11名流浪者f.c.赛季”,#页面标题 27295818,#维基百科页面id “总体”,#节标题 “”,#caption ['competition','started round','final position/round'],#标题 [[[0,0],[26980923,‘苏格兰超级联赛’]], [1,0],[18255941,“欧洲冠军联赛”]], ...], ..., [[1,2],[18255941,‘集团阶段’]], [2,2],[20795986,‘第16轮’]], …]],#单元格,[索引,[实体id,实体提及(单元格文本)]] [['time.event']。。。, ['time.event']]#列类型注释,一个列可以有多个类型。