Azure Databricks上的安装#

本教程将解释如何在Azure Spark中加载数据集集群,并使用Azure Databricks中的Python笔记本与之交互。

前期工作#

确保您有:

  • 熟悉了Azure Databricks入门指南

  • 将数据集以Parquet格式上传到Azure(最高效的地方上传它是一个Azure Data Lake存储第2代容器)。

  • 在Databricks界面中创建了一个Spark集群,并附加了一个Python记在笔记本上。

  • 在笔记本中设置OAuth凭据,以便您的镶木地板文件如前所述,可从笔记本访问在这里.

要确保已完成所有初步步骤,请运行以下命令笔记本中的命令:

数据集路径 = 'abfss://YOUR_CONTAINER(你的容器)@YOUR_ACCOUNT.dfs.core.windows.net/PARQUET_FILES_PATH'
数据库实用程序.英尺.最小二乘法(数据集路径)

您应该会看到这样的输出:

[文件信息(路径='abfss://…/swh/content/', 名称='内容/', 大小=0),
 文件信息(路径='abfss://…/swh/目录/', 名称='目录/', 大小=0),
 ...]

加载表格#

我们需要在Spark:

定义 寄存器表(桌子):
  abfs_路径 = 数据集路径 + '/' + 桌子
  数据流 = 火花.阅读.镶木地板(abfss路径)
  打印(“将DataFrame注册为SQL临时视图:{}(路径:{})"
        .格式(桌子, abfss路径))
  数据流.创建或替换临时视图(表格名称)

桌子 = [
  '内容',
  '目录',
  '目录条目',
  '来源',
  '原始访问',
  '原始访问状态',
  “释放”,
  '修订',
  '修订历史',
  '跳过内容',
  '快照',
  '快照分支',
]

对于 桌子 在里面 桌子:
  寄存器表(桌子)

正在运行查询#

现在可以在表上执行PySpark方法:

数据流 = 火花.sql语言(“从原点限制10中选择id”)
显示(数据流)

也可以使用%sql语言笔记本中的魔术命令直接预览SQL结果:

%sql语言
选择 身份证件  起源 限制 10