Azure Databricks上的安装
本教程将解释如何在Azure Spark中加载数据集集群,并使用Azure Databricks中的Python笔记本与之交互。
前期工作
确保您有:
要确保已完成所有初步步骤,请运行以下命令笔记本中的命令:
数据集路径 = 'abfss://YOUR_CONTAINER(你的容器)@YOUR_ACCOUNT.dfs.core.windows.net/PARQUET_FILES_PATH'
数据库实用程序.英尺.最小二乘法(数据集路径)
您应该会看到这样的输出:
[文件信息(路径='abfss://…/swh/content/', 名称='内容/', 大小=0),
文件信息(路径='abfss://…/swh/目录/', 名称='目录/', 大小=0),
...]
加载表格
我们需要在Spark:
定义 寄存器表(桌子):
abfs_路径 = 数据集路径 + '/' + 桌子
数据流 = 火花.阅读.镶木地板(abfss路径)
打印(“将DataFrame注册为SQL临时视图:{}(路径:{})"
.格式(桌子, abfss路径))
数据流.创建或替换临时视图(表格名称)
桌子 = [
'内容',
'目录',
'目录条目',
'来源',
'原始访问',
'原始访问状态',
“释放”,
'修订',
'修订历史',
'跳过内容',
'快照',
'快照分支',
]
对于 桌子 在里面 桌子:
寄存器表(桌子)
正在运行查询
现在可以在表上执行PySpark方法:
数据流 = 火花.sql语言(“从原点限制10中选择id”)
显示(数据流)
也可以使用%sql语言
笔记本中的魔术命令直接预览SQL结果:
%sql语言
选择 身份证件 从 起源 限制 10