跳到主要内容
154问题
筛选依据
排序依据
标记为
0 投票
0 答案
23 意见

dataproc群集启动失败

我无法在给定的vpc/子网中的计算引擎上创建dataproc集群。即使上述vpc中存在防火墙规则。防火墙规则初始化失败。正在启用诊断模式com.google。。。。
L.Arriola的用户头像
1 投票
0 答案
32 意见

SecretManagerClient.create()引发NoSuchMethodError io.grpc。MethodDescriptor$Marshaller在Dataproc批处理上使用Scala

我正在试着阅读谷歌秘书长的文章。我在带有SBT的dataproc上将scala/spark部署为Fat JAR。当我打电话时:val客户端:SecretManagerServiceClient=SecretManager服务客户端.create()我。。。
阿诺的用户头像
  • 101
-1 投票
1 回答
40 意见

在spark集群中运行普通java非驻留应用程序

我想运行/执行一个连接到teradata数据库的普通java应用程序。我想在spark集群中运行这个java应用程序,尽管我的java应用程序是非停驻的。问题如下是。。。
ironfreak的用户头像
  • 37
0 投票
2 答案
40 意见

是否有方法通过Airflow DataprocCreateBatchOperator方法传递数据处理版本?

我刚刚遇到一个问题,dataproc的默认版本升级了,并中断了我的作业,该作业是使用DataprocCreateBatchOperator方法通过气流提交的。task2=。。。
Velo的用户头像
  • 65
0 投票
1 回答
49 意见

ModuleNotFoundError:在Google Cloud Dataproc上提交PySpark作业时,没有名为“minio”的模块

当我试图向Google Cloud Dataproc提交PySpark作业时,我遇到了一个问题。目标是在使用minio模块的Dataproc集群上运行脚本。然而,我不断地遇到。。。
米基·坦的用户头像
0 投票
0 答案
20 意见

Dataproc:无法按存档路径找到环境属性

我提交的数据处理作业如下:gcloud dataproc作业提交pyspark\gs://个人/test/file1.py\--py-files文件gs://persopnal/test/file1.py,gs://peropnal/test/file2.py\--罐子$jar\--档案。。。
编码SnowBall的用户头像
0 投票
0 答案
15 意见

无法在dataproc、spark.read中将ssl文件路径作为URL发送

我使用JDBC通过Dataproc/Pyspark连接到DB2。由于它使用安全端口,因此需要一些SSL信息作为URL的一部分:格式如下:jdbc:db2://IP_Addr:PORT/DB:sslConnection=。。。
Ayush Jha的用户头像
0 投票
1 回答
36 意见

在GCP Dataproc集群中创建组件网关查看器(CGV)的行为不同

关于GCP Dataproc集群中组件网关查看器(CGV)的创建,我有一个奇怪的上下文。我通过Terraform创建Dataproc集群和CGV,如下所述:#群集是。。。
用户3103957的用户头像
1 投票
0 答案
105 意见

对我的Apache Iceberg BigLake表正确设置Spark会话(Dataproc)的问题

我已经根据以下文档成功地使用BigLake Metastore设置了Iceberg表:https://cloud.google.com/bigquery/docs/冰山表一切正常,我可以看到冰山桌。。。
柳隼的用户头像
1 投票
0 答案
50 意见

在计算引擎中使用DataProc读取和写入大表导致找不到键

我正在尝试使用DataProc计算引擎在云BigTable中读取和写入数据,并使用spark-BigTable-connector在PySpark作业中读取和编写数据。我从spark-bigtable回购中得到了一个例子。。。
Suga Raj的用户头像
0 投票
0 答案
46 意见

GCP数据处理群集创建警告

嘿,伙计们,我是云和GCP的新手。使用GCP cli创建数据进程群集时遇到此警告消息。我已经为Dataproc设置了防火墙规则。然而得到这个。。。
Dhananjay R Hunasgi的用户头像
0 投票
1 回答
88 意见

扫描中间完成的dir-dataproc spark作业时出错

我们的火花聚合作业需要大量的执行时间才能完成。它应该在5分钟内完成,但需要30到40分钟才能完成。dataproc集群日志显示正在尝试扫描。。。
vikrant rana的用户头像
  • 4,567
1 投票
0 答案
44 意见

dataproc ERROR ClusterManager:无法初始化群集节点

我在Dataproc中创建了一个包含1个主节点和5个工作节点的集群。当我运行PySpark作业时,会出现此错误,错误ClusterManager:无法初始化群集节点currentNodeIndex=空我。。。
Elias的用户头像
0 投票
1 回答
113 意见

在BigQuery的dbt中运行python时设置Spark配置

在GCP(BigQuery)中的python dbt模型的概念验证方面取得了一些进展。为Spark构建了一个dataproc集群并能够执行模型,但我在模型中遇到了一个错误。。。
Bo Bucklen的用户头像
0 投票
0 答案
34 意见

优化我的spark dataproc集群作业

下面是我处理大约50GB数据的dataproc作业日志日志:驱动程序与执行程序花费的时间驾驶员时钟时间129m 50s 80.96%执行人时钟时间30米32秒19.04%...
Karan Kumar Gupta的用户头像

15 30 50 每页
1
2 4 5
11