Python社区  »  zookeeper

作业管理器未恢复ZooKeeper检查点

Edmond Gam Ze Letova • 2 年前 • 402 次点击  

我们在K8S环境中部署了Flink作业集群(1个作业管理器和1个任务管理器),并将其配置为HA模式(连接到ZooKeeper)。作业是有状态的,检查点是使用rocksdb后端启用的。问题是,任务管理器重新启动是从上一个检查点正确恢复的,但作业管理器重新启动不是:

[flink-akka.actor.default-dispatcher-5]recover: 2018-11-27 11:23:26,531 INFO  o.a.f.r.c.ZooKeeperCompletedCheckpointStore Recovering checkpoints from ZooKeeper.
[flink-akka.actor.default-dispatcher-5]recover: 2018-11-27 11:23:26,596 INFO  o.a.f.r.c.ZooKeeperCompletedCheckpointStore Found 0 checkpoints in ZooKeeper.
[flink-akka.actor.default-dispatcher-5]recover: 2018-11-27 11:23:26,597 INFO  o.a.f.r.c.ZooKeeperCompletedCheckpointStore Trying to fetch 0 checkpoints from storage.

检查点一直存在于Google云存储和ZooKeeper。

中的相关属性 flink-conf.yaml :

metrics.reporters: prom
metrics.reporter.prom.class: org.apache.flink.metrics.prometheus.PrometheusReporter
high-availability: zookeeper
high-availability.zookeeper.quorum: our-k8s-zookeeper-service:2181
high-availability.zookeeper.path.root: /flink
high-availability.cluster-id: /service_cluster
high-availability.storageDir: gs://our-flink-bucket/namespace/service/ha
high-availability.jobmanager.port: 6123
state.backend.fs.memory-threshold: 0
state.checkpoints.dir: gs://our-flink-bucket/namespace/service/checkpoints

我们这里缺少什么?

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/30896
 
402 次点击  
分享到微博
文章 [ 1 ]  |  最新文章 2 年前
Edmond Gam Ze Letova
Reply   •   1 楼
Edmond Gam Ze Letova    1 年前

最后我们发现了问题,似乎是由Flink 1.6.1中的一个bug引起的。( this one )

升级到1.6.2解决了问题。