Orchestrator RestartReplicationQuick fails with Error 1065 (query was empty)

General

Escalation

General

Escalation

Description

If Orchestrator host can't access Source database, and the Replica is lagging behind, it will call runEmergentOperations, case UnreachableMasterWithLaggingReplicas, and finally will fail when calling RestartReplicationQuick with the following error:

2024-10-23 00:09:05 DEBUG analysis: ClusterName: node1:3306, IsMaster: true, LastCheckValid: false, LastCheckPartialSuccess: false, CountReplicas: 1, CountValidReplicas: 1, CountValidReplicatingReplicas: 1, CountLaggingReplicas: 1, CountDelayedReplicas: 0, CountReplicasFailingToConnectToMaster: 0
2024-10-23 00:09:05 INFO executeCheckAndRecoverFunction: proceeding with UnreachableMasterWithLaggingReplicas detection on node1:3306; isActionable?: false; skipProcesses: false
2024-10-23 00:09:05 INFO checkAndExecuteFailureDetectionProcesses: could not register UnreachableMasterWithLaggingReplicas detection on node1:3306
2024-10-23 00:09:05 INFO executeCheckAndRecoverFunction: proceeding with UnreachableMasterWithLaggingReplicas recovery on node1:3306; isRecoverable?: false; skipProcesses: false
2024-10-23 00:09:05 ERROR ExecNoPrepare(default:3306) : Error 1065 (42000): Query was empty
2024-10-23 00:09:05 ERROR default:3306: RestartReplicationQuick: '""' failed: Error 1065 (42000): Query was empty
2024-10-23 00:09:05 INFO auditType:emergently-restart-replication-topology-instance instance:default:3306 cluster:node1:3306 message:UnreachableMasterWithLaggingReplicas

How to repeat:

Deploy latest Percona Orchestrator

./anydbver update
./anydbver deploy ps:8.0 node1 ps:8.0,master=node0 node2 ps:8.0,master=node1 node3 percona-orchestrator:latest,master=node0

You can set the Orchestrator option ReplicationLagQuery to produce lag artificially:

$ rpm -qa | grep -i orc
percona-orchestrator-client-3.2.6-14.el8.x86_64
percona-orchestrator-3.2.6-14.el8.x86_64
percona-orchestrator-cli-3.2.6-14.el8.x86_64

  "ReplicationLagQuery": "SELECT /*+ MAX_EXECUTION_TIME(3000) */ slave_lag_seconds FROM test.status",

On Source create the status table:

CREATE DATABASE test;
USE test;
CREATE TABLE status ( slave_lag_seconds int DEFAULT NULL );
INSERT INTO status values (2000);

On Source, prevent Orchestrator node from connecting the server:

$ yum install iptables-services
$ systemctl start iptables
$ iptables -I FORWARD -s <orchestrator-host-ip> -j REJECT

I also tested using percona-orchestrator-3.2.6-13.el8.x86_64.rpm package and I don't see this issue.

Environment

None

AFFECTED CS IDs

CS0050200

Linked issues

relates to

DISTMYSQL-466

RestartReplicationQuick called even from Orchestrator cluster where recovery has been globally disabled

Activity

Show:

Kamil Holubicki November 8, 2024 at 9:05 AM

Will be fixed by DISTMYSQL-466

Done

Details
Assignee
Kamil Holubicki
Reporter
Juan Arruti
Labels
cs-tag-004
Planned Version/s
8.0.40(PS)
8.4.3(PS)
Needs QA
No
Components
Orchestrator
Sprint
None
Affects versions
8.0.39(PS)
Priority
Medium

Smart Checklist

Created October 23, 2024 at 12:41 AM

Updated January 14, 2025 at 10:17 AM

Resolved November 8, 2024 at 9:05 AM

Configure

Orchestrator RestartReplicationQuick fails with Error 1065 (query was empty)

Description

Environment

AFFECTED CS IDs

Linked issues

relates to

Activity

Kamil Holubicki November 8, 2024 at 9:05 AM

Details
Assignee
Kamil Holubicki
Reporter
Juan Arruti
Labels
cs-tag-004
Planned Version/s
8.0.40(PS)
8.4.3(PS)
Needs QA
No
Components
Orchestrator
Sprint
None
Affects versions
8.0.39(PS)
Priority
Medium

Details

Assignee

Reporter

Labels

Planned Version/s

Needs QA

Components

Sprint

Affects versions

Priority

Smart Checklist

Smart Checklist

Flag notifications

Something's gone wrong

Something's gone wrong

Orchestrator RestartReplicationQuick fails with Error 1065 (query was empty)

Description

Environment

AFFECTED CS IDs

Linked issues

relates to

Activity

Kamil Holubicki November 8, 2024 at 9:05 AM

DetailsAssigneeKamil HolubickiKamil HolubickiReporterJuan ArrutiJuan ArrutiLabelscs-tag-004Planned Version/s8.0.40(PS)8.4.3(PS)Needs QANoComponentsOrchestratorSprintNone+1Affects versions8.0.39(PS)PriorityMedium

Details

Assignee

Reporter

Labels

Planned Version/s

Needs QA

Components

Sprint

Affects versions

Priority

Smart ChecklistOpen Smart Checklist

Smart Checklist

Flag notifications

Something's gone wrong

Something's gone wrong

Details
Assignee
Kamil Holubicki
Reporter
Juan Arruti
Labels
cs-tag-004
Planned Version/s
8.0.40(PS)
8.4.3(PS)
Needs QA
No
Components
Orchestrator
Sprint
None
Affects versions
8.0.39(PS)
Priority
Medium

Smart Checklist