[JENKINS-27565] Nodes can be removed as idle before the assigned tasks have started

Type: Bug
Resolution: Fixed
Priority: Major
Component/s: core
Labels:
- queue
- slave
- threads

Similar Issues:
Powered by SuggestiMate

Show

Quite a number of different manifestations of this observed by a number of our customers using different cloud providers. In common is the use of a "single-shot" style retention strategy, though the root cause is observable with great care when using any retention strategy other than Always.

The basic issue is that you cannot determine if a node is idle unless you hold the Queue lock as that is the only way to ensure that the Queue is not in the process of assigning work to the node you are removing.

Symptoms include:

Build logs that claim the job was executed on "master" even though the job is tied to a specific label that master does not have. The build log will have been "unable to be determined"

Build logs where the node is gone just as soon as the job starts

2015-03-05 13:27:55.101 Started by upstream project "____" build number ___ 
2015-03-05 13:27:55.102 originally caused by: 
2015-03-05 13:27:55.103 Started by user ____ 
2015-03-05 13:27:55.437 FATAL: no longer a configured node for ____ 
2015-03-05 13:27:55.440 java.lang.IllegalStateException: no longer a configured node for ____ 
2015-03-05 13:27:55.440 at hudson.model.AbstractBuild$AbstractBuildExecution.getCurrentNode(AbstractBuild.java:452) 
2015-03-05 13:27:55.440 at hudson.model.AbstractBuild$AbstractBuildExecution.run(AbstractBuild.java:484) 
2015-03-05 13:27:55.441 at hudson.model.Run.execute(Run.java:1745) 
2015-03-05 13:27:55.441 at hudson.model.Build.run(Build.java:113) 
2015-03-05 13:27:55.441 at hudson.model.ResourceController.execute(ResourceController.java:89) 
2015-03-05 13:27:55.441 at hudson.model.Executor.run(Executor.java:240)

depends on

JENKINS-27700 Node configuration missing after downgrading from 1.607 to 1.606

Resolved

JENKINS-32517 Queue#getApproximateItemsQuickly can cache invalid results

Resolved

is blocking

JENKINS-20046 Massive Jenkins slowdown when jobs in Queue (due to Queue.maintain())

Resolved

JENKINS-27476 Plugin casue deadlock on Jenkins LTS 1.596.1

Closed

is related to

JENKINS-20967 Cloud provisioning called when Jenkins is quieting Down

Open

JENKINS-27708 Concurrent build limits not honored on Jenkins 1.607

Resolved

JENKINS-28690 Deadlock in hudson.model.Executor

Closed

relates to

JENKINS-56403 Renaming jenkins agents persists previously named agent on restart

Resolved

links to

PR 1596

(2 is related to, 1 relates to, 1 links to)

Stephen Connolly created issue - 2015-03-24 14:31

Jesse Glick made changes - 2015-03-24 20:06

Status

Original: Open [ 1 ]

New: In Progress [ 3 ]

Jesse Glick made changes - 2015-03-24 20:06

Remote Link

New: This issue links to "PR 1596 (Web Link)" [ 12179 ]

Jesse Glick made changes - 2015-03-24 20:06

Labels

New: queue slave threads

Jesse Glick made changes - 2015-03-24 21:55

Link

New: This issue is blocking ~~JENKINS-20046~~ [ ~~JENKINS-20046~~ ]

Per Arnold Blaasmo made changes - 2015-03-25 07:20

Link

New: This issue is blocking ~~JENKINS-27476~~ [ ~~JENKINS-27476~~ ]

SCM/JIRA link daemon added a comment - 2015-03-26 03:56

Code changed in jenkins
User: Stephen Connolly
Path:
core/src/main/java/hudson/Functions.java
core/src/main/java/hudson/model/AbstractCIBase.java
core/src/main/java/hudson/model/Computer.java
core/src/main/java/hudson/model/Executor.java
core/src/main/java/hudson/model/Hudson.java
core/src/main/java/hudson/model/Node.java
core/src/main/java/hudson/model/Queue.java
core/src/main/java/hudson/model/ResourceController.java
core/src/main/java/hudson/slaves/AbstractCloudSlave.java
core/src/main/java/hudson/slaves/ComputerRetentionWork.java
core/src/main/java/hudson/slaves/NodeProvisioner.java
core/src/main/java/hudson/slaves/RetentionStrategy.java
core/src/main/java/hudson/slaves/SlaveComputer.java
core/src/main/java/jenkins/model/Jenkins.java
core/src/main/java/jenkins/model/Nodes.java
core/src/main/java/jenkins/util/AtmostOneTaskExecutor.java
core/src/main/resources/hudson/model/Messages.properties
core/src/main/resources/lib/hudson/executors.jelly
core/src/main/resources/lib/layout/layout.jelly
http://jenkins-ci.org/commit/jenkins/92147c3597308bc05e6448ccc41409fcc7c05fd7
Log:
[FIXED JENKINS-27565] Refactor the Queue and Nodes to use a consistent locking strategy

The test system I set up to verify resolution of customer(s)' issues driving this change, required
additional changes in order to fully resolve the issues at hand. As a result I am bundling these
changes:

Moves nodes to being store in separate config files outside of the main config file (improves performance) [FIXED JENKINS-27562]
Makes the Jenkins is loading screen not block on the extensions loading lock [FIXED JENKINS-27563]
Removes race condition rendering the list of executors [FIXED JENKINS-27564] [FIXED JENKINS-15355]
Tidy up the locks that were causing deadlocks with the once retention strategy in durable tasks [FIXED JENKINS-27476]
Remove any requirement from Jenkins Core to lock on the Queue when rendering the Jenkins UI [FIXED-JENKINS-27566]

SCM/JIRA link daemon added a comment - 2015-03-26 03:56 Code changed in jenkins User: Stephen Connolly Path: core/src/main/java/hudson/Functions.java core/src/main/java/hudson/model/AbstractCIBase.java core/src/main/java/hudson/model/Computer.java core/src/main/java/hudson/model/Executor.java core/src/main/java/hudson/model/Hudson.java core/src/main/java/hudson/model/Node.java core/src/main/java/hudson/model/Queue.java core/src/main/java/hudson/model/ResourceController.java core/src/main/java/hudson/slaves/AbstractCloudSlave.java core/src/main/java/hudson/slaves/ComputerRetentionWork.java core/src/main/java/hudson/slaves/NodeProvisioner.java core/src/main/java/hudson/slaves/RetentionStrategy.java core/src/main/java/hudson/slaves/SlaveComputer.java core/src/main/java/jenkins/model/Jenkins.java core/src/main/java/jenkins/model/Nodes.java core/src/main/java/jenkins/util/AtmostOneTaskExecutor.java core/src/main/resources/hudson/model/Messages.properties core/src/main/resources/lib/hudson/executors.jelly core/src/main/resources/lib/layout/layout.jelly http://jenkins-ci.org/commit/jenkins/92147c3597308bc05e6448ccc41409fcc7c05fd7 Log: [FIXED JENKINS-27565] Refactor the Queue and Nodes to use a consistent locking strategy The test system I set up to verify resolution of customer(s)' issues driving this change, required additional changes in order to fully resolve the issues at hand. As a result I am bundling these changes: Moves nodes to being store in separate config files outside of the main config file (improves performance) [FIXED JENKINS-27562] Makes the Jenkins is loading screen not block on the extensions loading lock [FIXED JENKINS-27563] Removes race condition rendering the list of executors [FIXED JENKINS-27564] [FIXED JENKINS-15355] Tidy up the locks that were causing deadlocks with the once retention strategy in durable tasks [FIXED JENKINS-27476] Remove any requirement from Jenkins Core to lock on the Queue when rendering the Jenkins UI [FIXED-JENKINS-27566]

SCM/JIRA link daemon added a comment - 2015-03-26 15:14

Code changed in jenkins
User: Stephen Connolly
Path:
core/src/main/java/hudson/Functions.java
core/src/main/java/hudson/model/AbstractCIBase.java
core/src/main/java/hudson/model/Computer.java
core/src/main/java/hudson/model/Executor.java
core/src/main/java/hudson/model/Hudson.java
core/src/main/java/hudson/model/Node.java
core/src/main/java/hudson/model/Queue.java
core/src/main/java/hudson/model/ResourceController.java
core/src/main/java/hudson/slaves/AbstractCloudSlave.java
core/src/main/java/hudson/slaves/CloudRetentionStrategy.java
core/src/main/java/hudson/slaves/CloudSlaveRetentionStrategy.java
core/src/main/java/hudson/slaves/ComputerRetentionWork.java
core/src/main/java/hudson/slaves/NodeProvisioner.java
core/src/main/java/hudson/slaves/RetentionStrategy.java
core/src/main/java/hudson/slaves/SimpleScheduledRetentionStrategy.java
core/src/main/java/hudson/slaves/SlaveComputer.java
core/src/main/java/jenkins/model/Jenkins.java
core/src/main/java/jenkins/model/Nodes.java
core/src/main/java/jenkins/util/AtmostOneTaskExecutor.java
core/src/main/resources/hudson/model/Messages.properties
core/src/main/resources/lib/hudson/executors.jelly
core/src/main/resources/lib/layout/layout.jelly
test/src/test/groovy/hudson/model/AbstractProjectTest.groovy
test/src/test/java/hudson/model/ExecutorTest.java
test/src/test/java/hudson/model/GetEnvironmentOutsideBuildTest.java
test/src/test/java/hudson/model/QueueTest.java
test/src/test/java/jenkins/model/JenkinsReloadConfigurationTest.java
http://jenkins-ci.org/commit/jenkins/ecac963eaff0608accf950d90d75cff8b66bdc4c
Log:
Merge pull request #1596 from stephenc/threadsafe-node-queue

~~JENKINS-27565~~ Fix threading issues with Nodes and Queue

Compare: https://github.com/jenkinsci/jenkins/compare/1c781526a644...ecac963eaff0

SCM/JIRA link daemon added a comment - 2015-03-26 15:14 Code changed in jenkins User: Stephen Connolly Path: core/src/main/java/hudson/Functions.java core/src/main/java/hudson/model/AbstractCIBase.java core/src/main/java/hudson/model/Computer.java core/src/main/java/hudson/model/Executor.java core/src/main/java/hudson/model/Hudson.java core/src/main/java/hudson/model/Node.java core/src/main/java/hudson/model/Queue.java core/src/main/java/hudson/model/ResourceController.java core/src/main/java/hudson/slaves/AbstractCloudSlave.java core/src/main/java/hudson/slaves/CloudRetentionStrategy.java core/src/main/java/hudson/slaves/CloudSlaveRetentionStrategy.java core/src/main/java/hudson/slaves/ComputerRetentionWork.java core/src/main/java/hudson/slaves/NodeProvisioner.java core/src/main/java/hudson/slaves/RetentionStrategy.java core/src/main/java/hudson/slaves/SimpleScheduledRetentionStrategy.java core/src/main/java/hudson/slaves/SlaveComputer.java core/src/main/java/jenkins/model/Jenkins.java core/src/main/java/jenkins/model/Nodes.java core/src/main/java/jenkins/util/AtmostOneTaskExecutor.java core/src/main/resources/hudson/model/Messages.properties core/src/main/resources/lib/hudson/executors.jelly core/src/main/resources/lib/layout/layout.jelly test/src/test/groovy/hudson/model/AbstractProjectTest.groovy test/src/test/java/hudson/model/ExecutorTest.java test/src/test/java/hudson/model/GetEnvironmentOutsideBuildTest.java test/src/test/java/hudson/model/QueueTest.java test/src/test/java/jenkins/model/JenkinsReloadConfigurationTest.java http://jenkins-ci.org/commit/jenkins/ecac963eaff0608accf950d90d75cff8b66bdc4c Log: Merge pull request #1596 from stephenc/threadsafe-node-queue JENKINS-27565 Fix threading issues with Nodes and Queue Compare: https://github.com/jenkinsci/jenkins/compare/1c781526a644...ecac963eaff0

dogfood added a comment - 2015-03-26 16:13

Integrated in jenkins_main_trunk #4033
[FIXED JENKINS-27565] Refactor the Queue and Nodes to use a consistent locking strategy (Revision 92147c3597308bc05e6448ccc41409fcc7c05fd7)

Result = UNSTABLE
stephen connolly : 92147c3597308bc05e6448ccc41409fcc7c05fd7
Files :

core/src/main/java/hudson/model/Executor.java
core/src/main/java/hudson/slaves/SlaveComputer.java
core/src/main/java/hudson/slaves/AbstractCloudSlave.java
core/src/main/java/hudson/slaves/RetentionStrategy.java
core/src/main/java/jenkins/util/AtmostOneTaskExecutor.java
core/src/main/java/hudson/model/Queue.java
core/src/main/resources/lib/hudson/executors.jelly
core/src/main/java/hudson/Functions.java
core/src/main/java/hudson/model/Node.java
core/src/main/java/hudson/model/ResourceController.java
core/src/main/java/hudson/model/AbstractCIBase.java
core/src/main/java/jenkins/model/Jenkins.java
core/src/main/resources/hudson/model/Messages.properties
core/src/main/java/hudson/model/Computer.java
core/src/main/java/hudson/slaves/ComputerRetentionWork.java
core/src/main/java/hudson/slaves/NodeProvisioner.java
core/src/main/java/jenkins/model/Nodes.java
core/src/main/resources/lib/layout/layout.jelly
core/src/main/java/hudson/model/Hudson.java

dogfood added a comment - 2015-03-26 16:13 Integrated in jenkins_main_trunk #4033 [FIXED JENKINS-27565] Refactor the Queue and Nodes to use a consistent locking strategy (Revision 92147c3597308bc05e6448ccc41409fcc7c05fd7) Result = UNSTABLE stephen connolly : 92147c3597308bc05e6448ccc41409fcc7c05fd7 Files : core/src/main/java/hudson/model/Executor.java core/src/main/java/hudson/slaves/SlaveComputer.java core/src/main/java/hudson/slaves/AbstractCloudSlave.java core/src/main/java/hudson/slaves/RetentionStrategy.java core/src/main/java/jenkins/util/AtmostOneTaskExecutor.java core/src/main/java/hudson/model/Queue.java core/src/main/resources/lib/hudson/executors.jelly core/src/main/java/hudson/Functions.java core/src/main/java/hudson/model/Node.java core/src/main/java/hudson/model/ResourceController.java core/src/main/java/hudson/model/AbstractCIBase.java core/src/main/java/jenkins/model/Jenkins.java core/src/main/resources/hudson/model/Messages.properties core/src/main/java/hudson/model/Computer.java core/src/main/java/hudson/slaves/ComputerRetentionWork.java core/src/main/java/hudson/slaves/NodeProvisioner.java core/src/main/java/jenkins/model/Nodes.java core/src/main/resources/lib/layout/layout.jelly core/src/main/java/hudson/model/Hudson.java

Jesse Glick added a comment - 2015-03-26 19:04

I think this can be closed as Fixed now, right?

Jesse Glick added a comment - 2015-03-26 19:04 I think this can be closed as Fixed now, right?

Assignee:: Stephen Connolly

Reporter:: Stephen Connolly

Votes:: 0 Vote for this issue

Watchers:: 7 Start watching this issue

Created:: 2015-03-24 14:31

Updated:: 2019-09-18 10:13

Resolved:: 2015-03-26 21:04

Jenkins

Details

Description

Attachments

Issue Links

Activity

Collapse comment: SCM/JIRA link daemon added a comment - 2015-03-26 03:56

Expand comment: SCM/JIRA link daemon added a comment - 2015-03-26 03:56

Collapse comment: SCM/JIRA link daemon added a comment - 2015-03-26 15:14

Expand comment: SCM/JIRA link daemon added a comment - 2015-03-26 15:14

Collapse comment: dogfood added a comment - 2015-03-26 16:13

Expand comment: dogfood added a comment - 2015-03-26 16:13

Collapse comment: Jesse Glick added a comment - 2015-03-26 19:04

Expand comment: Jesse Glick added a comment - 2015-03-26 19:04

People

Dates