Drift temporal em IA radiológica

hub/textos/drift-temporal-em-ia-radiologica.md

# Drift temporal em IA radiológica

> Um modelo de IA em radiologia pode continuar tecnicamente igual e, ainda assim, piorar, porque o ambiente clínico, técnico e operacional ao redor dele muda.

Publicado em 20 de maio de 2026

Um modelo de IA em radiologia pode continuar igual e, ainda assim, ficar pior.

Não porque o código mudou.

Mas porque a radiologia mudou em volta dele.

Esse é um ponto pouco discutido quando se fala em validação de IA médica. Muitas vezes, validação é tratada como um evento: treina-se o modelo, testa-se em uma base, mede-se performance e decide-se se ele passa ou não passa.

Essa lógica é insuficiente para um ambiente clínico real.

Em radiologia, o mundo que produz os dados não fica parado.

## O modelo permanece, o ambiente muda

Um modelo pode ter sido validado em um determinado contexto e, meses depois, começar a receber dados diferentes.

Isso pode acontecer por mudanças aparentemente pequenas:

- scanner novo;

- protocolo ajustado;

- reconstrução diferente;

- mudança no perfil dos pacientes;

- mudança na prevalência das doenças;

- nova técnica terapêutica;

- novo critério diagnóstico;

- mudança no padrão de laudo;

- alteração no fluxo de aquisição;

- troca de equipe, serviço ou população atendida.

Nada disso exige que o modelo tenha sido quebrado.

Ele pode simplesmente ter envelhecido.

Esse é o problema do drift temporal.

O alvo clínico, técnico ou operacional que o modelo aprendeu deixa de ser exatamente o mesmo.

Na literatura de IA clínica, esse problema costuma aparecer dentro da discussão mais ampla de dataset shift: a relação entre dados, contexto e desfecho muda entre o ambiente de desenvolvimento e o ambiente de uso. Finlayson, Subbaswamy e colaboradores chamaram atenção para esse ponto em medicina: modelos podem falhar não apenas por arquitetura ruim, mas porque o mundo clínico que encontram depois da implantação não é o mesmo mundo que viram durante o treinamento.

## Dados radiológicos não são apenas pixels

Essa discussão é especialmente importante em radiologia porque os dados não são apenas pixels.

Uma imagem radiológica carrega protocolo, equipamento, indicação clínica, prevalência local, perfil populacional, linguagem médica, rotina operacional e contexto institucional.

Um exame de tórax não é só uma matriz de intensidade.

Ele é também resultado de uma forma de solicitar, adquirir, posicionar, reconstruir, comprimir, arquivar, interpretar e reportar.

Quando qualquer parte desse sistema muda, a distribuição dos dados pode mudar junto.

Às vezes a mudança é óbvia.

Um novo protocolo de reconstrução altera textura, ruído e contraste.

Às vezes a mudança é menos visível.

Uma nova linha de cuidado muda a prevalência de determinados achados. Uma nova técnica terapêutica muda a aparência pós-tratamento. Um novo hábito de laudo muda o modo como rótulos são registrados. Um novo fluxo operacional muda o momento em que certos exames chegam à fila.

Para o radiologista, muitas dessas mudanças são incorporadas como contexto.

Para o modelo, elas podem aparecer como deslocamento estatístico.

## O exemplo clássico: o modelo aprende o hospital

Um dos estudos mais úteis para entender esse risco em imagem médica é o trabalho de Zech et al. sobre detecção de pneumonia em radiografias de tórax.

O ponto central não é apenas que um modelo pode performar diferente em hospitais diferentes.

O ponto mais incômodo é que parte da performance pode depender de pistas do próprio ambiente de origem: prevalência local, padrão de aquisição, processamento da imagem, fluxo assistencial e características institucionais.

O modelo parece aprender pneumonia.

Mas pode aprender também o contexto em que pneumonia costuma aparecer naquele dataset.

Esse tipo de problema é especialmente relevante quando modelos são treinados em bases grandes, mas pouco representativas do ambiente onde serão usados. Tamanho de dataset não elimina viés de contexto. Às vezes apenas torna o viés mais difícil de enxergar.

## Validação como processo, não como carimbo

Por isso, a pergunta correta não é apenas:

“o modelo foi validado?”

A pergunta mais importante é:

“ele continua válido neste serviço, neste protocolo, nesta população e neste momento?”

Essa diferença parece pequena, mas muda a governança inteira.

Se validação é um carimbo, o trabalho termina na aprovação inicial.

Se validação é um processo, o trabalho começa na implantação.

100

101

Depois da implantação, passa a ser necessário monitorar desempenho, discordâncias, falsos negativos, falsos positivos, subgrupos, mudanças de protocolo, mudanças de equipamento e mudanças de população.

102

103

Também passa a ser necessário decidir o que fazer quando o modelo começa a se afastar do mundo que deveria representar.

104

105

Recalibrar?

106

107

Retreinar?

108

109

Reduzir escopo?

110

111

Suspender uso em determinado protocolo?

112

113

Exigir segunda leitura humana em subgrupo específico?

114

115

Essas perguntas são operacionais, não apenas estatísticas.

116

117

É por isso que diretrizes e discussões regulatórias recentes passaram a tratar monitoramento, atualização e controle de mudanças como parte do ciclo de vida de IA médica. Os princípios de Good Machine Learning Practice da FDA, Health Canada e MHRA incluem atenção a representatividade, avaliação de performance, monitoramento e gestão de risco ao longo do ciclo de vida. A própria discussão regulatória sobre Predetermined Change Control Plans parte do reconhecimento de que modelos podem precisar mudar depois da autorização inicial.

118

119

## O risco do drift silencioso

120

121

O drift mais perigoso não é necessariamente o que derruba a performance de forma evidente.

122

123

É o drift silencioso.

124

125

O modelo continua entregando respostas plausíveis. O usuário continua confiando. O dashboard agregado continua aceitável. Mas determinados subgrupos, protocolos ou cenários começam a degradar.

126

127

Esse tipo de falha é difícil porque pode não aparecer na média.

128

129

Pode estar concentrado em um equipamento específico.

130

131

Em uma população específica.

132

133

Em uma indicação clínica específica.

134

135

Em uma mudança de protocolo aparentemente menor.

136

137

Em radiologia, isso importa muito. O erro operacionalmente mais perigoso nem sempre é o erro frequente. Às vezes é o erro raro, sistemático e pouco visível.

138

139

Por isso, validação externa é necessária, mas não basta. Ela responde se o modelo funcionou em outro conjunto de dados em determinado momento. Não responde, sozinha, se o modelo continuará funcionando depois que o serviço mudar.

140

141

## Temporal não quer dizer apenas calendário

142

143

O termo drift temporal pode dar a impressão de que o problema é simplesmente passagem do tempo.

144

145

Não é.

146

147

O tempo importa porque, ao longo dele, mudam protocolos, equipamentos, populações, tratamentos, critérios diagnósticos, linguagem de laudo e decisões operacionais.

148

149

O relógio não degrada o modelo.

150

151

O sistema muda enquanto o modelo permanece fixo.

152

153

Em saúde, isso é particularmente relevante porque a prática clínica é adaptativa. Novas terapias mudam história natural. Novas diretrizes mudam indicação. Novos fluxos mudam quem chega ao exame, quando chega e com qual probabilidade pré-teste.

154

155

O modelo não precisa envelhecer tecnicamente para ficar clinicamente desalinhado.

156

157

## O vínculo com expertise humana

158

159

Esse ponto se conecta ao paradoxo da automação.

160

161

Se um modelo precisa ser monitorado ao longo do tempo, alguém precisa saber o que monitorar.

162

163

Não basta medir se a saída do modelo continua parecida com a saída anterior.

164

165

É preciso perguntar se a saída continua clinicamente adequada diante de um ambiente que mudou.

166

167

Isso exige radiologistas capazes de reconhecer mudança de protocolo, mudança de padrão de doença, mudança de artefato, mudança de linguagem e mudança de fluxo.

168

169

Em outras palavras: a IA não elimina a necessidade de expertise radiológica. Ela desloca parte dessa expertise para auditoria, curadoria e governança contínua.

170

171

Se essa camada humana enfraquece, o sistema perde justamente a capacidade de perceber quando o modelo envelheceu.

172

173

## Consequência prática

174

175

IA em radiologia não deveria ser tratada como equipamento instalado uma vez e esquecido.

176

177

Deveria ser tratada como sistema clínico-operacional vivo.

178

179

Com monitoramento.

180

181

Com auditoria.

182

183

Com revalidação.

184

185

Com atenção ao que muda ao redor dela.

186

187

Isso não significa transformar todo serviço em laboratório acadêmico.

188

189

Significa criar perguntas operacionais mínimas:

190

191

- o mix de exames mudou?

192

- algum protocolo relevante mudou?

193

- houve troca de equipamento ou reconstrução?

194

- a população atendida mudou?

195

- a taxa de discordância mudou?

196

- os falsos negativos se concentram em algum subgrupo?

197

- o modelo está performando pior em algum scanner, protocolo ou unidade?

198

- o uso do modelo mudou o comportamento dos radiologistas?

199

- o modelo continua sendo usado dentro do escopo em que foi validado?

200

201

Essas perguntas parecem simples.

202

203

Mas sem elas, a implantação vira confiança acumulada em cima de um ambiente que pode ter deixado de existir.

204

205

## Síntese

206

207

Drift temporal não é apenas um problema técnico de machine learning.

208

209

Em radiologia, é um problema de governança clínica.

210

211

Validar um modelo uma vez pode ser necessário.

212

213

Mas não é suficiente.

214

215

O ponto crítico é manter uma pergunta aberta depois da implantação:

216

217

este modelo ainda está vendo o mesmo problema que foi treinado e validado para ver?

218

219

Porque o modelo pode continuar igual.

220

221

Mas o serviço pode mudar.

222

223

O protocolo pode mudar.

224

225

A população pode mudar.

226

227

A linguagem pode mudar.

228

229

A doença pode mudar.

230

231

E, justamente por isso, o modelo pode deixar de enxergar o mesmo mundo.

232

233

## Fontes e premissas

234

235

- Finlayson, S. G.; Subbaswamy, A.; Singh, K. et al. “The Clinician and Dataset Shift in Artificial Intelligence”. New England Journal of Medicine, 2021. https://doi.org/10.1056/NEJMc2104626

236

- Subbaswamy, A.; Saria, S. “From development to deployment: dataset shift, causality, and shift-stable models in health AI”. Biostatistics, 2020. https://doi.org/10.1093/biostatistics/kxz041

237

- Zech, J. R. et al. “Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study”. PLOS Medicine, 2018. https://doi.org/10.1371/journal.pmed.1002683

238

- Kelly, C. J. et al. “Key challenges for delivering clinical impact with artificial intelligence”. BMC Medicine, 2019. https://doi.org/10.1186/s12916-019-1426-2

239

- Vasey, B. et al. “DECIDE-AI: new reporting guidelines to bridge the development-to-implementation gap in clinical artificial intelligence”. Nature Medicine, 2022. https://doi.org/10.1038/s41591-021-01685-2

240

- FDA, Health Canada e MHRA. “Good Machine Learning Practice for Medical Device Development: Guiding Principles”, 2021. https://www.fda.gov/medical-devices/software-medical-device-samd/good-machine-learning-practice-medical-device-development-guiding-principles

241

- FDA. “Marketing Submission Recommendations for a Predetermined Change Control Plan for Artificial Intelligence-Enabled Device Software Functions”, 2025. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/marketing-submission-recommendations-predetermined-change-control-plan-artificial