hub/textos/drift-temporal-em-ia-radiologica.md
1
<!-- ensaios / artigo -->
2
# Drift temporal em IA radiológica
3
 
4
> Um modelo de IA em radiologia pode continuar tecnicamente igual e, ainda assim, piorar, porque o ambiente clínico, técnico e operacional ao redor dele muda.
5
 
6
Publicado em 20 de maio de 2026
7
 
8
Um modelo de IA em radiologia pode continuar igual e, ainda assim, ficar pior.
9
 
10
Não porque o código mudou.
11
 
12
Mas porque a radiologia mudou em volta dele.
13
 
14
Esse é um ponto pouco discutido quando se fala em validação de IA médica. Muitas vezes, validação é tratada como um evento: treina-se o modelo, testa-se em uma base, mede-se performance e decide-se se ele passa ou não passa.
15
 
16
Essa lógica é insuficiente para um ambiente clínico real.
17
 
18
Em radiologia, o mundo que produz os dados não fica parado.
19
 
20
## O modelo permanece, o ambiente muda
21
 
22
Um modelo pode ter sido validado em um determinado contexto e, meses depois, começar a receber dados diferentes.
23
 
24
Isso pode acontecer por mudanças aparentemente pequenas:
25
 
26
- scanner novo;
27
- protocolo ajustado;
28
- reconstrução diferente;
29
- mudança no perfil dos pacientes;
30
- mudança na prevalência das doenças;
31
- nova técnica terapêutica;
32
- novo critério diagnóstico;
33
- mudança no padrão de laudo;
34
- alteração no fluxo de aquisição;
35
- troca de equipe, serviço ou população atendida.
36
 
37
Nada disso exige que o modelo tenha sido quebrado.
38
 
39
Ele pode simplesmente ter envelhecido.
40
 
41
Esse é o problema do drift temporal.
42
 
43
O alvo clínico, técnico ou operacional que o modelo aprendeu deixa de ser exatamente o mesmo.
44
 
45
Na literatura de IA clínica, esse problema costuma aparecer dentro da discussão mais ampla de dataset shift: a relação entre dados, contexto e desfecho muda entre o ambiente de desenvolvimento e o ambiente de uso. Finlayson, Subbaswamy e colaboradores chamaram atenção para esse ponto em medicina: modelos podem falhar não apenas por arquitetura ruim, mas porque o mundo clínico que encontram depois da implantação não é o mesmo mundo que viram durante o treinamento.
46
 
47
## Dados radiológicos não são apenas pixels
48
 
49
Essa discussão é especialmente importante em radiologia porque os dados não são apenas pixels.
50
 
51
Uma imagem radiológica carrega protocolo, equipamento, indicação clínica, prevalência local, perfil populacional, linguagem médica, rotina operacional e contexto institucional.
52
 
53
Um exame de tórax não é só uma matriz de intensidade.
54
 
55
Ele é também resultado de uma forma de solicitar, adquirir, posicionar, reconstruir, comprimir, arquivar, interpretar e reportar.
56
 
57
Quando qualquer parte desse sistema muda, a distribuição dos dados pode mudar junto.
58
 
59
Às vezes a mudança é óbvia.
60
 
61
Um novo protocolo de reconstrução altera textura, ruído e contraste.
62
 
63
Às vezes a mudança é menos visível.
64
 
65
Uma nova linha de cuidado muda a prevalência de determinados achados. Uma nova técnica terapêutica muda a aparência pós-tratamento. Um novo hábito de laudo muda o modo como rótulos são registrados. Um novo fluxo operacional muda o momento em que certos exames chegam à fila.
66
 
67
Para o radiologista, muitas dessas mudanças são incorporadas como contexto.
68
 
69
Para o modelo, elas podem aparecer como deslocamento estatístico.
70
 
71
## O exemplo clássico: o modelo aprende o hospital
72
 
73
Um dos estudos mais úteis para entender esse risco em imagem médica é o trabalho de Zech et al. sobre detecção de pneumonia em radiografias de tórax.
74
 
75
O ponto central não é apenas que um modelo pode performar diferente em hospitais diferentes.
76
 
77
O ponto mais incômodo é que parte da performance pode depender de pistas do próprio ambiente de origem: prevalência local, padrão de aquisição, processamento da imagem, fluxo assistencial e características institucionais.
78
 
79
O modelo parece aprender pneumonia.
80
 
81
Mas pode aprender também o contexto em que pneumonia costuma aparecer naquele dataset.
82
 
83
Esse tipo de problema é especialmente relevante quando modelos são treinados em bases grandes, mas pouco representativas do ambiente onde serão usados. Tamanho de dataset não elimina viés de contexto. Às vezes apenas torna o viés mais difícil de enxergar.
84
 
85
## Validação como processo, não como carimbo
86
 
87
Por isso, a pergunta correta não é apenas:
88
 
89
“o modelo foi validado?”
90
 
91
A pergunta mais importante é:
92
 
93
“ele continua válido neste serviço, neste protocolo, nesta população e neste momento?”
94
 
95
Essa diferença parece pequena, mas muda a governança inteira.
96
 
97
Se validação é um carimbo, o trabalho termina na aprovação inicial.
98
 
99
Se validação é um processo, o trabalho começa na implantação.
100
 
101
Depois da implantação, passa a ser necessário monitorar desempenho, discordâncias, falsos negativos, falsos positivos, subgrupos, mudanças de protocolo, mudanças de equipamento e mudanças de população.
102
 
103
Também passa a ser necessário decidir o que fazer quando o modelo começa a se afastar do mundo que deveria representar.
104
 
105
Recalibrar?
106
 
107
Retreinar?
108
 
109
Reduzir escopo?
110
 
111
Suspender uso em determinado protocolo?
112
 
113
Exigir segunda leitura humana em subgrupo específico?
114
 
115
Essas perguntas são operacionais, não apenas estatísticas.
116
 
117
É por isso que diretrizes e discussões regulatórias recentes passaram a tratar monitoramento, atualização e controle de mudanças como parte do ciclo de vida de IA médica. Os princípios de Good Machine Learning Practice da FDA, Health Canada e MHRA incluem atenção a representatividade, avaliação de performance, monitoramento e gestão de risco ao longo do ciclo de vida. A própria discussão regulatória sobre Predetermined Change Control Plans parte do reconhecimento de que modelos podem precisar mudar depois da autorização inicial.
118
 
119
## O risco do drift silencioso
120
 
121
O drift mais perigoso não é necessariamente o que derruba a performance de forma evidente.
122
 
123
É o drift silencioso.
124
 
125
O modelo continua entregando respostas plausíveis. O usuário continua confiando. O dashboard agregado continua aceitável. Mas determinados subgrupos, protocolos ou cenários começam a degradar.
126
 
127
Esse tipo de falha é difícil porque pode não aparecer na média.
128
 
129
Pode estar concentrado em um equipamento específico.
130
 
131
Em uma população específica.
132
 
133
Em uma indicação clínica específica.
134
 
135
Em uma mudança de protocolo aparentemente menor.
136
 
137
Em radiologia, isso importa muito. O erro operacionalmente mais perigoso nem sempre é o erro frequente. Às vezes é o erro raro, sistemático e pouco visível.
138
 
139
Por isso, validação externa é necessária, mas não basta. Ela responde se o modelo funcionou em outro conjunto de dados em determinado momento. Não responde, sozinha, se o modelo continuará funcionando depois que o serviço mudar.
140
 
141
## Temporal não quer dizer apenas calendário
142
 
143
O termo drift temporal pode dar a impressão de que o problema é simplesmente passagem do tempo.
144
 
145
Não é.
146
 
147
O tempo importa porque, ao longo dele, mudam protocolos, equipamentos, populações, tratamentos, critérios diagnósticos, linguagem de laudo e decisões operacionais.
148
 
149
O relógio não degrada o modelo.
150
 
151
O sistema muda enquanto o modelo permanece fixo.
152
 
153
Em saúde, isso é particularmente relevante porque a prática clínica é adaptativa. Novas terapias mudam história natural. Novas diretrizes mudam indicação. Novos fluxos mudam quem chega ao exame, quando chega e com qual probabilidade pré-teste.
154
 
155
O modelo não precisa envelhecer tecnicamente para ficar clinicamente desalinhado.
156
 
157
## O vínculo com expertise humana
158
 
159
Esse ponto se conecta ao paradoxo da automação.
160
 
161
Se um modelo precisa ser monitorado ao longo do tempo, alguém precisa saber o que monitorar.
162
 
163
Não basta medir se a saída do modelo continua parecida com a saída anterior.
164
 
165
É preciso perguntar se a saída continua clinicamente adequada diante de um ambiente que mudou.
166
 
167
Isso exige radiologistas capazes de reconhecer mudança de protocolo, mudança de padrão de doença, mudança de artefato, mudança de linguagem e mudança de fluxo.
168
 
169
Em outras palavras: a IA não elimina a necessidade de expertise radiológica. Ela desloca parte dessa expertise para auditoria, curadoria e governança contínua.
170
 
171
Se essa camada humana enfraquece, o sistema perde justamente a capacidade de perceber quando o modelo envelheceu.
172
 
173
## Consequência prática
174
 
175
IA em radiologia não deveria ser tratada como equipamento instalado uma vez e esquecido.
176
 
177
Deveria ser tratada como sistema clínico-operacional vivo.
178
 
179
Com monitoramento.
180
 
181
Com auditoria.
182
 
183
Com revalidação.
184
 
185
Com atenção ao que muda ao redor dela.
186
 
187
Isso não significa transformar todo serviço em laboratório acadêmico.
188
 
189
Significa criar perguntas operacionais mínimas:
190
 
191
- o mix de exames mudou?
192
- algum protocolo relevante mudou?
193
- houve troca de equipamento ou reconstrução?
194
- a população atendida mudou?
195
- a taxa de discordância mudou?
196
- os falsos negativos se concentram em algum subgrupo?
197
- o modelo está performando pior em algum scanner, protocolo ou unidade?
198
- o uso do modelo mudou o comportamento dos radiologistas?
199
- o modelo continua sendo usado dentro do escopo em que foi validado?
200
 
201
Essas perguntas parecem simples.
202
 
203
Mas sem elas, a implantação vira confiança acumulada em cima de um ambiente que pode ter deixado de existir.
204
 
205
## Síntese
206
 
207
Drift temporal não é apenas um problema técnico de machine learning.
208
 
209
Em radiologia, é um problema de governança clínica.
210
 
211
Validar um modelo uma vez pode ser necessário.
212
 
213
Mas não é suficiente.
214
 
215
O ponto crítico é manter uma pergunta aberta depois da implantação:
216
 
217
este modelo ainda está vendo o mesmo problema que foi treinado e validado para ver?
218
 
219
Porque o modelo pode continuar igual.
220
 
221
Mas o serviço pode mudar.
222
 
223
O protocolo pode mudar.
224
 
225
A população pode mudar.
226
 
227
A linguagem pode mudar.
228
 
229
A doença pode mudar.
230
 
231
E, justamente por isso, o modelo pode deixar de enxergar o mesmo mundo.
232
 
233
## Fontes e premissas
234
 
235
- Finlayson, S. G.; Subbaswamy, A.; Singh, K. et al. “The Clinician and Dataset Shift in Artificial Intelligence”. New England Journal of Medicine, 2021. https://doi.org/10.1056/NEJMc2104626
236
- Subbaswamy, A.; Saria, S. “From development to deployment: dataset shift, causality, and shift-stable models in health AI”. Biostatistics, 2020. https://doi.org/10.1093/biostatistics/kxz041
237
- Zech, J. R. et al. “Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study”. PLOS Medicine, 2018. https://doi.org/10.1371/journal.pmed.1002683
238
- Kelly, C. J. et al. “Key challenges for delivering clinical impact with artificial intelligence”. BMC Medicine, 2019. https://doi.org/10.1186/s12916-019-1426-2
239
- Vasey, B. et al. “DECIDE-AI: new reporting guidelines to bridge the development-to-implementation gap in clinical artificial intelligence”. Nature Medicine, 2022. https://doi.org/10.1038/s41591-021-01685-2
240
- FDA, Health Canada e MHRA. “Good Machine Learning Practice for Medical Device Development: Guiding Principles”, 2021. https://www.fda.gov/medical-devices/software-medical-device-samd/good-machine-learning-practice-medical-device-development-guiding-principles
241
- FDA. “Marketing Submission Recommendations for a Predetermined Change Control Plan for Artificial Intelligence-Enabled Device Software Functions”, 2025. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/marketing-submission-recommendations-predetermined-change-control-plan-artificial

Rodrigo Américo Cunha de Souza

Escreve sobre operações, dados e engenharia de processos em radiologia.