2
# Drift temporal em IA radiológica
3
4
> Um modelo de IA em radiologia pode continuar tecnicamente igual e, ainda assim, piorar, porque o ambiente clínico, técnico e operacional ao redor dele muda.
5
7
8
Um modelo de IA em radiologia pode continuar igual e, ainda assim, ficar pior.
9
10
Não porque o código mudou.
11
12
Mas porque a radiologia mudou em volta dele.
13
14
Esse é um ponto pouco discutido quando se fala em validação de IA médica. Muitas vezes, validação é tratada como um evento: treina-se o modelo, testa-se em uma base, mede-se performance e decide-se se ele passa ou não passa.
15
16
Essa lógica é insuficiente para um ambiente clínico real.
17
18
Em radiologia, o mundo que produz os dados não fica parado.
19
20
## O modelo permanece, o ambiente muda
21
22
Um modelo pode ter sido validado em um determinado contexto e, meses depois, começar a receber dados diferentes.
23
24
Isso pode acontecer por mudanças aparentemente pequenas:
25
26
- scanner novo;
27
- protocolo ajustado;
28
- reconstrução diferente;
29
- mudança no perfil dos pacientes;
30
- mudança na prevalência das doenças;
31
- nova técnica terapêutica;
32
- novo critério diagnóstico;
33
- mudança no padrão de laudo;
34
- alteração no fluxo de aquisição;
35
- troca de equipe, serviço ou população atendida.
36
37
Nada disso exige que o modelo tenha sido quebrado.
38
39
Ele pode simplesmente ter envelhecido.
40
41
Esse é o problema do drift temporal.
42
43
O alvo clínico, técnico ou operacional que o modelo aprendeu deixa de ser exatamente o mesmo.
44
45
Na literatura de IA clínica, esse problema costuma aparecer dentro da discussão mais ampla de
dataset shift: a relação entre dados, contexto e desfecho muda entre o ambiente de desenvolvimento e o ambiente de uso. Finlayson, Subbaswamy e colaboradores chamaram atenção para esse ponto em medicina: modelos podem falhar não apenas por arquitetura ruim, mas porque o mundo clínico que encontram depois da implantação não é o mesmo mundo que viram durante o treinamento.46
47
## Dados radiológicos não são apenas pixels
48
49
Essa discussão é especialmente importante em radiologia porque os dados não são apenas pixels.
50
51
Uma imagem radiológica carrega protocolo, equipamento, indicação clínica, prevalência local, perfil populacional, linguagem médica, rotina operacional e contexto institucional.
52
53
Um exame de tórax não é só uma matriz de intensidade.
54
55
Ele é também resultado de uma forma de solicitar, adquirir, posicionar, reconstruir, comprimir, arquivar, interpretar e reportar.
56
57
Quando qualquer parte desse sistema muda, a distribuição dos dados pode mudar junto.
58
59
Às vezes a mudança é óbvia.
60
61
Um novo protocolo de reconstrução altera textura, ruído e contraste.
62
63
Às vezes a mudança é menos visível.
64
65
Uma nova linha de cuidado muda a prevalência de determinados achados. Uma nova técnica terapêutica muda a aparência pós-tratamento. Um novo hábito de laudo muda o modo como rótulos são registrados. Um novo fluxo operacional muda o momento em que certos exames chegam à fila.
66
67
Para o radiologista, muitas dessas mudanças são incorporadas como contexto.
68
69
Para o modelo, elas podem aparecer como deslocamento estatístico.
70
71
## O exemplo clássico: o modelo aprende o hospital
72
73
Um dos estudos mais úteis para entender esse risco em imagem médica é o trabalho de Zech et al. sobre detecção de pneumonia em radiografias de tórax.
74
75
O ponto central não é apenas que um modelo pode performar diferente em hospitais diferentes.
76
77
O ponto mais incômodo é que parte da performance pode depender de pistas do próprio ambiente de origem: prevalência local, padrão de aquisição, processamento da imagem, fluxo assistencial e características institucionais.
78
79
O modelo parece aprender pneumonia.
80
81
Mas pode aprender também o contexto em que pneumonia costuma aparecer naquele dataset.
82
83
Esse tipo de problema é especialmente relevante quando modelos são treinados em bases grandes, mas pouco representativas do ambiente onde serão usados. Tamanho de dataset não elimina viés de contexto. Às vezes apenas torna o viés mais difícil de enxergar.
84
85
## Validação como processo, não como carimbo
86
87
Por isso, a pergunta correta não é apenas:
88
89
“o modelo foi validado?”
90
91
A pergunta mais importante é:
92
93
“ele continua válido neste serviço, neste protocolo, nesta população e neste momento?”
94
95
Essa diferença parece pequena, mas muda a governança inteira.
96
97
Se validação é um carimbo, o trabalho termina na aprovação inicial.
98
99
Se validação é um processo, o trabalho começa na implantação.
100
101
Depois da implantação, passa a ser necessário monitorar desempenho, discordâncias, falsos negativos, falsos positivos, subgrupos, mudanças de protocolo, mudanças de equipamento e mudanças de população.
102
103
Também passa a ser necessário decidir o que fazer quando o modelo começa a se afastar do mundo que deveria representar.
104
105
Recalibrar?
106
107
Retreinar?
108
109
Reduzir escopo?
110
111
Suspender uso em determinado protocolo?
112
113
Exigir segunda leitura humana em subgrupo específico?
114
115
Essas perguntas são operacionais, não apenas estatísticas.
116
117
É por isso que diretrizes e discussões regulatórias recentes passaram a tratar monitoramento, atualização e controle de mudanças como parte do ciclo de vida de IA médica. Os princípios de Good Machine Learning Practice da FDA, Health Canada e MHRA incluem atenção a representatividade, avaliação de performance, monitoramento e gestão de risco ao longo do ciclo de vida. A própria discussão regulatória sobre
Predetermined Change Control Plans parte do reconhecimento de que modelos podem precisar mudar depois da autorização inicial.118
119
## O risco do drift silencioso
120
121
O drift mais perigoso não é necessariamente o que derruba a performance de forma evidente.
122
123
É o drift silencioso.
124
125
O modelo continua entregando respostas plausíveis. O usuário continua confiando. O dashboard agregado continua aceitável. Mas determinados subgrupos, protocolos ou cenários começam a degradar.
126
127
Esse tipo de falha é difícil porque pode não aparecer na média.
128
129
Pode estar concentrado em um equipamento específico.
130
131
Em uma população específica.
132
133
Em uma indicação clínica específica.
134
135
Em uma mudança de protocolo aparentemente menor.
136
137
Em radiologia, isso importa muito. O erro operacionalmente mais perigoso nem sempre é o erro frequente. Às vezes é o erro raro, sistemático e pouco visível.
138
139
Por isso, validação externa é necessária, mas não basta. Ela responde se o modelo funcionou em outro conjunto de dados em determinado momento. Não responde, sozinha, se o modelo continuará funcionando depois que o serviço mudar.
140
141
## Temporal não quer dizer apenas calendário
142
143
O termo
drift temporal pode dar a impressão de que o problema é simplesmente passagem do tempo.144
145
Não é.
146
147
O tempo importa porque, ao longo dele, mudam protocolos, equipamentos, populações, tratamentos, critérios diagnósticos, linguagem de laudo e decisões operacionais.
148
149
O relógio não degrada o modelo.
150
151
O sistema muda enquanto o modelo permanece fixo.
152
153
Em saúde, isso é particularmente relevante porque a prática clínica é adaptativa. Novas terapias mudam história natural. Novas diretrizes mudam indicação. Novos fluxos mudam quem chega ao exame, quando chega e com qual probabilidade pré-teste.
154
155
O modelo não precisa envelhecer tecnicamente para ficar clinicamente desalinhado.
156
157
## O vínculo com expertise humana
158
159
Esse ponto se conecta ao paradoxo da automação.
160
161
Se um modelo precisa ser monitorado ao longo do tempo, alguém precisa saber o que monitorar.
162
163
Não basta medir se a saída do modelo continua parecida com a saída anterior.
164
165
É preciso perguntar se a saída continua clinicamente adequada diante de um ambiente que mudou.
166
167
Isso exige radiologistas capazes de reconhecer mudança de protocolo, mudança de padrão de doença, mudança de artefato, mudança de linguagem e mudança de fluxo.
168
169
Em outras palavras: a IA não elimina a necessidade de expertise radiológica. Ela desloca parte dessa expertise para auditoria, curadoria e governança contínua.
170
171
Se essa camada humana enfraquece, o sistema perde justamente a capacidade de perceber quando o modelo envelheceu.
172
173
## Consequência prática
174
175
IA em radiologia não deveria ser tratada como equipamento instalado uma vez e esquecido.
176
177
Deveria ser tratada como sistema clínico-operacional vivo.
178
179
Com monitoramento.
180
181
Com auditoria.
182
183
Com revalidação.
184
185
Com atenção ao que muda ao redor dela.
186
187
Isso não significa transformar todo serviço em laboratório acadêmico.
188
189
Significa criar perguntas operacionais mínimas:
190
191
- o mix de exames mudou?
192
- algum protocolo relevante mudou?
193
- houve troca de equipamento ou reconstrução?
194
- a população atendida mudou?
195
- a taxa de discordância mudou?
196
- os falsos negativos se concentram em algum subgrupo?
197
- o modelo está performando pior em algum scanner, protocolo ou unidade?
198
- o uso do modelo mudou o comportamento dos radiologistas?
199
- o modelo continua sendo usado dentro do escopo em que foi validado?
200
201
Essas perguntas parecem simples.
202
203
Mas sem elas, a implantação vira confiança acumulada em cima de um ambiente que pode ter deixado de existir.
204
205
## Síntese
206
207
Drift temporal não é apenas um problema técnico de machine learning.
208
209
Em radiologia, é um problema de governança clínica.
210
211
Validar um modelo uma vez pode ser necessário.
212
213
Mas não é suficiente.
214
215
O ponto crítico é manter uma pergunta aberta depois da implantação:
216
217
este modelo ainda está vendo o mesmo problema que foi treinado e validado para ver?
218
219
Porque o modelo pode continuar igual.
220
221
Mas o serviço pode mudar.
222
223
O protocolo pode mudar.
224
225
A população pode mudar.
226
227
A linguagem pode mudar.
228
229
A doença pode mudar.
230
231
E, justamente por isso, o modelo pode deixar de enxergar o mesmo mundo.
232
233
## Fontes e premissas
234
235
- Finlayson, S. G.; Subbaswamy, A.; Singh, K. et al. “The Clinician and Dataset Shift in Artificial Intelligence”. New England Journal of Medicine, 2021. https://doi.org/10.1056/NEJMc2104626
236
- Subbaswamy, A.; Saria, S. “From development to deployment: dataset shift, causality, and shift-stable models in health AI”. Biostatistics, 2020. https://doi.org/10.1093/biostatistics/kxz041
237
- Zech, J. R. et al. “Variable generalization performance of a deep learning model to detect pneumonia in chest radiographs: A cross-sectional study”. PLOS Medicine, 2018. https://doi.org/10.1371/journal.pmed.1002683
238
- Kelly, C. J. et al. “Key challenges for delivering clinical impact with artificial intelligence”. BMC Medicine, 2019. https://doi.org/10.1186/s12916-019-1426-2
239
- Vasey, B. et al. “DECIDE-AI: new reporting guidelines to bridge the development-to-implementation gap in clinical artificial intelligence”. Nature Medicine, 2022. https://doi.org/10.1038/s41591-021-01685-2
240
- FDA, Health Canada e MHRA. “Good Machine Learning Practice for Medical Device Development: Guiding Principles”, 2021. https://www.fda.gov/medical-devices/software-medical-device-samd/good-machine-learning-practice-medical-device-development-guiding-principles
241
- FDA. “Marketing Submission Recommendations for a Predetermined Change Control Plan for Artificial Intelligence-Enabled Device Software Functions”, 2025. https://www.fda.gov/regulatory-information/search-fda-guidance-documents/marketing-submission-recommendations-predetermined-change-control-plan-artificial