Dovada că funcționează: cloudUPDRS versus neurologi în orb

A construi un smartphone care măsoară simptomele motorii ale bolii Parkinson este un lucru. A demonstra că scorurile sale înseamnă același lucru ca cele ale unui neurolog este altceva — și este jumătatea mai dificilă și mai puțin spectaculoasă a muncii. Acest studiu și-a propus exact asta: să pună o evaluare pe telefon cu 16 itemi față în față cu trei neurologi în orb și să raporteze rezultatul cu onestitate, chiar și acolo unde veștile sunt nuanțate.

Problema

Etalonul de încredere pentru severitatea motorie a bolii Parkinson este Partea a III-a a MDS-UPDRS, examinarea motorie clinică. Este validată internațional, familiară și ușor de interpretat, motiv pentru care rămâne endpoint-ul primar preferat al marilor studii clinice pentru Parkinson. Dar are două slăbiciuni binecunoscute: consumă mult timp clinicienilor, iar calibrarea sa slabă și sensibilitatea sa limitată este posibil să fi contribuit la eșecul repetat al unor terapii noi promițătoare de a-și demonstra beneficiul în studii. O măsurătoare mai sensibilă și obiectivă a severității motorii ar putea face studiile mai rapide și mai corecte — și ar putea ajuta la personalizarea tratamentului.

Smartphone-urile și dispozitivele purtabile sunt candidații evidenți. Sunt ieftine, obiective și pot măsura oricât de des dorești. Studii anterioare au arătat că scorurile digitale se corelează cu scorul total MDS-UPDRS III. Dar corelația la nivelul unui grup nu este același lucru cu a avea dreptate în privința unui individ, iar tocmai asta cer, de fapt, deciziile clinice și studiile. Atunci când modelele anterioare au fost extinse de la o mână de pacienți la cohorte mai mari, ele tindeau să nu se generalizeze.

Autorii identifică trei motive pentru care instrumentele digitale au întâmpinat dificultăți — și, important, trei capcane de evitat. În primul rând, modelele antrenate pe scorurile unui singur evaluator uman absorb prejudecata subiectivă a acelui evaluator, în loc să o elimine. În al doilea rând, evaluările construite din doar cinci până la șapte subteste digitale pot fi prea grosiere pentru a capta eterogenitatea unei boli a cărei scală clinică are 33 de itemi. În al treilea rând — și cel mai insidios — atunci când un studiu testează un număr mare de caracteristici candidate sau de algoritmi de machine learning pe o cantitate limitată de date, riscă puternic o prejudecată de selecție a caracteristicilor (feature-selection bias): modelul se agață de tipare întâmplătoare și raportează o acuratețe care pare impresionantă, dar nu va rezista. Aceasta este supraoptimismul pe care lucrarea este hotărâtă să nu îl repete.

Un test pe smartphone comparat cu trei neurologi în orb care evaluează aceiași pacienți.

Figura 1. Întrebarea validării: poate un telefon să prezică ce evaluează experții?

Cum am testat

Răspunsul a fost studiul CloudUPDRS Smartphone Software in Parkinson’s (CUSSP) — un design conceput special pentru a dezamorsa acele trei capcane. A fost prospectiv, preînregistrat, desfășurat în două centre și crossover-randomizat: pacienții au fost recrutați la două spitale din Londra (National Hospital for Neurology and Neurosurgery și Homerton University Hospital), iar un software a randomizat ordinea în care erau efectuate evaluarea pe smartphone și cea clinică, una imediat după cealaltă. Randomizarea ordinii contează pentru că semne motorii precum amplitudinea tremorului se pot schimba în câteva minute; efectuarea testului pe telefon prima pentru toți ar fi introdus, pe nesimțite, o prejudecată în comparație.

Evaluarea pe smartphone a fost testul-index — noua măsurătoare evaluată. Standardul de referință a fost întărit în mod deliberat împotriva prejudecății subiective: în loc de scorul unui singur examinator, trei neurologi, fiecare cu pregătire de specialitate în tulburări de mișcare și în orb față de statusul medicației, de ordinea randomizării, de detaliile clinice și de evaluările celorlalți, au notat independent înregistrările video ale fiecărui item MDS-UPDRS III. Antrenarea modelelor pe mediana a trei evaluări în orb, mai degrabă decât pe opinia unei singure persoane, este ceea ce protejează împotriva supra-ajustării (over-fitting) la idiosincraziile unui anumit evaluator.

În total, analiza s-a bazat pe 60 de subiecți, 990 de teste pe smartphone și 2.628 de evaluări în orb pe video ale subitemilor. Pentru a se feri de a doua și a treia capcană, echipa a folosit o baterie de smartphone mai amplă, cu 16 itemi (pentru a capta mai mult din eterogenitatea bolii) și și-a publicat ori preînregistrat în avans caracteristicile și planul de analiză (astfel încât rezultatul principal să nu poată fi produsul unei interpretări retrospective). Performanța a fost măsurată prin leave-one-subject-out cross-validation (LOSO-CV): predicția pentru fiecare subiect provine dintr-un model antrenat doar pe ceilalți subiecți — un test onest al felului în care se comportă instrumentul cu cineva pe care nu l-a mai văzut niciodată.

Un design de studiu desfășurat în două centre, crossover și în orb, analizat cu leave-one-subject-out cross-validation.

Figura 2. Un studiu conceput pentru a evita rezultatele supraoptimiste.

Ce am descoperit

Analiza prespecificată — cea strictă, blocată în avans — a încadrat 70,3% dintre subiecți (SEM 5,9%) într-o categorie concordantă cu cel puțin unul dintre cei trei evaluatori în orb. Aceasta este net peste baza de referință aleatorie de 36,7% (SEM 4,3%): telefonul este cu adevărat predictiv pentru judecata experților la nivel individual, nu doar la nivelul unui grup. O variantă mai exigentă, care cerea telefonului să prezică exact mediana celor trei evaluatori — practic, să depășească orice evaluator uman individual — a obținut un scor mai modest, de 57,0% (SEM 8,0%), tot clar peste propria bază de referință aleatorie de 28,5%.

Echipa a rulat apoi o analiză exploratorie în care i s-a permis să aleagă clasificatorul și caracteristica cu cea mai bună performanță pentru fiecare subtest. Aceasta a împins acuratețea până la 78,7% (SEM 5,1%) — dar autorii spun explicit că această cifră comportă un risc moderat de supraoptimism, tocmai prejudecata de selecție a caracteristicilor de care avertizau. Ei raportează ambele cifre, una lângă alta, în mod intenționat: rezultatul conservator, prespecificat, drept etalonul de încredere pentru translatarea clinică, iar rezultatul optimizat drept indicator al caracteristicilor și clasificatorilor pe care studiile viitoare i-ar putea testa.

Performanța pe subtestele individuale a fost variabilă, situându-se între 53,2% și 97,0%. Această dispersie este ea însăși o constatare, iar lucrarea refuză să o supraliciteze. Cele mai înalte scoruri au venit de la testele de tremor al piciorului, la 97,0% — dar autorii notează că acest lucru a fost obținut în mare parte prezicând de fiecare dată categoria cea mai frecventă, pentru că aproape niciunul dintre cei 60 de pacienți nu avea tremor al piciorului de la bun început. Succesele mai informative au fost acolo unde scorurile variau cu adevărat între pacienți: sarcinile de bradikinezie proximală, precum mișcările de pronație/supinație (în jur de 73–75%), purtau un semnal real, în timp ce unele variante de finger tapping s-au numărat printre cele mai slabe. Concluzia onestă este că măsurătorile pe smartphone au valoare predictivă la nivel de subiect — și că lucrările viitoare trebuie să continue să atenueze atât prejudecățile subiective, cât și pe cele de selecție a caracteristicilor, și să testeze pe o gamă de trăsături motorii, pentru a evita estimările supraoptimiste.

Acuratețea la nivel de subiect: 36,7% aleatoriu vs. 70,3% prespecificat vs. 78,7% optimizat.

Figura 3. Acuratețea predictivă la nivel de subiect față de evaluatorii în orb.

De ce contează

Dacă măsurătorile digitale pot ține locul unor părți din examinarea motorie clinică, studiile câștigă un endpoint mai sensibil, eșantionat frecvent și obiectiv — iar îngrijirea de rutină câștigă o modalitate de a personaliza tratamentul în funcție de profilul motor propriu al fiecărui pacient. Este o miză mare. Dar adevărata contribuție a lucrării este cuvântul dacă. Ea arată cum poate fi validată o evaluare digitală așa cum ar trebui validată o măsurătoare medicală: prospectiv, față de un standard de referință în orb cu mai mulți evaluatori, cu un plan de analiză blocat și un test pe date din afara eșantionului — și raportează limitările în loc să le ascundă, observând că cohorta a fost înclinată spre boala ușoară-moderată și că pacienții grav afectați au fost subreprezentați.

Această atitudine este esența întregului demers. Cel mai util lucru de aici nu este o singură cifră de acuratețe, ci un model de onestitate: separă etalonul conservator de cel optimist, numește prejudecățile la care ești expus și rezistă tentației de a-ți cita cel mai bun rezultat ca și cum ar fi singurul tău rezultat.

Exact așa abordează practica MedTech a stm.ai inteligența artificială pentru sănătate. Legăm fiecare model înapoi de dovezile clinice, în loc să-l lăsăm să plutească liber, îl validăm în raport cu standardele în care clinicienii au cu adevărat încredere și păstrăm un om în buclă acolo unde contează — aici, trei evaluatori umani definesc adevărul față de care este măsurat modelul. Și raportăm rezultatele așa cum o face acest studiu: cu precizie, cu limitările atașate. În medicină, un 70% raportat onest valorează mai mult decât un 90% supraoptimist, pentru că doar unul dintre ele supraviețuiește contactului cu un pacient real.

A. Jha, E. Menozzi, R. Oyekan, et al. — “The CloudUPDRS smartphone software in Parkinson’s study: cross-validation against blinded human raters”, npj Parkinson’s Disease (2020). Citește lucrarea.