PDKit: un toolkit open source pentru evaluarea digitală a bolii Parkinson

Telefoanele și dispozitivele purtabile pot măsura acum simptomele bolii Parkinson acasă, continuu, mult mai des decât permite o vizită la clinică. Dar în spatele acestei promisiuni a existat o problemă tăcută: fiecare grup de cercetare își construiește propriul mod de a transforma datele brute de la senzori într-un număr, iar acele numere nu pot fi comparate între studii, centre sau dispozitive. PDKit este răspunsul — un toolkit open source care oferă întregului domeniu un pipeline comun și inspectabil, de la semnalul senzorului până la scorul clinic.

Problema

Boala Parkinson este a doua cea mai frecventă boală neurodegenerativă, cu până la zece milioane de pacienți în întreaga lume. Deoarece nu există un tratament curativ, îngrijirea este un proces de o viață de gestionare a simptomelor și de ajustare a medicației — iar fiindcă boala progresează diferit de la o persoană la alta, aceasta depinde de o monitorizare frecventă și obiectivă. Standardul de aur, scala de evaluare MDS-UPDRS aplicată de un clinician specialist, este prea grosieră, prea consumatoare de timp și prea subiectivă pentru a surprinde variația fină, de la o zi la alta, care contează cu adevărat.

Metodele digitale — aplicațiile pentru telefon și dispozitivele purtabile — promit exact acest semnal mai fin. Totuși, în pofida unui deceniu de propuneri rapide, remarcabil de puține s-au tradus în acel tip de criterii de evaluare digitale robuste și generalizabile pe care autoritățile de reglementare medicală le-ar accepta pentru studii clinice. Lucrarea este directă în privința motivelor. Peisajul cercetării este fragmentat: eșantioane mici de studiu, diferențe în plasarea și calibrarea senzorilor și o lipsă de claritate în tehnicile analitice folosite fac ca rezultatele să nu poată fi replicate. Studiile adesea nu țin cont de variabilitatea dintre evaluatori, astfel încât modelele de machine learning ajung să învețe prejudecata subiectivă a unui clinician în loc să o elimine. Iar atunci când multe caracteristici sau algoritmi candidați sunt testați pe date limitate, rezultatul este o prejudecată de selecție a caracteristicilor (feature-selection bias) — cifre prea optimiste care par impresionante, dar care nu rezistă la verificare.

La baza tuturor acestor probleme stă o singură cauză fundamentală: o lipsă de transparență a algoritmilor și a modelelor. Când fiecare grup își construiește propriul pipeline privat, nimeni nu poate inspecta, reproduce sau compara corect ceea ce s-a făcut. Acesta este golul pe care PDKit a fost creat să-l închidă.

PDKit transformă semnalele brute de la dispozitive purtabile și telefoane în biomarkeri transparenți și scoruri clinice.

Figura 1. PDKit: de la fluxuri brute de senzori la măsuri standardizate și comparabile.

Ce am construit

PDKit este un toolkit software cuprinzător, open source, pentru gestionarea și procesarea datelor pacienților captate fie continuu de dispozitive purtabile — monitorizare pasivă — fie de aplicații pentru telefon cu frecvență ridicată de utilizare — monitorizare activă. Este implementat în Python, standardul de facto pentru știința datelor modernă, și este lansat ca software liber sub licența permisivă MIT, care permite toate utilizările fără restricții. Codul sursă se află pe GitHub și se instalează ca pachet din PyPI; de la versiunea 1.0 a fost descărcat de peste 75.000 de ori.

Designul se inspiră deliberat din inițiative open source care au transformat alte domenii ale sănătății digitale — inițiativa ADNI pentru imagistica în Alzheimer și toolkit-ul SPM pentru analiza imagisticii cerebrale — care au realizat progrese tocmai pentru că au fost deschise și partajate. Adoptând această abordare pentru Parkinson, susține lucrarea, apar avantaje concrete: le permite cercetătorilor să dezvolte și să partajeze deschis metode standardizate care fac rezultatele comparabile între centre și echipamente; împachetează expertiză greu dobândită în procesarea semnalelor și machine learning, astfel încât grupurile să nu fie nevoite să o reconstruiască; crește încrederea în rezultate fiindcă codul este testat de o comunitate largă; și — spre deosebire de software-ul proprietar — permite oricui să inspecteze algoritmii și implementarea lor și, prin urmare, să examineze critic orice inferență clinică derivată din ei.

Inima tehnică a PDKit este o singură idee organizatoare: abstracția pipeline-ului de procesare a informației (information-processing pipeline). Acest tipar de proiectare bine consacrat în știința datelor este adaptat special pentru evaluarea bolii Parkinson, astfel încât fiecare pas computațional — de la semnalul brut la scorul clinic — să fie surprins explicit, în detaliu și într-o formă pe care oricine o poate citi.

Pipeline-ul PDKit de procesare a informației: ingestie, augmentarea calității, extragerea caracteristicilor, estimarea biomarkerilor, scorare.

Figura 2. Un pipeline standard pe care oricine îl poate inspecta, reutiliza și extinde.

Cum funcționează

Un pipeline PDKit trece datele brute de la senzori prin cinci etape secvențiale, fiecare implementată de regulă ca o clasă Python distinctă care își poate importa și exporta rezultatele intermediare — astfel încât un pipeline poate fi rulat pe etape, inspectat la jumătatea drumului sau oprit în orice punct potrivit pentru un anumit studiu.

1. Ingestia datelor. Prima etapă consumă măsurători de la dispozitive purtabile și telefoane într-o mare varietate de formate. Nu există un standard universal pentru codificarea acestor date, așa că PDKit gestionează diversitatea direct: aplicațiile de monitorizare activă precum cloudUPDRS, mPower și Hopkins PD folosesc fiecare propria schemă, în timp ce monitorizarea pasivă transmite datele de la dispozitive purtabile prin conexiuni wireless de consum redus, folosind protocoale standard precum MQTT și scheme publish-subscribe. Indiferent de sursă, datele brute sunt convertite în reprezentări interne standardizate, specifice fiecărui simptom, construite pe Pandas — de exemplu TremorTimeSeries și FingerTappingTimeSeries.

2. Calitatea informației. Înainte de orice analiză, PDKit evaluează și, acolo unde este nevoie, îmbunătățește datele. Aceasta include verificări de integritate pentru valori lipsă, în afara intervalului sau aberante, cauzate de erori de transmisie sau defecțiuni ale senzorilor; reeșantionare pentru a normaliza neregularitatea eșantionării (o condiție prealabilă pentru tehnici precum Transformata Fourier Rapidă); și îmbunătățiri de relevanță, cum ar fi eliminarea perioadelor de început și de încheiere ale unui test, verificarea faptului că o mișcare nesupravegheată a fost executată corect și segmentarea și augmentarea semnalului.

3. Extragerea caracteristicilor. Pipeline-ul calculează apoi caracteristici distinctive pentru fiecare tip de simptom — pentru o sesiune tipică de monitorizare activă, PDKit poate calcula peste 800 de caracteristici diferite. Esențial, acoperă ambele școli de gândire simultan: caracteristici inspirate clinic, bio-inspirate, întemeiate pe intuiția medicală (majoritatea celor standard din literatura despre Parkinson sunt implementate), și caracteristici pur bazate pe date (folosind biblioteci Python consacrate precum TSFRESH pentru serii temporale și Praat pentru voce). Este conceput să fie extensibil, astfel încât noi tehnici să poată fi adăugate.

4. Estimarea biomarkerilor. Caracteristicile sunt distilate în biomarkeri digitali — indicatori cu proprietăți inferențiale puternice. PDKit acceptă două tipuri: biomarkeri standard, un vector de caracteristici instantaneu, pentru un singur moment în timp; și biomarkeri longitudinali, mai puternici, care acumulează caracteristici din măsurători repetate pe o perioadă extinsă. În loc de un singur instantaneu, un biomarker longitudinal surprinde distribuția statistică a unui simptom pe parcursul, să zicem, unei săptămâni — un mod mai consecvent și mai sensibil de a caracteriza o boală atât de eterogenă precum Parkinson.

5. Scorarea clinică. Etapa finală mapează biomarkerii pe o scală clinică de evaluare standard. Și aici sunt oferite două căi: o abordare bazată pe date prin clustering atunci când datele etichetate sunt rare, și o abordare de machine learning supervizat (ClinicalUPDRS) atunci când sunt disponibile date etichetate de clinician. Câștigul este că noi măsurători de la senzori pot fi convertite complet automat într-un scor MDS-UPDRS fără un evaluator uman — permițând evaluarea automată cap-la-cap pentru urmărirea progresiei bolii, monitorizarea răspunsului la medicație și stratificarea pacienților. MDS-UPDRS este acceptată deoarece este singura scală recunoscută de FDA și EMA pentru studii clinice, dar designul extensibil poate găzdui și altele.

De-a lungul acestor etape, PDKit implementează bateria standard de teste motorii pentru Parkinson — tremor, finger-tapping, bradikinezie (mișcări de pronație-supinație și agilitatea piciorului) și mers — alături de evaluări ale reacției și ale vocii.

Al doilea ingredient esențial al toolkit-ului este posibilitatea de a alege între două modele de programare expuse printr-un singur API. Dezvoltatorii pot folosi o interfață Python simplă, pentru o barieră scăzută de intrare, sau un model alternativ de programare dataflow pentru calcul de înaltă performanță, scalabil orizontal — același cod, neschimbat, rulând pe un laptop sau extins pe infrastructură cloud. Acest lucru contează fiindcă implementarea evaluării digitale la scara populației înseamnă procesarea unor volume mari de date generate concurent și în dezordine. Modelul dataflow al PDKit este implementat folosind Apache Beam, un motor unificat care modelează un program ca un graf orientat de date care circulă între operații și care poate rula pe backend-uri distribuite precum Apache Flink, Spark și Google Cloud Dataflow.

PDKit este open source, folosit într-un studiu clinic real, și face rezultatele comparabile între centre.

Figura 3. De ce contează un toolkit deschis și standard.

De ce contează

Argumentul în favoarea PDKit nu este un număr spectaculos de acuratețe — este o schimbare în modul în care funcționează domeniul. Când metodele sunt deschise, standardizate și inspectabile, știința devine mai bună: rezultatele devin comparabile între centre și echipamente, descoperirile devin reproductibile, dispare costul duplicat al fiecărui grup care își reconstruiește propriul pipeline, iar studiile clinice pot avansa mai rapid spre criteriile de evaluare digitale robuste de care au nevoie autoritățile de reglementare. Făcând vizibili algoritmii exacți, PDKit atacă de asemenea direct optimismul excesiv și prejudecata ascunsă care au frânat evaluarea digitală — un obiectiv de transparență împărtășit de inițiative precum Critical Path for Parkinson’s, cu care echipa a colaborat.

Aceasta nu este o propunere pe hârtie, ci infrastructură funcțională. PDKit a fost dezvoltat cu sprijinul Fundației Michael J. Fox, este disponibil deschis sub licența MIT de la prima sa lansare în 2018 și se știe în mod independent că este folosit în studii clinice despre Parkinson de universități și companii din Europa și SUA. Utilizarea sa practică a fost demonstrată în studiul clinic CUSSP din Regatul Unit, unde un pipeline PDKit specific studiului a fost folosit pentru a analiza 990 de teste pe telefon comparativ cu mii de evaluări clinice oarbe — și, la fel de important, a făcut simplă rularea atât a unei analize stricte prestabilite, cât și a uneia exploratorii ample, peste numeroase caracteristici și clasificatori.

Acesta este exact tipul de MedTech în jurul căruia este construită stm.ai: AI deschis, conectat la dovezi, reproductibil, care păstrează judecata clinică și pacientul în centru. PDKit nu înlocuiește clinicianul și nu își ascunde funcționarea în spatele unui zid proprietar. Face exact opusul — face ca fiecare pas, de la semnalul brut la scorul clinic, să fie ceva ce întreaga comunitate de cercetare poate inspecta, reutiliza și îmbunătăți. În medicină, această transparență nu este un lux; este condiția prealabilă a încrederii.

C. Stamate, J. Saez Pons, D. Weston, G. Roussos — “PDKit: A data science toolkit for the digital assessment of Parkinson’s Disease”, PLoS Computational Biology (2021). Citește lucrarea.