Cum poate IA să identifice persoane chiar și în seturi de date anonime

Modul în care interacționați cu o mulțime vă poate ajuta să ieșiți în evidență din ea, cel puțin pentru inteligența artificială.

Atunci când i se furnizează informații despre interacțiunile unei persoane țintă cu telefonul mobil, precum și despre interacțiunile contactelor sale, AI poate alege corect ținta din mai mult de 40.000 de abonați anonimi ai serviciilor de telefonie mobilă mai mult de jumătate din timp, cercetătorii raportează 25 ianuarie în Nature Communications. Constatările sugerează că oamenii socializează în moduri care ar putea fi folosite pentru a-i alege din seturi de date care se presupune că sunt anonime.

Nu este surprinzător faptul că oamenii tind să rămână în cercuri sociale stabilite și că aceste interacțiuni regulate formează un model stabil în timp, spune Jaideep Srivastava, un informatician de la Universitatea din Minnesota din Minneapolis, care nu a fost implicat în studiu. „Dar faptul că poți folosi acest tipar pentru a identifica individul, această parte este surprinzătoare”.

Conform Regulamentului general privind protecția datelor din Uniunea Europeană și a Legii privind confidențialitatea consumatorilor din California, companiile care colectează informații despre interacțiunile zilnice ale oamenilor pot împărtăși sau vinde aceste date fără consimțământul utilizatorilor. Capcana este că datele trebuie să fie anonimizate. Unele organizații ar putea presupune că pot respecta acest standard oferindu-le utilizatorilor pseudonime, spune Yves-Alexandre de Montjoye, cercetător în domeniul confidențialității computaționale la Imperial College London. „Rezultatele noastre arată că acest lucru nu este adevărat”.

de Montjoye și colegii săi au emis ipoteza că comportamentul social al oamenilor ar putea fi folosit pentru a-i selecta din seturile de date care conțin informații despre interacțiunile utilizatorilor anonimi. Pentru a-și testa ipoteza, cercetătorii au învățat o rețea neuronală artificială – o inteligență artificială care simulează circuitele neuronale ale unui creier biologic – să recunoască modele în interacțiunile sociale săptămânale ale utilizatorilor.

Pentru un test, cercetătorii au antrenat rețeaua neuronală cu date de la un serviciu de telefonie mobilă neidentificat care detalia interacțiunile a 43.606 abonați pe parcursul a 14 săptămâni. Aceste date au inclus data, ora, durata, tipul (apel sau text) fiecărei interacțiuni, pseudonimele părților implicate și cine a inițiat comunicarea.

Datele de interacțiune ale fiecărui utilizator au fost organizate în structuri de date în formă de web constând în noduri care reprezintă utilizatorul și contactele acestuia. Șiruri de caractere cu date de interacțiune au conectat nodurile. Inteligenței Artificiale i s-a arătat rețeaua de interacțiune a unei persoane cunoscute și apoi i s-a dat drumul să caute în datele anonime pentru a găsi rețeaua care seamănă cel mai mult cu ea.

Rețeaua neuronală a legat doar 14,7 la sută dintre indivizi cu sinele lor anonimizat atunci când i s-au arătat rețele de interacțiune care conțineau informații despre interacțiunile telefonice ale unei ținte care au avut loc la o săptămână după ultimele înregistrări din setul de date anonimizate. Dar a identificat 52,4 la sută dintre persoane atunci când i s-au dat nu doar informații despre interacțiunile țintei, ci și despre cele ale contactelor sale. Atunci când cercetătorii au furnizat AI-ului datele de interacțiune ale țintei și ale contactelor colectate la 20 de săptămâni după setul de date anonime, AI-ul a continuat să identifice corect utilizatorii în 24,3 la sută din cazuri, ceea ce sugerează că comportamentul social rămâne identificabil pentru perioade lungi de timp.

Pentru a vedea dacă AI ar putea să facă profilul comportamentului social în altă parte, cercetătorii au testat-o pe un set de date constând în patru săptămâni de date de proximitate apropiată de pe telefoanele mobile ale 587 de studenți anonimi, colectate de cercetătorii din Copenhaga. Acesta a inclus date de interacțiune constând în pseudonimele studenților, orele de întâlnire și intensitatea semnalului primit, care indica apropierea de alți studenți. Acești parametri sunt adesea colectați de aplicațiile de urmărire a contactelor COVID-19. Având în vedere o țintă și datele de interacțiune ale contactelor acestora, AI a identificat corect studenții din setul de date în 26,4 % din timp.

Cercetătorii notează că rezultatele, probabil, nu se aplică protocoalelor de urmărire a contactelor de la Google și de la sistemul de notificare a expunerii de la Apple, care protejează confidențialitatea utilizatorilor prin criptarea tuturor metadatelor Bluetooth și interzicerea colectării datelor de localizare.

de Montjoye spune că speră că cercetarea va ajuta factorii de decizie politică să îmbunătățească strategiile de protecție a identității utilizatorilor. Legile de protecție a datelor permit schimbul de date anonime pentru a sprijini cercetarea utilă, spune el. „Cu toate acestea, ceea ce este esențial pentru ca acest lucru să funcționeze este să ne asigurăm că anonimizarea protejează de fapt confidențialitatea indivizilor”.