» » » » » » Aspecte filosofice în analiza datelor mari (Big Data)

Aspecte filosofice în analiza datelor mari (Big Data)

postat în: Big Data, Etica | 1

Analiza datelor mari din punct de vedere etic implică două aspecte principale interdependente: unul teoretic, și anume descrierea filosofică a elementelor supuse controlului etic, și o viziune pragmatică a impactului asupra vieții oamenilor și organizațiilor.

Impactul etic al computerelor este cu greu un argument nou: a fost deja ridicat pentru calcul în general, precum și problemele de interacțiune cu utilizatorii. Există o dezbatere importantă privind problemele etice provocate de inteligența artificială și variază de la problemele care decurg din utilizarea acesteia, precum în analiza foarte profundă a impactului asupra creării de locuri de muncă, la crearea de noi tipuri de actori morali. Există o relație puternică între datele mari și inteligența artificială, considerând că datele sunt inutile fără interpretare și că este aproape imposibil să se procedeze de la date la cunoștințe atunci când dimensiunea datelor depășește dimensiunea personală. Prin urmare, suntem obligați să folosim instrumente automate, cum ar fi inteligența artificială sau derivatele acesteia: învățarea automată, analiza semantică, exploatarea datelor.

O abordare pe larg a eticii este agentul moral în care sunt descrise cel puțin cele trei condiții de cauzalitate, cunoaștere și alegere. Citând pe Noorman:

• Trebuie să existe o legătură cauzală între persoana și rezultatul acțiunilor. O persoană este, de obicei, responsabilă doar dacă are un anumit control asupra rezultatului evenimentelor.
• Subiectul trebuie să aibă cunoștințe și să poată lua în considerare posibilele consecințe ale acțiunilor lor. Avem tendința de a scuza pe cineva de vină dacă nu ar fi putut ști că acțiunile lui ar duce la un eveniment dăunător.
• Subiectul trebuie să poată să aleagă liber să acționeze în anumite moduri. Adică, nu are sens să se considere cineva responsabil pentru un eveniment dăunător dacă acțiunile lui au fost determinate complet de forțele externe.

Așa cum a remarcat deja Noorman, „calculul poate complica aplicabilitatea fiecăruia dintre aceste condiții” și, în opinia noastră, apariția Big Data complică și mai mult această chestiune.

Profesorul Floridi, în „a patra revoluție”, identifică problema morală a Big Data cu descoperirea unui mic model: reprezintă o nouă frontieră a inovării și a concurenței, capabilă să renunțe la afaceri, să creeze noi companii, sau să creeze probleme unei țări.

O problemă asociată este riscul de a descoperi aceste tipare, deoarece „ele împing limitele a ceea ce evenimente sau comportamente sunt previzibile și, prin urmare, pot fi anticipate”. Floridi remarcă modul în care datele trebuie agregate, corelate și integrate corespunzător pentru a deveni interesant .

Linia de bază a eticii Big Data este protecția vieții private, libertatea și puterea discreționară de a decide în mod autonom. Deși aceste trei domenii sunt aplicate convențional unei persoane, există o tensiune continuă între nevoile individuale și cele ale unei comunități. De exemplu, dreptul oamenilor de a-și păstra secretul informațiilor despre zbor este în contrast cu dreptul comunității (în acest caz, toate statele membre UE) de acces la aceasta pentru prevenirea, descoperirea, investigarea și urmărirea penală a infracțiunilor de terorism și a infracțiunilor grave. Același lucru este valabil și pentru interceptarea comunicațiilor, autorizată prin lege atunci când este necesar în cazuri specifice și în scopuri limitate (articolul 8 al Convenției Europene a Drepturilor Omului).

Este posibil să se identifice mai multe probleme etice care derivă din exploatarea Big Data:

• Confidențialitate
• Realitatea adaptată și bulele de filtru
• Gestionarea ulterioară a datelor după deces
• Prejudecăți de algoritm
• Confidențialitatea vs. creșterea puterii de analiză
• Limitarea scopului
• Inerția profilului digital al utilizatorilor și conformismul
• Radicalizarea utilizatorilor și sectarismul
• Impact asupra capacităților personale și a libertății
• Drepturi egale între proprietarul datelor și exploatatorul de date

Confidențialitate. Confidențialitatea este un subiect care cuprinde majoritatea celorlalte. Definiția sa este foarte dificilă și, de obicei, implică concepte precum libertatea, autonomia, secretul și izolarea.

Seclusia este cuvântul cheie care poate defini confidențialitatea, ca în definiția lui Alan F. Westin ca fiind „retragerea voluntară a unei persoane din societatea generală prin mijloace fizice într-o stare de izolare”; această definiție poate fi extinsă la mai multe teme moderne care includ protecția datelor și expunerea datelor. Mai recent, Moor și Tavani au definit un model de confidențialitate numit Control acces restricționat (RALC), bazat pe ideea că o teorie adecvată a confidențialității trebuie să diferențieze conceptul de confidențialitate însuși atât de justificare, cât și de managementul vieții private. RALC are trei componente: o relatare a conceptului de confidențialitate, o relatare a justificării vieții private, un cont despre gestionarea confidențialității. Confidențialitatea însăși este împărțită în condiția vieții private și a dreptului la intimitate, legate de pierderea vieții private și a invaziei.

Definiția este interesantă, deoarece are o parte operativă mai naturală pentru protecția datelor și, într-adevăr, Tavani, în documentele citate, utilizează un exemplu de exploatare a datelor, inclusiv date și algoritmi de inteligență artificială, pentru a clarifica RALC.

Confidențialitatea vs. creșterea puterii analitice. Această problemă se referă la natura emergentă a informațiilor ca la un sistem complex: atunci când se creează date provenite din contexte diferite, rezultatul este mai mult decât suma simplă a părților. Privind datele unui serviciu legat de carieră, cum ar fi Linkedin, vă va oferi o imagine foarte controlată asupra unei persoane, dar când vor fi adăugate toate comentariile persoanei respective pe rețele sociale, ziare online, forumuri și așa mai departe, imaginea lor nu va să fie sub controlul lor direct: de exemplu, un potențial angajator ar putea să asocieze opinia politică, orientarea sexuală, convingerile religioase și chiar informațiile referitoare la sănătate, astfel încât decizia lor de a angaja sau nu se va baza pe date care sunt într-adevăr date sensibile .

Această problemă va deveni proeminentă în viitorul apropiat, deoarece va deveni din ce în ce mai ieftină și mai ușor de analizat datele (chiar dacă nu datele structurate ca post într-o rețea socială sau un comentariu la un restaurant), lărgind arena celui care este capabil să exploateze fuziunea datelor.

Limitarea scopului. Legat de punctul anterior, în prezent este foarte greu sau, mai bine zis, aproape imposibil, să limitați utilizarea datelor. Puteți da dreptul de a publica comentariul dvs. la un restaurant pe un site web, însă sunteți de părere că este posibil ca societatea să vândă date unui angajator care, din aceste comentarii, ar putea evalua dacă sunteți în mod moral în conformitate cu situația lui/politicile companiei sale?

Confidențialitatea nu este un element bloc singular; este important să înțelegem nu numai invazia vieții private, ci și aceste forme subtile de pierdere a vieții private.

Realitatea adaptată și bulele de filtru. Când interacționăm cu un server, noi predăm o cantitate imensă de informații despre noi; aceasta este modul în care, de exemplu, un ziar online învață tipul de știri care ne place sau ne place și apoi folosește acele informații pentru a construi un model al intereselor noastre pentru a sugera alte știri și articole care ar putea fi interesante pentru noi. Aceeași abordare este folosită de locurile de pe piața online pentru a recomanda produse interesante.

O problemă apare atunci când un sistem utilizează aceste modele pentru a filtra informații, mai degrabă decât pentru a oferi recomandări. În acest fel s-ar putea să fim induși să credem că ceea ce vedem este o viziune completă a unui context specific – în exemplul ziarului viziunea noastră asupra lumii – în timp ce noi suntem limitați de „înțelegerea” unui algoritm care stă la baza obiectivelor noastre.

Efectele etice sunt multiple: un serviciu poate folosi această abordare de filtrare pentru a ascunde unele informații de noi, impunând o prejudecată despre care nu știm; viziunea noastră asupra lumii ar putea deveni progresiv limitată, producând chiar și un efect al camerei ecou în cazul în care există o întărire progresivă a unei vederi înguste. Pe termen lung acest lucru ar putea genera un impuls în jurul unei propuneri sau unui punct de vedere.

Inerția profilului digital al utilizatorilor. Această problemă este legată de subiectul realității personalizate. În acest caz, problema este că un model care implică interesele unui utilizator se bazează, de obicei, pe comportamentul trecut și pe colectarea informațiilor furnizate în trecut. În acest fel, algoritmii nu se bazează pe identitatea actuală a unei persoane, ci pe o versiune anterioară. De exemplu, dacă mă interesează îngrijirea copiilor într-un moment din viața mea, voi primi știri, recomandări și pagini web bazate pe acest interes. Dar dacă, între timp, am pierdut interesul pentru acest subiect, timpul de actualizare a algoritmilor pe care se bazează aceste recomandări ar putea fi foarte lent și voi continua să primesc articole pe baza acțiunilor mele anterioare, acum irelevante.

O bulă de filtru inerțial va influența, așadar, comportamentul meu real: pot fi împins să-mi mențin interesele vechi sau nu pot descoperi alte oportunități care ar putea fi mai interesante pentru mine. Dacă o persoană e conștientă de comportamentul sistemelor de recomandare sau de filtrare, aceasta ar fi o problemă minoră; dar această conștientizare este cea mai mare parte lipsită, deci există un impact direct forțând menținerea vederilor vechi.

Radicalizarea utilizatorilor, conformismul și sectarismul. Aceasta este o altă problemă legată de tema realității personalizate. În acest caz, problema este legată de formarea opiniei. Atunci când o persoană deține o opinie, o urmă a acestui interes va fi lăsată în aplicațiile bazate pe date, cum ar fi ziarele web, librăriile online, forumurile online, rețelele sociale. Printr-un algoritm de filtrare / recomandare, informațiile, articolele, posturile, prietenii și așa mai departe se vor concentra asupra acestui aviz. De exemplu, dacă susțin o poziție politică specifică, este mai frecvent ca o rețea socială să sugereze să adaug persoane cu aceeași poziție la lista mea de prieteni. Acest proces este reverberant: prin sistemul de filtrare / recomandare voi fi din ce în ce mai în contact cu oamenii, opiniile și faptele care vor susține poziția mea inițială. Acesta este un proces bine cunoscut tipic formării grupului.

Din nou, problema este că, în timp ce într-un grup „fizic” acest proces este evident, acesta este ascuns de utilizatorii sistemelor bazate pe Big Data, astfel încât tendința de a dezvolta o prejudecată, de la un conformism de grup până la o radicalizare a pozițiilor ideologice, este un fel de proces inconștient, bazat pe date. Putem chiar postula formarea unui fel de subconștient tehnologic care are impact asupra dezvoltării personalității noastre și, în cele din urmă, asupra vieții noastre sociale. Sunt prea puține studii pe această temă, care este în mod evident subestimată; cu toate acestea, este prezent un experiment interesant realizat de Lev Muchnik, „Influența socială a prejudecății„, care concluzionează că influența socială influențează în mod substanțial dinamica ratingului în sistemele concepute pentru a valorifica inteligența colectivă, influențând opinia oamenilor cu până la 32%. Această problemă este accentuată de comportamentele criminale, până la terorism. Această temă este studiată în special în ceea ce privește impactul rețelei sociale.

Rolul emergent al tehnologiei în grupurile criminale este explorat în mai multe studii, printre care „Gangs, Terrorism and Radicalisation„, care raportează că „YouTube și site-urile conexe au eclipsat sursele media principale – știri, televiziune, filme – informații care nu au fost disponibile membrilor bandelor acum două decenii.” Este evident pentru autori și pentru noi că „modul în care această informație are impact asupra bandelor, grupurilor extremiste și transferului de credințe și imagini radicale pe tot globul ar trebui să fie unul foarte prioritar pentru viitoarele cercetări”.

Este important să ne dăm seama că distanța dintre „fizic”, lumea reală și Internet este puternic redusă. Studiul „Examinarea suprapunerii în ceea ce privește hărțuirea internetului și agresarea școlară” arată că există o trecere puternică de la hărțuirea pe internet la problemele comportamentale la școală.

Gestionarea datelor ulterioare cu privire la deces. Creăm o mulțime de date și multe dintre ele trăiesc pe Internet sau în baza de date a companiilor bazate pe date. Ce se întâmplă în momentul în care vom muri? Și moștenitorii noștri vor moșteni datele noastre? Este de dorit ca moștenitorii să poată elimina datele selectate (sau toate) din lumea digitală? Această problemă reprezintă un amestec puternic de probleme juridice și tehnologice: cine deține datele? Cum să notifici o companie / agenție guvernamentală despre moartea unei persoane într-o comunicare demnă de încredere? Cum să eliminați toate datele unei persoane dintr-o bază de date? Cum să eliminați toate datele duplicate?

Impact asupra capacităților și libertății personale. Amartya Sen a schimbat definiția libertății prin includerea conceptului de capabilități, a posibilităților deschise, ca factor al acesteia. Această problemă etică este legată de diviziunea digitală, de capacitatea de a utiliza datele și de a beneficia de distribuirea propriilor date.

Ideea că difuzarea datelor, chiar și în cazul datelor deschise, este conectată automat la mai multă libertate este contestată de mai mulți autori. Un studiu interesant este „De la date deschise la informații juridice„; se referă la un model de șapte straturi pentru promovarea unei utilizări eficiente a datelor deschise dezvoltat de Gurstein, care include elemente generale de divizare digitală și mai multe date specifice:

Interpretare și abilități de gândire, inclusiv cunoștințe de analiză a datelor și cunoștințe locale care adaugă valoare și relevanță:

• Advocacy pentru a transforma cunoștințele în beneficii concrete.
• Guvernanța care stabilește un regim pentru celelalte caracteristici

Johnson presupune că „în absența acestor condiții, indivizii diferiți nu sunt capabili să utilizeze informațiile pentru a acționa sau pentru a deveni ceva pe care îl prețuiesc” și că „această problemă este probabil să fie exacerbată de apariția unor date „mari”.”

Drepturi egale între proprietarul de date și exploatatorul de date. O problemă etică emergentă este dezechilibrul dintre cine generează și cine colectează și manipulează datele. De exemplu, când folosesc o brățară purtătoare și o aplicație care rulează pentru a-mi monitoriza condițiile fizice, produc o cantitate masivă de date: urmărirea alergărilor, viteza mea, măsurătorile cardiace și așa mai departe. Aceste date sunt utilizate, cu permisiunea mea, de către producătorul de hardware / software pentru a-mi oferi un serviciu personalizat, astfel că acestea dețin în mod legal datele mele. Dar, ciudat, eu nu le dețin!

Pentru a echilibra această asimetrie, este foarte de dorit din punct de vedere etic ca compania care colectează și procesează datele mele să îmi dea înapoi datele pe care le-am produs, permițându-mi să le descarc și să le șterg total sau parțial.

De asemenea, este de dorit să avem un format comun de date, astfel încât, atunci când trec de la o aplicație în execuție la alta, să primesc datele mele într-un format compatibil care să mă lase (în conformitate cu conceptul de „capacitate” a laureatului Premiului Nobel, economistul și filosoful Amartya Sen) pentru a analiza cu ușurință toate datele colectate.

Prejudecăți de algoritm. Datele mari sunt aproape inutile fără interpretare; acest lucru este realizat folosind algoritmi. Dar sunt neutre sau au oarecare formă de prejudecată? Algoritmii sunt concepuți de oameni și același lucru este valabil și pentru selectarea datelor și, în cele din urmă pentru prezentarea datelor, este probabil că există o formă de prejudecată. În plus, există posibilitatea ca o eroare într-un algoritm să introducă forme de părtinire. Cele mai relevante prejudecăți etice sunt cele care au potențialul de a dăuna grupurilor minoritare, nu numai legate de rasă sau sex, ci și de sărăcie, șomaj, marginalizare socială.

O lucrare recentă, „Battling Algorithmic Bias„, descrie mai multe aplicații din lumea reală de părtinire algoritmică. În SUA, un software creat de Northpoint câștigă teren. Este capabil să determine probabilitatea de a comite viitoare crime; o organizație de jurnalism de investigație non-profit, Pro Publica, a contestat rezultatul acestui algoritm, afirmând că este puternic părtinitor. Acest algoritm nu este doar de studiu. Un articol BBC, „Cum te poate ajuta matematica sa te blochezi„, raporteaza un caz de lege in Wisconsin, in care unul din persoanele implicate într-o infracțiune a fost acuzată și condamnată un număr mai mare de ani în ​​inchisoare pentru că „instanța a notat că a fost identificat ca o „persoană care prezintă un risc ridicat pentru comunitate” prin ceva numit evaluarea Compas, acronimul a cea ce înseamnă „Profilarea corecțională a infractorilor pentru sancțiuni alternative”.

Julie Angwin, Pro Publica, a atacat acest software, deoarece include întrebări precum: „Istoria dvs. penală și dacă cineva din familia dvs. a fost vreodată arestat; dacă locuiți într-un cartier cu criminalitate crescută; dacă aveți prieteni care sunt într-o bandă; care este istoria de muncă; istoria școlii. Și apoi câteva întrebări despre ceea ce se numește gândire criminală, deci dacă sunteți de acord sau nu sunteți de acord cu afirmații precum „este bine pentru o persoană care îi e foame să fure”.” Permiterea unui algoritm să decidă soarta unei persoane este o alegere cu adevărat periculoasă, a fost dezvoltat de ființe umane, elementele algoritmilor sunt opace și necunoscute unei persoane externe (în acest caz, instanței, care în plus, cel mai probabil, nu are abilitățile de a înțelege fundalul informatic), și se bazează pe date care pot fi deja părtinitoare în momentul colectării. De exemplu, dacă un set de date este caracterizat printr-un exces de infracțiune comis de oameni dintr-o anumită rasă, algoritmii de învățare automată tind să accentueze mai mult crimele pentru acea rasă și mai puțin pentru celelalte rase.

Există chiar și forme de părtinire mai subtile. O lucrare a lui Kirkpatrick citează alte exemple cu discriminare de gen (Google returnează mai puține imagini ale femeilor CEO decât bărbații, sau afișează locuri de muncă mai puțin remunerate femeilor), rasa (anunțurile diferitelor universități sau produse sunt afișate în baza rasei și a poziției geografice) .

O problemă etică de aprofundat este încrederea noastră în algoritmi. Majoritatea oamenilor cred că „mașinile” sunt neutre prin definiție, dar vedem că acest lucru nu este absolut adevărat, iar riscurile pentru oameni ar putea fi foarte mari.

Sursa: European Economic and Social Committee, ”The ethics of Big Data: Balancing economic benefits and ethical questions of Big Data in the EU policy context”, © European Union, 2017

  1. […] Analiza datelor mari din punct de vedere etic implică două aspecte principale interdependente: unul teoretic, și anume descrierea filosofică a elementelor supuse controlului etic, și o viziune pragmatică a impactului asupra vieții oamenilor și organizațiilor. Impactul etic al computerelor este … Citeşte mai mult […]

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *