» » » » » » Ce este Big Data?

Ce este Big Data?

postat în: Big Data | 0

În fiecare zi, folosim și generăm tone de date, alimentând datele mari ale agențiilor guvernamentale, companiilor private și chiar cetățenilor privați. Beneficiem în multe feluri de existența și utilizarea Big Data, dar trebuie să ne amintim de asemenea că „nu există nici un fel de prânz gratuit”. Există riscuri în utilizarea Big Data, un fel de parte întunecată.

Schimbările de piață pot fi obținute prin utilizarea Big Data: în timp ce acestea pot fi pozitive pentru cineva, acestea pot dăuna altcuiva. De exemplu, o pompă de combustibil cu un preț mai mare poate fi ocolită de oameni care folosesc aplicații de navigare, dar proprietarul nu își poate reduce prețul de vânzare cu amănuntul, deoarece chiria este mai mare datorită faptului că este într-un cartier mai scump – deci este obligat să închidă.

Riscurile potențiale provin și de la agențiile publice. De exemplu, o persoană poate fi investigată de poliție pentru că a fost înregistrată de camerele de supraveghere a aeroportului CCTV în timp ce vorbea cu o persoană supravegheată, deși ea pur și simplu cerea unui străin să-i spună une e toaleta.

Este clar că datele mari pot aduce beneficii cetățenilor și companiilor europene, dar trebuie să fie echilibrate de o conștientizare sporită a „părții întunecate” a Big Data și de exploatarea noilor capacități și oportunități pe care le oferă tuturor .

Definiția datelor mari

Pe măsură ce volumul de date continuă să crească exponențial, îmbogățit de Internet, social media, cloud computing, dispozitive mobile și date guvernamentale, aceasta reprezintă o amenințare și o oportunitate pentru Europa în ceea ce privește gestionarea și utilizarea acestei creșteri tot mai mari de date privind creșterea economică, menținând în același timp drepturile cetățenilor UE protejate.

Deoarece se estimează că producția de date generate de utilizatori va crește cu 2000% la nivel mondial până în 2020, și din moment ce provine dintr-o gamă variată de surse, definițiile datelor mari variază în ceea ce privește concentrarea pe care o pun pe un anumit aspect , dar toate au în comun faptul că se referă la o cantitate mare de date, mult mai mare decât ceea ce poate fi analizat pe un singur calculator astăzi, provenind din diferite surse și în diferite formate, adesea nestructurate. O definiție a fost furnizată în 2001 și ulterior modificată la ceea ce a fost prezentat de către oamenii de știință ca IBM 5 (a se vedea Figura 1) și a devenit din ce în ce mai acceptat. Se afirmă că Big Data se caracterizează prin:

• Volum, referindu-se la scara de date;
• Varietate, deoarece datele sunt produse de diferite surse de date în diferite formate;
• Viteza, care este conectată la analiza datelor streaming;
• Veracitate, deoarece datele sunt incerte și trebuie verificate înainte sau în timpul utilizării;
• Valoare, care poate fi produsă prin analizarea datelor mari.

Volumul de date produse și stocate a crescut constant în întreaga lume, iar generarea de date a fost estimată la 2,5 Exabytes de date pe zi în 2016 și este de așteptat să crească exponențial. De exemplu, se estimează că 90% din total datelor din lumea de astăzi au fost generate în ultimii doi ani. Volumele mari de date sunt strâns legate de o nevoie tot mai mare de analize rapide pentru a genera informații rapide, din perspectiva utilizării Big Data pentru creștere. Atât volumul, cât și viteza au un impact puternic asupra veracității, deoarece prelucrarea unei cantități foarte mari de date în formate diferite care vin la viteză mare nu are valoare dacă aceste date sunt incorecte. Datele incorecte au, de fapt, potențialul de a genera probleme atunci când sunt folosite în procesul de luare a deciziilor de către guverne sau companii și, în cele din urmă, afectează cetățenii și consumatorii.

Prin urmare, nevoia de a se asigura că datele, precum și analizele efectuate pe aceste date sunt corecte, este esențială atunci când se ocupă de date mari. Acest lucru este deosebit de relevant în luarea deciziilor automate, în care nu este implicat niciun om în acest proces.

Tipurile de date sunt deosebit de variate în cazul datelor mari și se extind de la imaginile din satelit la datele de mediu provenite de la senzori, utilizarea datelor dispozitivelor mobile, imaginile digitale și clipurile video (de exemplu, videoclipurile încărcate pe YouTube), datele de sănătate colectate de purtători și datele generate de utilizatorii web sau transmise în timpul proceselor de înregistrare (adică formularele de înregistrare). În plus, se preconizează o creștere masivă a tipului de date, precum și a volumului, de îndată ce utilizarea produselor dintr-o perspectivă Internet-of-Things devine mai răspândită.

 Infografic care ilustrează semnificația celor cinci V legate de datele mari
Sursa: (https://www.ibmbigdatahub.com/infographic/four-vs-big-data 

Infografic care ilustrează semnificația celor cinci V legate de datele mari)

În plus, trebuie reținut faptul că varietatea de surse de date mari poate genera rezultate neașteptate atunci când seturile de date, fiecare având o porțiune proprie de informații, sunt combinate pentru a produce, de exemplu, un profil mai complet al unui utilizator.

Această disponibilitate a datelor, care include informații personale ale cetățenilor uneori neconștiente, este fără precedent și reprezintă o ocazie unică pentru guvernele și companiile actuale de a îmbunătăți serviciile și bunăstarea, cu provocarea suplimentară de a face acest lucru respectând confidențialitatea și demnitatea umană, care fac parte din valorile fundamentale ale Europei.

Unul dintre subiectele discutate foarte rar este că Big Data pur și simplu nu există fără o conexiune la Internet, indiferent de numărul de senzori, aplicații, camere CCTV și sateliți care colectează date. Atunci când un telefon mobil măsoară viteza cardiacă și viteza de mers, trebuie să trimiteți aceste date către un server unde sunt stocate alte date pentru a crea seturi de date compuse care pot fi accesate și procesate. Dacă datele s-au stocat numai local pe un dispozitiv, întregul proces de agregare și prelucrare a datelor și aderarea la seturi de date diferite de la diferite surse nu au putut avea loc. Dimensiunea, ca și volumul de date, este de asemenea unul dintre principiile fondatoare ale fenomenului Big Data.

Unul dintre motivele care stau la baza creșterii Big Data este cel mai probabil găsit în disponibilitatea mai largă a conexiunii la internet la prețuri accesibile, datorită dezvoltării infrastructurilor și a tehnologiilor mai eficiente de transfer de date care permit un transfer mai rapid de date. Dacă, de fapt, Internetul a fost, la început, un produs rar accesibil numai prin intermediul calculatoarelor de către persoane calificate în utilizarea lor, acesta a fost progresiv integrat în alte dispozitive, iar capabilitățile de conectare la Internet sunt acum găsite în toate computerele, dispozitivele mobile, televizoarele, și va fi prezent în curând în alte obiecte de zi cu zi dintr-un peisaj Internet-of-Things.

Disponibilitatea crescândă a unei conexiuni la Internet a fost, de asemenea, cuantificată prin adaptarea coeficientului Gini utilizat în economie pentru a evalua egalitatea în distribuția veniturilor într-o populație. Rezultatele arată că există o tendință globală care conduce la un acces mai distribuit în mod egal la tehnologiile TIC în general și la Internet în mod specific, ceea ce favorizează în mod ferm ideea că accesul la Internet a constituit baza creșterii Big Data.

Ca notă interesantă, există o corelație puternică între PIB pe cap de locuitor și indicele de difuzare a TIC, ceea ce indică faptul că o economie mai dezvoltată se află la baza dezvoltării și adoptării tehnologiilor inovatoare de comunicare.

Sursa: European Economic and Social Committee, ”The ethics of Big Data: Balancing economic benefits and ethical questions of Big Data in the EU policy context”, © European Union, 2017

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *