» » » » » » Tehnici analitice în lucrul cu Big Data

Tehnici analitice în lucrul cu Big Data

postat în: Big Data 0

Abordările și tehnicile utilizate pentru a efectua analitici predictive pot fi în general grupate în tehnici de regresie și tehnici de învățare a mașinilor (automată).

Tehnici de regresie

Modelele de regresie reprezintă suportul principal al analiticii predictive. Accentul se pune pe stabilirea unei ecuații matematice ca model pentru a reprezenta interacțiunile dintre diferitele variabile în considerare. În funcție de situație, există o mare varietate de modele care pot fi aplicate în timp ce se efectuează analitici predictive. Unele dintre ele sunt discutate pe scurt în cele ce urmează.

Model de regresie liniară

Modelul de regresie liniară analizează relația dintre răspunsul sau variabila dependentă și un set de variabile independente sau de prezicere. Această relație este exprimată ca o ecuație care prezice variabila de răspuns ca o funcție liniară a parametrilor. Acești parametri sunt ajustați astfel încât să se optimizeze o măsură de potrivire. O mare parte din efortul de elaborare a modelului se concentrează pe minimizarea dimensiunii reziduului, precum și pe asigurarea distribuirii aleatorie a acestuia în funcție de predicțiile modelului.

Scopul regresiei este de a selecta parametrii modelului astfel încât să minimizeze suma reziduurilor pătrate. Aceasta este denumită estimare obișnuită a celor mai mici pătrate (OLS) și are ca rezultat cele mai bune estimări lineare imparțiale (BLUE) ale parametrilor dacă și numai dacă ipotezele Gauss-Markov sunt satisfăcute.

Odată ce modelul a fost estimat, ne-ar interesa să aflăm dacă variabilele predictorului aparțin modelului – adică. este estimarea aportului fiecărei variabile fiabilă? Pentru a face acest lucru, putem verifica semnificația statistică a coeficienților modelului care pot fi măsurați cu ajutorul statisticilor t. Aceasta înseamnă testarea dacă coeficientul este semnificativ diferit de zero. Cât de bine modelul prezice variabila dependentă bazată pe valoarea variabilelor independente poate fi evaluată utilizând statistica R2. Măsoară puterea predictivă a modelului, adică proporția variației totale a variabilei dependente care este „explicată” de variația variabilelor independente.

Modele de alegere discretă

Regresia multiplă (de mai sus) este folosită în general atunci când variabila de răspuns este continuă și are un domeniu nelimitat. Adesea, variabila de răspuns nu poate fi continuă, ci mai degrabă discretă. Deși matematic este posibilă aplicarea regresiei multiple asupra variabilelor dependente ordonate discrete, unele presupuneri care stau la baza teoriei regresiei liniare multiple nu mai țin și există și alte tehnici, cum ar fi modelele de alegere discretă, care sunt mai potrivite pentru acest tip de analitici. Dacă variabila dependentă este discretă, unele dintre aceste metode superioare sunt regresia logistică, logitmul multinomial și modelele probit. Modelele de regresie logistică și probit sunt utilizate atunci când variabila dependentă este binară.

Regresie logistică

Într-o configurație de clasificare, atribuirea probabilităților de rezultat la observații se poate realiza prin utilizarea unui model logistic, care este în esență o metodă care transformă informația despre variabila dependentă binară într-o variabilă continuă nelimitată și estimează un model multivariat obișnuit.

Testul Wald și testul de probabilitate sunt utilizate pentru a testa semnificația statistică a fiecărui coeficient b din model (analog cu testele t utilizate în regresia OLS, vezi mai sus). Un test care evaluează bunăstarea unui model de clasificare este „procentajul corect estimat”.

Regresie logistică multinomială

O extensie a modelului logit binar la cazurile în care variabila dependentă are mai mult de două categorii este modelul logit multinomial. În astfel de cazuri, colapsarea datelor în două categorii ar putea să nu aibă un sens sau poate duce la pierderea bogăției datelor. Modelul logit multinomial este tehnica potrivită în aceste cazuri, mai ales atunci când categoriile de variabile dependente nu sunt comandate (de exemplu culori cum ar fi roșu, albastru, verde). Unii autori au extins regresia multinomială pentru a include metode de selectare/importanță a elementelor, cum ar fi logit multinomial aleatoriu.

Regresie probit

Modelele Probit oferă o alternativă la regresia logistică pentru modelarea variabilelor dependente categorice. Chiar dacă rezultatele tind să fie similare, distribuțiile subiacente sunt diferite. Modele probit sunt populare în științele sociale cum ar fi economia.

O modalitate bună de a înțelege diferența cheie între modelele probit și logit este să presupunem că variabila dependentă este condusă de o variabilă latentă z, care este o sumă a unei combinații liniare de variabile explicative și un termen de zgomot aleator.

Nu observăm z, dar observăm y care ia valoarea 0 (când z < 0) sau 1 (altfel). În modelul logit presupunem că termenul de zgomot aleator urmărește o distribuție logistică cu media zero. În modelul probit presupunem că urmează o distribuție normală cu media zero. Rețineți că în științele sociale (de exemplu, economia) probit este adesea folosit pentru a modela situațiile în care variabila observată y este continuă, dar are valori între 0 și 1.

Logit versus probit

Modelul probit a fost mai vechi decât modelul logit. Acestea se comportă similar, cu excepția faptului că distribuția logistică tinde să fie ușor liniștită. Unul dintre motivele pentru care a fost formulat modelul logit a fost că modelul probit a fost dificil la calcul datorită cerinței de a calcula numerale integrale. Calculul modern a făcut însă acest calcul destul de simplu. Coeficienții obținuți din modelul logit și probit sunt destul de apropiați. Cu toate acestea, raportul de șanse este mai ușor de interpretat în modelul logit.

Motivele practice pentru alegerea modelului probit față de modelul logistic ar fi:

  • Există o puternică convingere că distribuția subiacentă este normală
  • Evenimentul real nu este un rezultat binar (de exemplu, statutul de faliment), ci o proporție (de exemplu, proporția populației la diferite niveluri ale datoriilor).

Modele pentru serii de timp

Modelele pentru serii de timp sunt folosite pentru a prezice sau a prognoza viitorul comportament al variabilelor. Aceste modele reprezintă faptul că punctele de date preluate de-a lungul timpului pot avea o structură internă (cum ar fi corelația automată, tendința sau variația sezonieră) care ar trebui luate în considerare. Ca urmare, tehnicile de regresie standard nu pot fi aplicate datelor din seriile de timp, iar metodologia a fost dezvoltată pentru a descompune tendința, componenta sezonieră și ciclică a seriei. Modelarea căii dinamice a unei variabile poate îmbunătăți previziunile, deoarece componenta previzibilă a seriei poate fi proiectată în viitor.

Modelele din seria de timp estimează diferențele de ecuații care conțin componente stochastice. Două forme utilizate în mod obișnuit pentru aceste modele sunt modelele autoregresive (AR) și modelele cu medii în mișcare (MA). Metodologia Box-Jenkins (1976) dezvoltată de George Box și G.M. Jenkins combină modelele AR și MA pentru a produce modelul ARMA (mediul în mișcare autoregresivă), care reprezintă piatra de temelie a analizei seriilor de timp staționare. ARIMA (modelele cu mișcare automată integrată autoregresivă), pe de altă parte, sunt folosite pentru a descrie serii temporale non-staționare. Box și Jenkins sugerează diferențierea unei serii de timp non-staționare pentru a obține o serie staționară la care poate fi aplicat un model ARMA. Serile de timp non-staționare au o tendință pronunțată și nu au o medie constantă sau varianță constantă pe termen lung.

Box și Jenkins au propus o metodă în trei etape care include identificarea, estimarea și validarea modelului. Etapa de identificare implică identificarea dacă seria este staționară sau nu și prezența sezonalității prin examinarea ploturilor din seria, autocorelația și funcțiile de autocorelare parțială. În etapa de estimare, modelele sunt estimate utilizând proceduri de estimare a seriilor de timp neliniară sau de probabilitate maximă. În cele din urmă, etapa de validare implică verificarea diagnosticului, cum ar fi reprezentarea grafică a reziduurilor pentru a detecta valori excepționale și dovezi de potrivire a modelului.

În ultimii ani, modelele de serii de timp au devenit mai sofisticate și încearcă să modeleze heteroskedasticitatea condiționată cu modele precum ARCH (heteroskedasticitatea condiționată autoregresivă) și modelele heteroskedasticității generalizate autoregresive GARCH utilizate frecvent pentru seriile de timp financiare. În plus, modelele de serii de timp sunt de asemenea utilizate pentru a înțelege inter-relațiile dintre variabilele economice reprezentate de sistemele de ecuații folosind VAR (vector autoregression) și modele structurale VAR.

Analiza supraviețuirii sau a duratei

Analiza de supraviețuire este un alt nume pentru analiza timp-la-eveniment. Aceste tehnici au fost dezvoltate în principal în științele medicale și biologice, dar sunt utilizate pe scară largă în științele sociale precum economia, precum și în inginerie (analiza timpului de fiabilitate și de eșec).

Cenzurarea și non-normalitatea, caracteristice datelor de supraviețuire, generează dificultăți atunci când încearcă să analizeze datele utilizând modele statistice convenționale, cum ar fi regresia liniară multiplă. Distribuția normală, fiind o distribuție simetrică, are valori pozitive și negative, dar durata, prin însăși natura sa, nu poate fi negativă și, prin urmare, normalizarea nu poate fi asumată atunci când se analizează date privind durata/supraviețuirea. Prin urmare, ipoteza de normalitate a modelelor de regresie este încălcată.

Presupunerea este că, dacă datele nu ar fi fost cenzurate, ar fi reprezentative pentru populația de interes. În analiza de supraviețuire, observațiile cenzurate apar atunci când variabila dependentă de interes reprezintă timpul la un eveniment terminal, iar durata studiului este limitată în timp.

Un concept important în analiza de supraviețuire este rata de risc, definită ca probabilitatea ca evenimentul să aibă loc la momentul t condiționată de supraviețuirea până la momentul t. Un alt concept legat de rata hazardului este funcția de supraviețuire care poate fi definită ca fiind probabilitatea de a supraviețui în timpul t.

Majoritatea modelelor încearcă să modeleze rata de pericol prin alegerea distribuției subiacente, în funcție de forma funcției de pericol. O distribuție a cărei funcție de pericol se înclină în sus se spune că are o dependență de durată pozitivă, un pericol descrescător indică dependența de durată negativă, în timp ce pericolul constant este un proces fără memorie caracterizată de distribuția exponențială. Unele dintre opțiunile de distribuție în modelele de supraviețuire sunt: ​​F, gamma, Weibull, log normal, invers normal, exponențial etc. Toate aceste distribuții sunt pentru o variabilă aleatorie non-negativă.

Modelele de durată pot fi parametrice, non-parametrice sau semi-parametrice. Unele dintre modelele utilizate în mod obișnuit sunt modelul de risc proporțional Kaplan-Meier și Cox (neparametric).

Arborele de clasificare și regresie (CART)

Analiza globală optimă a arborelui de clasificare (GO-CTA) (denumită și analiză discriminatorie optimă ierarhică) este o generalizare a analizei discriminatorii optime care poate fi utilizată pentru identificarea modelului statistic care are o acuratețe maximă pentru prezicerea valorii unei variabile dependente categorice pentru un set de date constând din variabile categorice și continue. Producția HODA este un arbore non-ortogonal care combină variabilele categorice și punctele de tăiere pentru variabilele continue care oferă o precizie predictivă maximă, o evaluare a ratei de eroare de tip I exactă și o evaluare a generalizării potențiale încrucișate a modelului statistic. Analiza discriminatorie optimă ierarhică poate fi considerată ca o generalizare a analizei lineare discriminante a lui Fisher. Analiza optimă discriminantă este o alternativă la ANOVA (analiza varianței) și analiza de regresie, care încearcă să exprime o variabilă dependentă ca o combinație liniară a altor caracteristici sau măsurători. Cu toate acestea, ANOVA și analiza de regresie dau o variabilă dependentă care este o variabilă numerică, în timp ce analiza discriminatorie optimă ierarhică dă o variabilă dependentă care este o variabilă de clasă.

Arborii de clasificare și de regresie (CART) reprezintă o tehnică de învățare nonparametrică a arborelui de decizie care produce fie arbori de clasificare, fie regresii, în funcție de variația dependentă, respectiv categorică sau numerică.

Arborii de decizie sunt formați dintr-o colecție de reguli bazate pe variabile din setul de date de modelare:

  • Regulile bazate pe valorile variabilelor sunt selectate pentru a obține cea mai bună împărțire pentru a diferenția observațiile pe baza variabilei dependente
  • Odată ce o regulă este selectată și împarte un nod în două, același proces se aplică fiecărui nod „copil” (adică este o procedură recursivă)
  • Împărțirea se oprește când CART detectează că nu se poate obține un câștig suplimentar sau dacă sunt îndeplinite anumite reguli de oprire predefinite. (Alternativ, datele sunt împărțite cât mai mult posibil și apoi arborele este mai târziu tăiat.)

Fiecare ramură a copacului se termină într-un nod terminal. Fiecare observație cade într-un singur și exact un nod terminal și fiecare nod terminal este definit unic printr-un set de reguli.

O metodă foarte populară pentru analiza predictivă este pădurile aleatoare ale lui Leo Breiman.

Funcții spline adaptive de regresie multivariate

Splinele de regresie adaptivă multivariabilă (MARS) este o tehnică non-parametrică care construiește modele flexibile prin potrivires regresiilor liniare pe porțiuni.

Un concept important asociat cu splinele de regresie este acela al unui nod. Nodul este locul în care un model local de regresie face loc celuilalt și astfel este punctul de intersecție între două spline.

În splinele de regresie multivariate și adaptive, funcțiile de bază sunt instrumentul utilizat pentru generalizarea căutării nodurilor. Funcțiile de bază sunt un set de funcții utilizate pentru a reprezenta informațiile conținute în una sau mai multe variabile. Modelul de regresie multivariat și adaptiv Splines aproape întotdeauna creează funcțiile de bază în perechi.

Abordarea spline de regresie multivariată și adaptivă reglează în mod deliberat modelul și apoi simplifică pentru a ajunge la modelul optim. Algoritmul este foarte intensiv din punct de vedere computațional și, în practică, suntem obligați să specificăm o limită superioară a numărului de funcții de bază.

Tehnici de învățare automată

Învățarea automată, o ramură a inteligenței artificiale, a fost inițial utilizată pentru a dezvolta tehnici pentru a permite calculatoarelor să învețe. Astăzi, deoarece include o serie de metode statistice avansate de regresie și clasificare, aceasta se găsește în aplicații într-o gamă largă de domenii, incluzând diagnosticarea medicală, detectarea fraudei cardului de credit, recunoașterea și analiza feței și a vorbirii și analiza pieței bursiere. În anumite aplicații, este suficientă prezicerea directă a variabilei dependente fără a se concentra asupra relațiilor de bază dintre variabile. În alte cazuri, relațiile de bază pot fi foarte complexe și forma matematică a dependențelor necunoscute. Pentru astfel de cazuri, tehnicile de învățare automată simulează cunoașterea umană și învață din exemple de instruire pentru a prezice evenimentele viitoare.

Rețele neuronale

Rețelele neuronale sunt tehnici de modelare neliniară sofisticate care sunt capabile să modeleze funcții complexe. Acestea pot fi aplicate la probleme de predicție, clasificare sau control într-un spectru larg de domenii, cum ar fi finanțe, psihologie cognitivă/neuroștiințe, medicină, inginerie și fizică.

Rețelele neuronale sunt utilizate atunci când natura exactă a relației dintre intrări și ieșiri nu este cunoscută. O caracteristică-cheie a rețelelor neuronale este aceea de a afla relația dintre intrări și ieșiri prin instruire. Există trei tipuri de instruire utilizate de diferite rețele neuronale: instruirea supravegheată și nesupravegheată și învățarea de consolidare, supravegherea fiind cea mai comună.

Câteva exemple de tehnici de formare a rețelelor neuronale sunt retropagarea , propagarea rapidă, coborârea conjugată în gradient, operator de proiecție, Delta-Bar-Delta etc. Unele arhitecturi de rețea nesupravegheate sunt perceptronuri multistrat, rețele Kohonen, rețele Hopfield etc.

Perceptron multistrat (MLP)

Perceptronul multistrat (MLP) constă dintr-un strat de intrare și de ieșire cu unul sau mai multe straturi ascunse de noduri care nu activează liniar sau noduri sigmoide. Aceasta este determinată de vectorul de pondere și este necesar să se ajusteze ponderea rețelei. Retropagarea folosește gradientul pentru a minimiza eroarea pătrată între valorile de ieșire ale rețelei și valorile dorite pentru aceste ieșiri. Ponderile sunt ajustate printr-un proces iterativ de prezentare repetitivă a atributelor. Modificări minore ale ponderii pentru a obține valorile dorite se fac prin procesul numit de formare a rețelei și se face prin setul de antrenament (regulă de învățare).

Funcții radiale de bază

Funcția radială de bază (RBF) este o funcție care a încorporat în ea un criteriu de distanță față de un centru. Astfel de funcții pot fi utilizate foarte eficient pentru interpolare și pentru netezirea datelor. Funcțiile radiale de bază au fost aplicate în domeniul rețelelor neuronale, unde sunt folosite ca înlocuitori pentru funcția de transfer sigmoidal. Astfel de rețele au 3 straturi, stratul de intrare, stratul ascuns cu non-liniaritatea RBF și un strat linear de ieșire. Cea mai populară alegere pentru non-linearitate este gaussiană. Rețelele RBF au avantajul de a nu fi blocate în minimele locale, la fel ca și rețelele de feed-forward, cum ar fi perceptronul multistrat.

Mașini cu vectori de suport

Masinile cu vectori de suport (SVM) sunt folosite pentru a detecta si exploata modele complexe in date prin gruparea, clasificarea si toparea datelor. Sunt mașini de învățare care sunt utilizate pentru a efectua clasificări binare și estimări de regresie. Ele folosesc în mod obișnuit metode bazate pe kernel pentru a aplica tehnici de clasificare liniară la probleme de clasificare neliniară. Există o serie de tipuri de SVM, cum ar fi liniare, polinomiale, sigmoidale, etc.

Bayesiene naive

Bayesienele naive bazate pe regula probabilității condiționale Bayes sunt utilizate pentru efectuarea sarcinilor de clasificare. Bayesienele naive presupun că predictorii sunt independenți din punct de vedere statistic, ceea ce le face un instrument eficient de clasificare ușor de interpretat. Sunt cel mai bine folosite atunci când se confruntă cu problema „blestemului dimensionalității”, adică atunci când numărul predictorilor este foarte mare.

Vecinul k-cel mai apropiat

Algoritmul vecinului cel mai apropiat (KNN) aparține clasei metodelor statistice de recunoaștere a modelului. Metoda nu impune a priori nicio ipoteză cu privire la distribuția din care este extrasă proba de modelare. Aceasta implică un set de instruire cu valori pozitive și negative. Un nou eșantion este clasificat prin calcularea distanței până la cel mai apropiat caz de instruire învecinat. Semnul acelui punct va determina clasificarea eșantionului. În clasificatorul k-cel mai apropiat vecin sunt considerate cele mai apropiate puncte k și semnul majorității este utilizat pentru a clasifica eșantionul. Performanța algoritmului kNN este influențată de trei factori principali: (1) măsura distanței utilizată pentru localizarea celor mai apropiați vecini, (2) regula de decizie folosită pentru a obține o clasificare de la vecinii k-cel mai apropiat și (3) numărul de vecini folosit pentru a clasifica noul eșantion. Se poate demonstra că, spre deosebire de alte metode, această metodă este universal convergentă asimptotic, adică dacă mărimea ansamblului de training crește, dacă observațiile sunt independente și distribuite identic, indiferent de distribuția din care este prelevat mostra, clasa previzionată va converge la atribuirea clasei care minimizează eroarea de clasificare eronată.

Modelarea predictivă geospațială

Conceptual, modelarea predictivă geospatială are rădăcina în principiul conform căruia aparițiile evenimentelor care sunt modelate sunt limitate în distribuție. Ocurențele evenimentelor nu sunt nici uniforme, nici întâmplătoare în distribuție – există factori de mediu spațial (infrastructură, socioculturală, topografică etc.) care constrâng și influențează locurile în care au loc evenimentele. Modelarea predictivă geospațiativă încearcă să descrie acele constrângeri și influențe prin corelarea spațială a localizărilor geospațiale istorice cu factorii de mediu care reprezintă acele constrângeri și influențe. Modelarea predictivă geospațială este un proces de analiză a evenimentelor printr-un filtru geografic pentru a face declarații de probabilitate pentru apariția sau ocurența evenimentului.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *