* The preview only shows a few pages of manuals at random. You can get the complete content by filling out the form below.
Description
Capitolul 1. Tehnici de explorare a datelor Într-o cercetare a lumii înconjurătoare ne bazăm, de regulă, pe existenţa unui număr de indivizi distincţi ai unei populaţii studiate. În legătură cu aceşti indivizi (obiecte sau cazuri) urmărim una sau mai multe mărimi care, credem noi, îi caracterizează; acestea sunt numite caracteristici. Cercetarea poate fi făcută fie în mod exhaustiv, luând în studiu toată populaţia – ceea ce este foarte costisitor atunci când populaţia este numeroasă – fie prin eşantion alegând, după reguli bine precizate, un grup „reprezentativ” al populaţiei. Cercetătorul în analiza datelor nu este însă interesat de aceste detalii; lui i se oferă „nişte informaţii” prezentate în general sub forma unui tabel (matrice) de date. El are ca sarcină să extragă din acest tabel de date cât mai multă „informaţie semnificativă” – sub formă numerică şi/sau grafică – şi s-o prezinte într-o formă cât mai restrânsă – cât mai puţine linii şi coloane. Odată acest deziderat realizat, orice decizie viitoare privind comportamentul populaţiei studiate poate fi explicată prin argumente ştiinţifice. 1.1 Matrice de date – exemple practice În această secţiune ne vom referi la exemplele prezentate în Anexele 1 şi 2 ale materialului. Toate acestea conţin informaţii primare, din diverse domenii economice, prezentate sub forma unei matrice de date. Vom descrie natura informaţiei din aceste exemple şi posibile analize efectuate asupra lor. Exemplul 1. Problema unui dealer de autoturisme Informaţiile de care dispune un dealer de autoturisme sunt prezentate în tabelul 1 din Anexa 1. Acest tabel conţine caracteristicile unor mărci de autoturisme oferite spre vânzare. Tabelul (matrice) are 26 de linii – corespunzătoare mărcilor de autoturisme analizate şi 7 coloane, reprezentând preţul şi alte caracteristici tehnice şi de confort ale autoturismelor. Dealerul doreşte să afle, folosind tabelul de date, ce caracteristici ale maşinilor sunt definitorii în decizia unui client de a cumpăra un autoturism. Există oare în viziunea cumpărătorului clase (grupuri) de autoturisme? Dacă da, care sunt acestea? Exemplul 2. Problema unui investitor Un investitor are informaţii privind principalii indicatori financiarcontabili calculaţi din bilanţurile contabile ale unui lot de firme
(vezi tabelul 2 din Anexa 1). Aceştia pot fi însă foarte numeroşi. Investitorul nu ar renunţa în analiza lui, fără argumente bine precizate, la nici unul dintre indicatori. Singur, nu are capacitatea de a-i selecta pe cei mai importanţi, şi nici nu poate să ordoneze firmele după potenţialul (bonitatea) lor ţinând seama de toţi indicatorii. Dacă, s-ar putea calcula nişte scoruri ale firmelor pe seama unor „indicatori sintetici” deduşi din indicatorii iniţiali, atunci decizia investitorului nu ar mai fi pur subiectivă, ea ar avea un suport ştiinţific şi probabil că riscul asociat deciziei de a investi ar fi mai mic. Exemplul 3. Studiul indicatorilor de calitate a vieţii În plin proces de globalizare este important să ştim la ce „distanţă” suntem de alte ţări ale Europei sau chiar faţă de alte ţări ale lumii. Indicatorul sintetic numit „calitatea vieţii”, bine definit de specialişti, ne poate ajuta să răspundem la această întrebare. Putem folosi informaţii ca cele din tabelul 3 al Anexei 1 în care sunt prezentate principalele elemente ce stau la baza calculului indicatorului de calitate a vieţii pentru un număr de 23 de ţări ale lumii. În tabel (matrice) sunt prezentate următoarele date (la nivelul anului 1992): sporul natural al populaţiei, mortalitatea infantilă, gradul de urbanizare, numărul de medici la mia de locuitori, numărul de receptoare de televiziune la mia de locuitori, rata inflaţiei, cheltuielile pentru educaţie, cele pentru apărare, importul şi exportul precum şi consumul de energie pe locuitor. Oare toţi aceşti indicatori au aceeaşi importanţă în exprimarea indicatorului sintetic „calitatea vieţii”? Dacă nu, se pot identifica doi sau trei indicatori sintetici pe baza cărora să putem ordona ţările din punctul de vedere al calităţii vieţii locuitorilor? Care ar fi poziţionarea României în această clasificare, ce ţări ne-ar fi apropiate din acest punct de vedere? Exemplul 4. Studiul repartiţiei bugetului Dacă dispunem de informaţii anuale – pe o perioadă mare de timp – privind repartiţia bugetului unei ţări, putem oare identifica momentele strategice importante privind politica ţării respective? Ca exemplu tipic vom folosi datele prezentate în tabelul 4 al Anexei 1, tabel (matrice) ce conţine repartiţia bugetului Franţei în perioada 1872-1971. Folosind tehnicile analizei datelor pot fi puse în evidenţă momentele premergătoare celor două războaie mondiale, care au fost precedate de alocări mai mari din buget spre cheltuielile militare, dar şi momentele de acalmie între cele două războaie mondiale şi după al doilea război mondial, când bugetul a fost repartizat cu predilecţie spre activităţi de învăţământ şi asistenţă socială.
Exemplul 5. Analiza rentabilităţii unui portofoliu În constituirea unui portofoliu putem să folosim informaţii de tipul celor conţinute în tabelul 5 al Anexei 1. Dispunem de un număr de 13 companii din domeniul ITC, companii listate pe S&P 500. Ele apar ca linii în tabelul de date; fiecare linie conţine informaţii privind evoluţia tranzacţiilor acţiunilor pe piaţa de capital în doi ani consecutivi, adică: preţul la deschidere, preţul la închidere, preţul minim şi preţul maxim, volumul tranzacţiilor, câştigul (în %) etc. (toate ca valori medii ale anului respectiv). Ne mai interesează să estimăm rentabilităţi ale activelor şi eventualele riscuri în constituirea unui portofoliu. În acest scop putem apela tehnici de clasificare care să evidenţieze factorii latenţi care au guvernat tranzacţia activelor din portofoliu pe perioada analizată, de asemenea putem clasifica companiile în grupuri cât mai omogene în ceea ce priveşte evoluţia indicatorilor analizaţi în dinamică, etc. Exemplul 6. Analiza riscului returnării unui credit Tabelul 6 din Anexa 1 conţine informaţii sub forma unei matrice de date. Pe linii sunt clienţii unei bănci (selecţie din totalul clienţilor) ) ce au solicitat credite. Pe coloane avem o serie de elemente privind informaţii financiare şi demografice pentru fiecare client. În matricea datelor o importanţă aparte o are coloana nouă în care se specifică, într-o formă codificată, dacă clientul a avut înainte probleme de rambursare a vreunui credit sau nu. Astfel, din start clienţii sunt grupaţi în două clase: una a celor cu probleme de rambursare, iar cealaltă a celor fără antecedente. Tehnicile de clasificare şi analiză a discriminării ne permit să precizăm prin ce combinaţii de atribute financiare şi demografice pot fi caracterizaţi clienţii din fiecare clasă şi să facem previziuni asupra comportării unor clienţi noi al băncii privind încadrarea lor într-o clasă sau alta. Exemplul 7. Informaţii dintr-un chestionar Analiza datelor constituie un suport foarte important pentru deciziile privind marketingul ştiinţific. Perceperea unui produs de către un segment de cumpărători, gradul de saturare al pieţei produsului şi decizia de lansare a unui produs nou (sau într-o formă nouă) sunt materializate folosind tehnica chestionarului şi analiza datelor. Prezentăm în Anexa 2 un asemenea chestionar realizat în scopul identificării stării actuale privind dotarea populaţiei cu aparate audio-video, mărcile de televizoare mai cunoscute şi cele preferate la o eventuală achiziţionare de către cumpărători.
1.2 Scări de măsurare ale caracteristicilor Putem afirma că toate exemplele date anterior conţin informaţii întrun tabel –matrice de date – (vezi tabelul 1). În general, fiecare linie reprezintă un individ (obiect) din mulţimea celor studiaţi, pe coloane regăsindu-se caracteristicile urmărite. Să presupunem că avem n indivizi asupra cărora studiem p caracteristici notate C1, C2, …, Cp. Matricea de date o putem scrie X = xij . În această matrice un element xij i =1, 2,..., n; j =1, 2,..., p
( )
exprimă valoarea caracteristicii j măsurată pentru individul i. De exemplu, dacă folosim datele din tabelul 1 al Anexei 1, autoturismul Opel Corsa Swing este al 10-lea individ (obiect) în tabelul de date, iar elementul x10,1 = 13050 reprezintă caracteristica preţ (în $) a maşinii respective. Datele din tabelul 1 al Anexei 1 sunt, prin urmare, un exemplu de matrice (tabel) de forma indivizi × caracteristici.
Indivizii
Tabelul 1. Forma generală a matricei indivizi × caracteristici
1 2 … i … n
C1 x11 x21 … xi1 … xn1
C2 x12 x22 … xi2 … xn2
Caracteristicile … Cj … x1j … x2j … … … xij … … … xnj
… … … … … … …
Cp x1p x2p … xip … xnp
Precizarea scărilor de măsurare ale caracteristicilor observate, pe grupul de indivizi, este esenţială în identificarea tehnicii de modelare şi analiză. Fiecărei caracteristici i se asociază o scară de măsurare conform cu natura informaţiei conţinute şi cu modul în care o percepem. După precizarea scării de măsurare, caracteristica respectivă va fi reprezentată printr-o aşa numită variabilă. Explorând tabelele de date prezentate în exemplele anterioare putem afirma că există o mare diversitate în a exprima ansamblul indivizi × caracteristici. În exemplul 1 avem ca indivizi tipurile de autoturisme, iar caracteristicile sunt preţul, viteza, consumul de carburant etc. Remarcăm faptul că aceste caracteristici sunt transformate în variabile prin exprimarea în unităţi clasice de măsură: monetare, kilometri la oră, litri la suta de kilometri etc. În exemplul 2 indicatorii de bonitate calculaţi pentru firme sunt rate, adică rapoarte ale diverselor mărimi din documentele contabile. Aceste mărimi – indicatorii – devin variabile numerice
cantitative; evident, încadrarea valorilor fiecărui indicator într-un anumit interval este foarte importantă. Bineînţeles, exemplele pot continua. În general, variabilele pot fi clasificate în: variabile continue (cantitative) şi variabile categoriale (calitative). A) Variabilele continue provin din caracteristici ce exprimă atribute cantitative ale indivizilor. Scara lor de măsură este continuă, putând acoperi – în general – un interval de valori. De exemplu, preţul – unui autoturism sau unui activ financiar – este o variabilă continuă; de obicei ia valori numerice (exprimate în lei, euro etc.) cuprinse între un minim şi un maxim. Cu aceste valori se pot efectua cele patru operaţii aritmetice clasice, iar indicatorii statistici relevanţi, calculaţi pe baza valorilor observate, sunt media şi abaterea medie pătratică. Şi variabilele ale căror valori sunt exprimate în procente sau în rate (vezi aplicaţia 2) sunt variabile continue. B) Variabilele categoriale provin din caracteristici care exprimă atribute calitative. Aceste variabile au două sau mai multe nivele de valori, nivele numite modalităţi sau categorii. Există o subclasificare a lor în trei grupe, astfel: B1) Variabilele nominale au de obicei mai mult de două nivele. De exemplu, caracteristica Nivelul educaţiei din Exemplul 6 al Anexei 1, este o variabilă nominală având modalităţile: Fără liceu – codificată prin 1 Doar cu liceu – codificată prin 2 Facultate neterminată – codificată prin 3 Licenţiat – codificată prin 4 Postuniversitare – codificată prin 5 B2) Variabilele binare au doar două valori-nivele. În Exemplul 6 din Anexa 1 variabila Probleme anterioare de rambursare are două nivele (modalităţi): Nu codificat prin 0 Da codificat prin 1. B3) Variabilele ordinale sunt variabile ale căror nivele, de obicei mai mult de două, pot fi comparate între ele. În general, în situaţiile întâlnite în cercetarea de marketing, la aceste variabile respondentul unui chestionar alege un răspuns din câteva răspunsuri posibile, ordonate calitativ; el îşi exprimă astfel, în mod preferenţial, opinia sa despre un anumit atribut.
Putem da ca exemplu de variabilă ordinală răspunsul la o întrebare din chestionarul din Anexa 2, şi anume la întrebarea: În alegerea unei anumite mărci de aparat, în ce măsură vă influenţează reclama? Mă influenţează foarte mult 1
mult 2
potrivit 3
puţin 4
deloc 5
Se observă că acestor răspunsuri de natură calitativă li se asociază câte un cod numeric (1, 2 ş.a.m.d.). 1.3 Explorarea variabilelor continue În exemplele prezentate în §1.2 apar o serie de caracteristici ale unor grupuri de indivizi cărora li se asociază scări de măsurare continue. O asemenea scară acoperă, de regulă, un interval de valori. Putem vorbi în acest sens de preţul (în lei sau valută) al unor autoturisme, de preţul în dinamică al unui activ financiar tranzacţionat pe piaţa de capital dar şi de ratele financiare asociate în analiza bonităţii unor firme sau de diverse valori procentuale. În exemplele prezentate informaţiile apar ca matrice de date de forma indivizi × caracteristici iar prelucrarea lor primară se realizează, de regulă, în două etape şi anume: A) prelucrarea independentă a câte unei variabile; B) prelucrarea comună a două sau mai multe variabile. Să analizăm, pe rând, cele două etape. A) Prelucrarea independentă a câte unei variabile presupune selectarea, din matricea de date X = xij , a câte unei
( )i=1,2,...,n; j =1,2,..., p
coloane ce reprezintă valori observate asupra unei variabile de tip continuu. Pentru simplificare, să notăm elementele matricei corespunzătoare acestei variabile selectate cu ( x1 , x 2 ,..., x n ) T . Secvenţa aleasă reprezintă valori observate asupra celor n indivizi din analiza noastră. Primele informaţii statistice legate de valorile x1 , x 2 ,..., x n se referă la evaluări ale tendinţei centrale; acestea sunt: a)
1 Media, notată m x , se calculează cu formula n indicator important al tendinţei centrale.
n
∑ x , ea fiind un i
i =1
b)
Mediana este asociată secvenţei x(1) , x( 2) ,..., x( n ) ce reprezintă valorile x1 , x 2 ,..., x n ordonate crescător. Ea este acea valoare (nu neapărat dintre valorile x1 , x 2 ,..., x n ) pentru care numărul valorilor din secvenţa x (1) , x ( 2) ,..., x ( n ) care-i sunt mai mici este acelaşi cu numărul valorilor care-i sunt mai mari.
c)
Modul este acea valoare cu frecvenţa cea mai mare de apariţie. (El nu este în mod necesar unic.)
modul
modul mediana media
mediana media
a) Repartiţie asimetrică (right skewed) b) Repartiţie asimetrică (left skewed)
modul=mediana=media
c) Repartiţie simetrică Figura 1. Evaluări ale tendinţei centrale
Pentru a evalua împrăştierea datelor se folosesc următorii indicatori: a) Varianţa (dispersia), notată
1 n −1
n
∑ (x − m ) i
x
2
.
s x2 , este calculată cu formula (1)
i =1
b) Abaterea standard, notată
1 n −1
n
∑ (x − m ) i
i =1
x
2
.
s x , este calculată cu formula
(2)
c) Amplitudinea este calculată ca diferenţă între valoarea maximă şi valoarea minimă a valorilor x1 , x 2 ,..., x n . Este important ca, pentru diverse tipuri de distribuţii ale frecvenţelor valorilor x1 , x 2 ,..., x n , să punem în evidenţă relaţii de ordine între cei trei indicatori ai tendinţei centrale. Prezentăm în figura 1 cele trei situaţii posibile. Astfel, în figura 1 c) prezentăm o repartiţie simetrică pentru care cei trei indicatori ai tendinţei centrale coincid. În figura 1 a) şi 1 b) avem repartiţii asimetrice, prima fiind „skewed dreapta” iar cea de-a doua fiind „skewed stânga”. Relaţiile de ordine între cele trei valori pentru mod, mediană şi medie sunt evidenţiate clar în graficele menţionate. Exemplu: Fie secvenţa de şase numere 2, 5, 0, 9, 0, 7 reprezentând observaţii asupra a şase indivizi. Secvenţa ordonată crescător o obţinem imediat, ea este 0, 0, 2, 5, 7, 9. Valorile ce măsoară tendinţa centrală sunt: media = 3.83, mediana se află între valorile 2 şi 5, prin interpolare putem lua valoarea 3.5. Se observă faptul că mediana separă secvenţa de valori ordonate în jumătate, 50% dintre valori fiind mai mici decât ea şi 50% dintre valori fiind mai mari decât ea. Modul valorilor 2, 5, 0, 9, 0, 7 – adică valoarea cu frecvenţa cea mai mare – este 0 (aici frecvenţa maximă este 2).
Media, mediana şi modul sunt trei indicatori ai localizării „centrului” valorilor dintr-o secvenţă de date. În analiza repartiţiei valorilor observate, la fel de importante sunt şi alte măsuri ale localizării datelor. Acestea sunt cunoscute sub numele de percentile şi cuartile, şi sunt asociate secvenţei de valori x (1) , x ( 2) ,..., x ( n ) . 1) Percentila de ordinul p este acea valoare, notată aici Pp , care are proprietatea că p% dintre valorile secvenţei sunt mai mici decât ea şi (100 – p)% dintre valori sunt mai mari decât ea. 2) Cuartila inferioară, notată Q1 , este percentila 25. 3) Cuartila de mijloc, notată Q2 , este percentila 50. Se observă faptul că cuartila Q2 este tocmai mediana. 4) Cuartila superioară, notată Q3 este percentila 75. Cuartilele se folosesc pentru a analiza dispersia valorilor secvenţei x1 , x 2 ,..., x n calculându-se cu ajutorul lor aşa-numitul indicator interquartile (notat IQR). El este calculat ca diferenţa dintre percentila 75 ( Q3 ) şi percentila 25 ( Q1 ). În cazul unei repartiţii normale a datelor acest interval trebuie să fie aproximativ 1.35 din abaterea standard a datelor.
Tratarea punctelor aberante. Uneori, în secvenţa de valori x1 , x 2 ,..., x n este semnalată prezenţa unor valori outliers (aberante ca mărime în raport cu celelalte). În aceste situaţii unii indicatori de localizare centrală sunt mult denaturaţi (deplasaţi) şi este indicat să calculăm aşa numitele medii „robuste”. Acestea încearcă să elimine efectul valorilor aberante (fără a afecta rezultatele). Dintre mediile robuste amintim: 1) Media winsorizată 95%, în calculul căreia primele 2.5% dintre valorile ordonate sunt înlocuite cu „percentila 2.5” şi ultimele 2.5% dintre valori sunt înlocuite cu „percentila 97.5”. 2) Media trunchiată 95%, trimmed mean, este calculată excluzând primele 2.5% şi ultimele 2.5% dintre valorile secvenţei ordonate. Tehnicile grafice sunt foarte relevante şi în cazul variabilelor continue. Putem reprezenta datele sub formă de histograme, box plot-uri (vezi figura 3), high-low plot-uri. Exemplu. Să considerăm variabila Preţul la deschidere (coloana corespunzătoare anului 2000 din Exemplul 5, Anexa 1). Aceasta este o variabilă continuă, valorile ei exprimând preţul la deschiderea bursei pentru acţiunile celor 13 companii (sunt valori medii anuale). Pentru a face o apreciere generală asupra evoluţiei unui portofoliu compus din aceste acţiuni, ne interesează indicatorii de centrare şi de împrăştiere ai variabilei preţ. Prezentăm în tabelul 2 valorile indicatorilor prezentaţi mai sus, outputul fiind de tip SPSS. Tabelul 2. Preţul la deschidere – indicatori statistici N
Valid
Mean Median Mode Percentiles
13 60.63 50.16 14.93 38.43 50.16 92.68
25 50 75
a) Media, mediana, modul şi cuartilele Open 2000 Valid N (listwise)
N 13
Minimum 14.93
Maximum 109.14
Mean 60.6344
Std. Dev. 30.4471
Variance 927.026
13
b) Valoarea minimă, maximă, media, abaterea medie pătratică şi varianţa
Evident, ne-ar interesa şi repartiţia valorilor de preţ, prezentată sub formă de histogramă, evidenţiind frecvenţa pe subintervale date. Luând subintervale constante (de mărime de exemplu 20), prezentăm în figura 2 o histogramă a frecvenţelor valorilor variabilei Preţul la deschidere. Se observă că cele mai multe dintre valorile preţului au fost între 40 şi 60 iar în subintervalul 60 – 80 nu avem nici o valoare de preţ.
Figura 2. Preţul la deschidere – histograma frecvenţelor
B) Prelucrarea a două variabile continue presupune selectarea, din matricea de date X = xij , a câte două coloane ce i =1, 2,...,n; j =1, 2,..., p
( )
reprezintă valori observate asupra celor două variabile. Să notăm aceste variabile cu x şi y iar valorile observate asupra lor cu ( x1 , x 2 ,..., x n ) şi ( y1 , y 2 ,..., y n ) respectiv. 1) Pentru a studia corelaţia (legătura liniară) între aceste două variabile considerăm cele n perechi de valori ( xi , y i ) i =1,2,...,n cu ajutorul cărora calculăm aşa-numitul coeficient de corelaţie Pearson. Acesta se calculează cu formula: s x, y (3) rx, y = sx s y în care s x şi s y sunt abaterile standard iar s x, y este covarianţa dintre valorile x şi valorile y calculată cu formula: s x, y =
1 ∑ ( xi − m x )( yi − m y ) n −1
(4)
Valorile coeficientului de corelaţie sunt cuprinse în intervalul [–1, 1]. Cele n perechi de valori ( xi , y i ) pot fi reprezentate prin puncte într-un plan. Atunci când avem impresia că punctele au tendinţa de a se alinia unei drepte, ne exprimăm spunând că există o corelaţie liniară între variabilele x şi y. Dacă valorile lui y au acelaşi sens de creştere cu valorile lui x, se spune că avem o corelaţie pozitivă. Dimpotrivă, dacă valorile lui y descresc atunci când valorile lui x cresc, se vorbeşte despre o corelaţie negativă.
120.00
IBM 100.00
80.00
60.00
40.00
20.00
0.00
2000
2001
year
Figura 3. Preţul la deschidere (box-plot)
Coeficientul Pearson este folosit pentru a măsura gradul de corelare între variabilele x şi y; anume, lipsa corelării este indicată de valori apropiate de 0, corelarea „pozitivă” este indicată printr-o valoare a coeficientului apropiată de 1, în timp ce corelarea „negativă” este indicată printr-o valoare a coeficientului apropiată de –1. 2) Pentru compararea comportamentului comun al celor două variabile, pe baza percentilelor (calculate pentru fiecare variabilă), se foloseşte graficul de tip box-plot şi graficul de tip Q-Q plot. Pe graficul box-plot se marchează, de regulă, valorile minim, maxim şi mediana alături
de cuantilele Q1 şi Q3 pentru secvenţele de valori ( x1 , x 2 ,..., x n ) şi ( y1 , y 2 ,..., y n ) . Pe graficul Q-Q plot se prezintă în plan perechile de valori conţinând percentile calculate pentru cele două variabile. O aliniere a acestora aproximativ pe o dreaptă înseamnă că repartiţiile celor două variabile sunt asemănătoare.
No rm al Q- Q Plot o f O p en 2000 120
Expected Normal Value
100
80
60
40
20
0 0
20
40
60
80
100
120
Observed V alue
Figura 4. Preţul la deschidere (Q-Q plot)
Observaţie. Graficul Q-Q plot poate fi folosit şi pentru a verifica faptul că o secvenţă de valori, de exemplu ( x1 , x 2 ,..., x n ) , urmează sau nu o repartiţie normală. În aceste situaţii se analizează perechile de valori constând din percentilele variabilei normale şi percentilele secvenţei ( x (1) , x ( 2) ,..., x ( n ) ) . Exemplu. Putem continua analiza grafică din exemplul anterior prezentând sub formă de box-plot (pentru cei doi ani 2000 şi 2001) evoluţia în ansamblu a principalilor indicatori de centrare şi împrăştiere. Prezentăm în figura 3 un asemenea box-plot în care au fost evidenţiate minimul, maximul, percentilele de 25, 50 (mediana) şi 75 pentru valorile preţurilor în
cei doi ani consecutivi. O analiză importantă asupra valorilor preţurilor este şi cea dată de graficul Q-Q plot (vezi figura 4); acesta permite compararea valorilor observate pentru anul 2000 cu cele care ar rezulta dintr-o repartiţie (teoretică) normală. În analiză putem folosi funcţia grafică high-low plot (vezi figura 5 şi apoi figura 6). Mean Low 2000 High 2000
120.00
Low 2001 High 2001
100.00
80.00
60.00
40.00
20.00
0.00
AAPL
CPQ
DELL
EMC
GTW
HWP
IBM
LXK
NCR
NTAP
PALM
SUNW
UIS
Trading symbol
Figura 5. Evoluţia preţului minim şi maxim (în anii 2000 şi 2001), pe companii
Prelucrarea a mai mult de două variabile continue presupune analizarea simultană a tuturor coloanelor din matricea de date . Asociem în acest fel matricei X (de dimensiune X = xij i =1, 2,...,n; j =1, 2,..., p
( )
n × p) o altă matrice, notată de obicei cu R, de dimensiune p × p, ce conţine coeficienţii de corelaţie liniară Pearson, calculaţi între toate perechile de variabile. Avem, prin urmare, matricea R de forma: ⎛1 ⎜ ⎜ r21 R =⎜ ... ⎜ ⎜ rp1 ⎝
r12 1 ... rp 2
... r1p ⎞ ⎟ ... r2 p ⎟ ... ... ⎟ ⎟ ... 1 ⎟⎠
(5)
cu toate elementele de pe diagonala principală egale cu unu ( rii = 1 pentru i = 1,2,..., p ) şi rij = r ji pentru i = 1,2,..., p şi j = 1,2,..., p .
Mean 1.00
Fund avg % gain 2000 zero Fund avg % gain 2001 zero
0.50
0.00
-0.50
-1.00
-1.50
-2.00
AAPL
CPQ
DELL
EMC
GTW
HWP
IBM
LXK
NCR
NTAP
PALM
SUNW
UIS
Trading symbol
Figura 6. Rentabilităţile companiilor în anii 2000 şi 2001
Se urmăreşte în principal identificarea perechilor de variabile – ce corespund coloanelor x i , x j din matricea X – pentru care, în matricea R a corelaţiilor, coeficienţii rij = r ji sunt „mari” (adică peste 0.8 în valoare absolută). Să facem observaţia că, în cazul apariţiei unei valori rij mai mari de 0.95 în valoare absolută, corelaţia foarte puternică constatată între variabilele respective ne permite să eliminăm din studiu una dintre ele (ea fiind reprezentată foarte bine de cealaltă).
1.4 Explorarea variabilelor categoriale În prelucrarea variabilelor categoriale aflate într-o matrice de date de forma indivizi × caracteristici distingem de asemenea două etape, şi anume: A) Analiza, pe rând, a câte unei variabile categoriale; B) Analiza comportamentului comun a două sau mai multe variabile categoriale. A) Aşa cum am mai menţionat, o variabilă categorială este descrisă prin modalităţi (nivele de valori). Să notăm cu k numărul acestor modalităţi şi să presupunem că dispunem de n observaţii asupra variabilei analizate. Primele informaţii obţinute despre variabila categorială sunt date de frecvenţele pe modalităţi şi apoi de frecvenţele relative observate. Sintetic, dacă notăm cu ni frecvenţa observată şi cu
ni n
frecvenţa relativă pe
modalitatea i (evident, 1 ≤ i ≤ k ), putem construi un tabel ca cel de mai jos. 1
2
…
i
…
k
Total (valori observate)
n1
n2
…
ni
…
nk
n
n1 n
n2 n
…
ni n
…
nk n
1
Modalitatea Frecvenţa absolută Frecvenţa relativă (proporţia)
Exemplul 1. O firmă doreşte să estimeze cota de piaţă a produsului său. Să presupunem că piaţa este concurenţială existând 6 competitori (firme) care comercializează produsul respectiv. Departamentul de cercetare în marketing al firmei efectuează un studiu pe baza de chestionar pe un eşantion reprezentativ de n consumatori (aleşi independent unul de celălalt) cărora li se cere să-şi exprime preferinţa unică faţă de cele 6 firme. Identificăm în experimentul nostru o variabilă categorială cu 6 modalităţi – numărul firmelor. Dacă dispunem de observaţii pe un eşantion de volum n = 120, rezultatul experimentului poate fi cel din tabelul următor: Firma Valori observate (preferinţe)
1
2
3
4
5
6
Total
16
22
15
23
24
20
120
Grafic, informaţia privind răspunsul consumatorilor, adică profilul dat de linia frecvenţelor, este importantă pentru cercetătorul în marketing (vezi figura 7).
30
25
20
15
10
5
0
1
2
3
4
5
6
Figura 7. Histograma preferinţelor cumpărătorilor
Analizând graficul din figura 7 şi cunoscând rezultatele unor cercetări anterioare privind cotele de piaţă, pe alte eşantioane, cercetătorul de marketing se poate întreba dacă preferinţele consumatorilor sunt sau nu egal repartizate spre cele 6 firme. Oare diferenţele între frecvenţele observate pentru modalităţi sunt semnificative statistic? În general, considerând întreaga populaţie de consumatori, să notăm cu p i probabilitatea ca să fie selectată firma i (pentru 1 ≤ i ≤ 6 ). Evident, 6
∑p
i
= 1 şi putem să considerăm perechea de ipoteze:
1
H0 : p1 = p 2 = ... = p 6 =
1 6
(adică preferinţele sunt echiprobabile)
H1 : cel puţin o probabilitate p i are o valoare ce diferă de
1 6
.
Ce argumente avem pentru a accepta sau a respinge ipoteza H0 ? În cele ce urmează vom încerca să răspundem la această întrebare, prezentând un test hi-pătrat de verificare a „bonităţii ajustării”.
1.4.1 Test de bonitate a ajustării Să considerăm o variabilă categorială cu k modalităţi. Teoretic, o putem considera variabilă aleatoare discretă, dată de tabelul de forma
⎛1 ⎜⎜ ⎝ p1
2 ... k ⎞ ⎟ în care p 2 ... p k ⎟⎠
k
∑p
i
= 1.
1
Practic, putem face orice ipoteze legate de valorile probabilităţilor p1 ,..., p k . Sunt însă aceste ipoteze susţinute de realitate? Folosind eşantioane reprezentative, pe baza frecvenţelor relative care estimează probabilităţile – sau folosind un test de bonitate a ajustării – putem accepta sau respinge ipotezele făcute. Pentru a avea un suport statistic al deciziei, trebuie ca experimentul realizat în scopul obţinerii informaţiilor despre variabilă să fie un experiment multinomial, adică: 1) Cele n observaţii din eşantion să fie independente. 2) Rezultatul fiecărei observaţii să fie clasificat doar într-unul dintre cele k nivele posibile. (Fiecare nivel este numit celulă.) Dacă frecvenţele observate în cele k nivele sunt n1 , n 2 ,..., n k , atunci evident avem n1 + n2 + ... + nk = n . Atunci când efectuăm un test de bonitate a ajustării, bazat pe un experiment multinomial, asociem nivelelor (celulelor) aşa-numitele frecvenţe aşteptate. Dacă ele sunt notate cu e1 , e2 ,.., ek , atunci formula de calcul este ei = n ⋅ pi unde pi este valoarea precizată a probabilităţii pi . k
(Avem 1 ≤ i ≤ k şi
∑p
i
= 1 ). Evident, suma frecvenţelor aşteptate va fi
1
egală cu n, adică e1 + e2 + ... + ek = n . Tabelul asociat experimentului multinomial este următorul. Nivelul (celula) Valori observate Valori aşteptate
1
2
n1
n2
e1
e2
… … …
i ni ei
… … …
k nk ek
Total n n
Observaţie. Pentru k = 2 experimentul este de tip binomial, avem doar două nivele, cu probabilităţile asociate p şi respectiv 1 − p .
În general, într-un experiment multinomial valorile observate ni diferă de cele aşteptate ei şi trebuie să decidem când diferenţele sunt semnificative şi când nu. Putem folosi următoarea formulă, ce dă o măsură a abaterii între valorile observate şi cele aşteptate X2 =
∑ i
(ni − ei ) 2 . ei
(6)
Evident, în caz că X 2 = 0 , rezultă că în fiecare celulă valorile ni şi ei coincid şi, în consecinţă, există identitate deplină între cele două serii de valori (adică între cele observate şi cele aşteptate) iar ipoteza făcută asupra valorilor probabilităţilor p1 ,..., p k este adevărată. Această situaţie este însă foarte rară, de regulă X 2 > 0 . Pentru a discerne (între abateri mici şi mari), ne folosim de faptul că, într-un experiment multinomial, valorile X 2 urmează la limită o repartiţie de tip χ 2 cu k − 1 grade de libertate. Această afirmaţie este susţinută de următoarea Teoremă. Presupunem că ( X 1 , X 2 ,..., X k ) este un vector aleator repartizat multinomial cu parametrii n, p1 , p 2 ,..., p k . Atunci când n tinde spre infinit, repartiţia la limită a statisticii k
V ( n) =
∑ i =1
( X i − npi ) 2 npi
este o variabilă aleatoare χ 2 cu k − 1 grade de libertate. Testul statistic clasic este bazat prin urmare pe o distanţă χ 2 , iar etapele sunt următoarele: 1) Se formulează cele două ipoteze statistice (ipoteza nulă H0 şi ipoteza alternativă H1). H0 : p1 = p1 , p 2 = p 2 ,..., p k = p k (adică probabilităţile au valorile precizate p1 , p 2 ,..., p k ) H1 : cel puţin o probabilitate pi are o valoare ce diferă de valoarea specificată pi pentru ea în ipoteza nulă.
2) Se fixează un nivel al erorii respingerii ipotezei nule atunci când ea este de fapt adevărată, fie acesta α = 0.05, şi se identifică în tabelele statistice α–cuantila χ α2 a repartiţiei χ 2 cu k − 1 grade de libertate. 3) Se calculează valoarea X 2 a abaterilor, adică:
X
2
k
=
∑ i =1
(ni − npi ) 2 . npi
(7)
4) Valoarea X 2 se compară cu χ α2 . Regula de decizie este următoarea: Dacă X 2 < χ α2 acceptăm ipoteza nulă; dimpotrivă, dacă X 2 > χ α2 nu avem motive s-o acceptăm (vezi şi figura 8).
Figura 8. Ilustrarea regulii de decizie pentru testul de bonitate a ajustării
Revenind la studierea cotei de piaţă pe un eşantion de 120 de respondenţi precum şi la ansamblul de ipoteze H0 : p1 = p 2 = ... = p 6 =
1 6
(adică preferinţele sunt echiprobabile)
H1 : cel puţin o probabilitate p i are o valoare ce diferă de tabelul obţinut este următorul.
1 6
,
Firma Valori observate (preferinţe) ni
1 16
2 22
3 15
4 23
5 24
6 20
Total 120
Valori aşteptate ei
20
20
20
20
20
20
120
Prin aplicarea testului hi-pătrat de bonitate a ajustării obţinem valoarea statisticii X 2 = 3.5 . Pentru un nivel de eroare acceptat de 5%, cuantila corespunzătoare repartiţiei χ 2 cu 5 grade de libertate este χ α2 = 1.145 . Cum X 2 > χ α2 , suntem în zona de neacceptare a ipotezei H0, prin urmare, pe baza experimentului respingem ipoteza conform căreia toate firmele au aceeaşi cotă de piaţă. B) Să considerăm acum matricea de date de forma indivizi × caracteristici în care avem informaţii despre variabile categoriale. Când dorim să analizăm comportamentul comun a câte două asemenea variabile, construim aşa-numitele tabele de contingenţă (tabele cu dublă, triplă intrare). Mai concret, să presupunem că analizăm comportamentul comun a două variabile categoriale notate X1 şi X2, variabila X1 având r modalităţi iar variabila X2 având c modalităţi. Asupra acestei perechi de variabile se fac n observaţii de tip multinomial adică observaţiile sunt independente una de altă iar răspunsurile se încadrează unic pe celule. Un tabel de contingenţă asociat va conţine o matrice cu r linii şi respectiv c coloane, fiecare celulă a matricei conţinând frecvenţa absolută pentru celula respectivă. De exemplu, celula (i, j) va conţine numărul de observaţii pentru care variabila X1 are modalitatea i iar variabila X2 are modalitatea j. Prin urmare, pentru variabilele selectate dispunem de n observaţii ce se distribuie în celulele tabelului cuantificând în acest mod frecvenţele în celule; să le notăm cu n ij ( i = 1,2,..., r şi j = 1,2,..., c ). Tabelul de contingenţă se obţine prin bordarea matricei cu o coloană ce conţine totalurile pe linii n• j şi cu o linie ce conţine totalurile pe coloane ni • calculate astfel: r
c
ni • =
∑n j =1
ij
şi n• j =
∑n
ij
i =1
pentru ( i = 1,2,..., r şi j = 1,2,..., c ).
În tabel mai introducem celula totalului general ce conţine r
n •• =
c
∑∑ n
ij
= n (vezi şi tabelul 3).
i =1 j =1
Tabelul 3. Tabel de contingenţă
Modalităţi X1\X2 1
1
2
…
j
…
c
Total pe linii
n 11
n 12
…
n1 j
…
n 1c
n1•
2
n 21
n 22
…
n2 j
…
n 2c
n2•
… i
…
…
… …
…
…
n i2
… …
…
n i1
n ic
ni •
… r
…
…
…
nr2
n rj
… …
…
n r1
n rc
nr •
Total coloane
n •1
n •2
n• j
…
n •c
n ••
… …
n ij
…
Pentru exemplificare, să revenim la Exemplul 1 privind analiza cotei de piaţă pentru produsul firmei. În chestionarul lansat, respondenţii s-au identificat şi prin categoria de vârstă şi categoria socio-profesională (repartiţia în celule fiind cea din tabelul următor).
Categoria socio-profesională Variabila 1
Categoria de vârstă – Variabila 2 Modalităţi X1\X2
1
2
3
4
5
Total
1 2 3 4 5 6 7 Total
1 1 2 1 2 4 2 13
5 7 4 2 1 2 1 22
4 12 4 2 2 3 9 36
2 3 2 3 8 3 10 31
3 3 4 2 1 2 3 18
15 26 16 10 14 14 25 120
Exemplul 2. Să revenim la Exemplul 6 din Anexa 1, ce se referă la analiza riscului returnării unui credit. Printre variabilele financiare şi demografice ce caracterizează clienţii selectăm două variabile care sunt categoriale, şi anume Nivelul educaţiei (cu 5 modalităţi) şi Probleme
anterioare cu rambursarea ? (cu 2 modalităţi). Tabelul următor conţine pe linii modalităţile variabilei Nivelul educaţiei şi pe coloane modalităţile variabilei Probleme anterioare cu rambursarea?. Celulele tabelului conţin frecvenţele absolute pe modalităţi. Probleme anterioare de rambursare Nu Da 293 79 139 59
Valori observate Fără liceu Doar cu liceu Nivelul Facultate educaţiei neterminată Facultate Postuniversitare Total coloane
Total linie 372 198
57
30
87
24 4 517
14 1 183
38 5 700
În analiza riscului returnării unui credit ar fi interesant să identificăm toţi factorii de risc împreună cu gradul lor de implicare. În acest context, dorim să vedem în ce măsură antecedentele privind rambursarea unui credit depind sau nu de nivelul educaţiei. Vom folosi datele din tabelul de contingenţă aplicând un test de verificare a independenţei statistice a celor două variabile Nivelul educaţiei şi Probleme anterioare cu rambursarea? 1.4.2 Test de independenţă Să considerăm cele două variabile categoriale X1 şi X2 prima având r modalităţi iar cea de a doua având c modalităţi. Putem considera vectorul aleatoriu discret (X1, X2) descris prin următorul tabel: Modalităţi X1\X2
1
2
…
j
…
c
Probabilităţi marginale
1
p11
p12
…
p1 j
…
p1c
p1•
2
p 21
p 22
…
p2 j
…
p 2c
p2•
…
…
…
…
…
…
…
…
i
pi1
pi 2
…
p ij
…
pic
pi •
…
…
…
…
…
…
…
…
r
pr1
pr 2
…
p rj
…
p rc
pr•
Probabilităţi marginale
p•1
p •2
p• j
…
p •c
Am folosit următoarele notaţii relativ la populaţia studiată: 1) p ij este probabilitatea ca un individ ales la întâmplare să aparţină r
c
celulei (i, j). Evident avem ∑ ∑ p ij = 1 ; i =1 j =1
2) pi• este probabilitatea ca un individ ales la întâmplare să aparţină c
liniei i; avem p i• = ∑ p ij ; j=1
3) p • j este probabilitatea ca un individ ales la întâmplare să aparţină r
coloanei j; avem p • j = ∑ p ij i =1
Putem formula următoarele ipoteze statistice, şi anume: ipoteza de independenţă (statistică) a celor două variabile are forma: H0 : pij = pi• p• j pentru orice i = 1,2,..., r şi j = 1,2,..., c iar ipoteza alternativă o putem exprima astfel: H1 : pij ≠ pi• p• j pentru cel puţin o celulă (i, j). Să presupunem acum că efectuăm un experiment multinomial de volum n şi dispunem de informaţiile din tabelul de contingenţă. Putem să calculăm expresia r c
( n ij − np ij ) 2
i =1 j=1
np ij
V= ∑∑
care, atunci când ipoteza nulă este adevărată, se scrie r c
(n ij − np i• p • j ) 2
i =1 j=1
np i• p • j
V= ∑∑
Vom folosi, pentru probabilităţile pi• şi respectiv p• j estimaţiile (de verosimilitate maximă) n• j ni • şi p• j = n n caz în care putem estima valoarea V prin statistica:
p i• =
r c
(n ij − n i• n • j / n ) 2
i =1 j=1
n i• n • j / n
X2 = ∑ ∑
(8)
Valoarea X 2 , atunci când n tinde la infinit, este repartizată χ 2 cu ( r − 1)(c − 1) grade de libertate.
Observaţie: Pentru fiecare celulă (i, j) putem identifica valoarea aşteptată atunci când ipoteza nulă este adevărată. Astfel, dacă H0 este adevărată, valoarea
ni • n• j n
este valoarea aşteptată pentru celula (i, j).
Figura 9. Ilustrarea regulii de decizie pentru testul de independenţă
Testul statistic clasic pentru verificarea independenţei statistice a două variabile, test bazat pe repartiţia hi-pătrat, presupune: 1) Formularea celor două ipoteze statistice (ipoteza nulă H0 şi ipoteza alternativă H1), adică. H0 : pij = pi• p• j pentru orice i = 1,2,..., r şi j = 1,2,..., c iar ipoteza alternativă o putem exprima astfel: H1 : pij ≠ pi• p • j pentru cel puţin o celulă (i, j). 2) Fixarea unui nivel al erorii respingerii ipotezei nule atunci când ea este de fapt adevărată, fie acesta α = 0.05; identificarea în tabelele statistice a α–cuantilei χ12−α repartiţiei χ 2 cu k − 1 grade de libertate.
3) Calcularea valorii X 2 a abaterilor, adică: X2 =
r
c
∑∑
(nij − ni• n• j / n) 2
i =1 j =1
ni• n• j / n
.
4) Valoarea X 2 se compară cu χ12−α . Regula de decizie este următoarea: Dacă X 2 > χ12−α atunci respingem ipoteza nulă, dimpotrivă dacă X 2 < χ12−α atunci acceptăm ipoteza nulă (vezi şi figura 9). Să revenim la Exemplul 2 din acest paragraf pentru care avem în figura 10 un bar-chart al frecvenţelor pentru cele două variabile. Să aplicăm testul pentru verificarea independenţei statistice a variabilelor Nivelul educaţiei şi Probleme anterioare la rambursare? Valoarea X 2 = 11.49 iar pentru α = 0.05 obţinem χ 02.95 = 9.49 (aici χ 2 are 4 grade de libertate).
80 70 60 50 40 30 20 10 0
Yes Did not complete high s chool
High s chool degr ee
Some college
No College degr ee
P os tunder gr aduate degr ee
Figura 10. Frecvenţele relative din Exemplul 2, reprezentate grafic (bar-chart)
Suntem în situaţia X 2 > χ12−α (11.49 > 9.49) adică respingem ipoteza nulă şi acceptăm alternativa, concluzionând că: a)
variabila Probleme anterioare la rambursare? depinde statistic de variabila Nivelul educaţiei şi
b)
valorile variabilei Nivelul educaţiei influenţează valorile variabilei Probleme anterioare la rambursare?
1.5 Explorarea variabilelor ordinale Variabilele categoriale de tip ordinal pot fi analizate numeric şi grafic ca şi cele de tipul categorii nominal sau binar. Totuşi, asupra lor se pot aplica şi alte analize. Parte din ele le vom prezenta în cele ce urmează. Relaţii de preordine şi de ordine Să presupunem că în dorinţa de a ordona indicatorii financiarcontabili I1 - I7 următori (vezi şi datele din Anexa 1) I1: I2: I3: I4: I5: I6: I7:
Total datorii/capital social; Cifră de afaceri/total activ; Profit brut/total activ; Capital social/cifră de afaceri; Datorii/total activ; log(Activ); Rata de creştere a activului.
se foloseşte un grup de experţi în domeniu. Un expert l oarecare din acest grup, prin preferinţele sale (evident subiective dar bazate pe experienţa sa) va determina o relaţie de preordine POl în clasificarea indicatorilor, de exemplu următoarea: POl : I1 > I2 = I3 > I4 = I5 > I6 > I7 (ceea ce înseamnă că expertul l preferă indicatorul I1 indicatorului I2 care este la fel apreciat ca şi I3, care este preferat lui I4 etc.). Relaţia stabilită pentru indicatorii financiar-contabili, prin preferinţele expertului l, este o relaţie de preordine deoarece oricare doi indicatori i şi j se pot afla, în preferinţa expertului, doar în următoarele situaţii: sau i este preferat lui j, sau j este preferat lui i, sau i este preferat la fel ca şi j.
Aceste preferinţe pot fi exprimate completând o matrice U ale cărei elemente sunt: Uij = 1 şi Uji = 0 dacă indicatorul i este preferat lui j şi Uij = Uji = ½ dacă i şi j sunt apreciaţi la fel (vezi tabelul 4). Tabelul 4. Scoruri medii şi ranguri
I1 I2 I3 I4 I5 I6 I7
I1
I2
I3
I4
I5
I6
I7
– 0 0 0 0 0 0
1 – ½ 0 0 0 0
1 ½ – 0 0 0 0
1 1 1 – ½ 0 0
1 1 1 ½ – 0 0
1 1 1 1 1 – 0
1 1 1 1 1 1 –
Scor mediu
Rang mediu
u(i) 6 4,5 4,5 2,5 2,5 1 0
r(i) 1 2,5 2,5 4,5 4,5 6 7
Aşadar, pentru fiecare expert putem să construim o matrice a preferinţelor. Pe baza preferinţelor expertului se poate calcula un scor mediu şi apoi un rang mediu pentru indicatorul respectiv, astfel: scorul mediu al indicatorului i este u (i ) =
∑U
ij
iar rangul mediu asociat
j
este r (i ) = k − u (i ) . (Aici k este numărul de indicatori analizaţi, în exemplul nostru k = 7. Se observă că un rang mic indică o bună apreciere!) O relaţie de ordine totală între indicatorii analizaţi se obţine atunci când expertul alege doar una dintre situaţiile: indicatorul i este preferat indicatorului j sau indicatorul j este preferat indicatorului j. Similar situaţiei anterioare, putem asocia o matrice U ale cărei elemente sunt Uij = 1 şi Uji = 0 dacă indicatorul i este preferat lui j. Analog, se calculează un scor mediu şi apoi un rang mediu pentru fiecare indicator. Dacă dorim să măsurăm corelarea a două variabile ordinale pentru care observaţiile sunt ranguri, vom calcula aşa-numitul coeficient de corelaţie Spearman:
ro = 1 −
1 2
n(n − 1)
∑ di
2
(9)
unde d i este diferenţa rangurilor obţinute de către individul i. Coeficientul de corelaţie Spearman, la fel ca şi coeficientul de corelaţie Pearson, are valori între –1 şi 1, valori apropiate de 1 indicând concordanţa celor două aprecieri, iar valori apropiate de –1 indicând o discordanţă.
1.6 Transformări în matricele de date Să revenim la exprimarea informaţiilor în forma unei matrice X ( n × p ) ce reprezintă n indivizi asupra cărora s-au evaluat p caracteristici, de fapt p variabile. Matricea X o putem privi fie pe linii, obţinând informaţii despre cei n indivizi, fie pe coloane obţinând informaţii despre cele p variabile. Prin urmare : (1) fiecărui individ i îi corespunde în matricea X o linie, adică un vector cu p elemente; acesta va fi scris: Li = ( xi1 , xi 2 ,..., xip ) ∈ R p (2) fiecărei variabile j îi corespunde în matricea X o coloană cu n elemente, care va fi notată: C j = ( x1 j , x 2 j ,..., x nj ) T ∈ R n . 1.6.1 Transformări pe coloane: standardizarea Este normal să calculăm, pentru fiecare variabilă din tabelul de date, valoarea medie şi respectiv abaterea medie pătratică (abaterea standard). Să notăm cu m j media şi cu s j abaterea medie pătratică pentru variabila j, pentru care putem scrie formulele clasice:
mj =
1 n
n
∑ i =1
xij
şi
sj =
1 n −1
n
∑ (x
ij
− m j )2
1
Din orice matrice X se poate obţine o nouă matrice, fie ea X ' = ( xij' ) , ale cărei elemente sunt calculate astfel: xij' =
xij − m j sj
pentru orice linie i şi
coloană j Această transformare asupra variabilelor este recomandată pentru a evita discrepanţele între valori ce ar putea fi datorate unităţilor de măsură diferite. Se obişnuieşte a se spune că, prin această transformare, exprimăm informaţiile în formă standardizată, în unităţi de abatere medie pătratică (unităţi standard). Se observă că, prin această transformare, centrăm mai întâi valoarea (adică scădem din ea media) iar apoi o împărţim la abaterea medie pătratică. Observaţie: Un calcul matematic simplu ne conduce la faptul că media valorilor standardizate este zero, iar dispersia este unu. Exemplu: Fie datele din tabelul 1 al Anexei 1. Să considerăm doar primele 4 caracteristici ale autoturismelor exprimate prin variabilele: preţul,
capacitatea cilindrică, viteza şi consumul. Printr-un calcul elementar obţinem mediile şi respectiv abaterile medii pătratice ale acestor variabile (folosind datele tuturor celor 26 mărci de autoturisme):
Media Abaterea medie pătratică
Preţul
Capacitatea cilindrică
Viteza
Consumul
16118
1172
155
7.18
4148
205
22.17
1.13
Folosim acum formula de standardizare pe care o aplicăm fiecărui element al matricei. Obţinem ca rezultat informaţiile standardizate prezentate în tabelul 5. Se observă că, deşi cele 4 variabile selectate se exprimă în unităţi de măsură diferite, în forma standard valorile sunt perfect comparabile între ele. Tabelul 5. Valori standardizate
1.A 2.C 3.D 4.Fl 5.F2 6.F3 7.F4 8.FS 9.N 10.O 11.P1 12.P2 13.P3 14.P4 15.Ri 16.R2 17.R3 18.R4 19.RS 20.SI 21.S2
Preţul standardizat
Cap. cil. standardizată
Viteza standardizată
Consumul standardizat
-0.99 -0.681 -0.364 -0.64 2.14 0.42 -0.74 1.36 -0.89 -0.74 -0.69 -0.08 0.67 2.18 -0.76 -0.56 -0.47 0.27 2.22 0.76 -1.24
-0.85 -1.06 -0.87 -0.84 0.63 0.63 -0.27 2.07 -0.89 -0.87 -1.06 -0.23 0.91 1.99 -1.05 -0.31 -0.31 1.09 1.09 1.41 -1.31
-0.67 -0.44 -0.44 -0.44 2.04 0.46 -0.80 1.13 -0.66 -0.53 -0.94 -0.58 0.68 1.59 -1.79 -1.57 -0.53 0.55 2.04 0.91 -1.07
-0.86 -1.39 -0.42 -0.86 1.52 0.46 -0.15 1.87 -0.68 0.02 -0.33 -1.21 1.78 1.34 -0.77 -0.77 -1.21 0.64 1.34 1.43 0.11
22.S3 23.S4 24.Ti 25.T2 26.V
Preţul standardizat
Cap. cil. standardizată
Viteza standardizată
Consumul standardizat
-0.96 -0.35 -0.51 0.18 0.46
-0.87 0.74 -0.84 0.59 0.49
-0.44 0.37 -0.22 0.68 0.68
-0.681 -0.59 -0.95 -0.33 0.72
1.6.2 Matricea corelaţiilor Aşa cum am mai spus, corelaţia (liniară) între două variabile este măsurată prin coeficientul de corelaţie Pearson. Pentru două variabile i şi j coloanele i şi j apoi extragem din matricea de date X = xij
( )i=1,2,...,n; j =1,2,..., p
calculăm coeficientul de corelaţie Pearson ri , j . Calculând pe rând, pentru toate cele p variabile, coeficienţii de corelaţie liniară, putem înlocui matricea iniţială cu o matrice de dimensiune p × p (reamintim că am notat-o R) având ca elemente coeficienţii de corelaţie respectivi. (Matricea este simetrică şi are toate elementele de pe diagonala principală egale cu unu). Analiza elementelor matricei corelaţiilor este foarte importantă în prelucrarea informaţiilor din matricea X de date. Astfel, analizând elementele extra-diagonale ale matricei, identificăm perechi de variabile între care există dependenţe liniare puternice (în general, extragem acele variabile pentru care coeficientul de corelaţie depăşeşte 0,8), dar identificăm şi perechi de variabile cu coeficienţi de corelaţie foarte mici (aproape de zero). Aceste informaţii ne sunt utile în prelucrările ulterioare! Matricea corelaţiilor poate fi tratată însă algebric prin proprietăţile sale (de simetrie şi pozitivitate), ea fiind o sursă de alte informaţii utile în prelucrarea ulterioară a datelor. Reamintim următoarele două teoreme: Teorema 1 (descompunerea Jordan). Fie o matrice pătratică A (p × p). Ea poate fi scrisă sub forma: A = ΛΓΛ−1 unde matricea Λ conţine vectori proprii ai matricei A iar matricea Γ este o matrice diagonală ce conţine valorile proprii ale matricei A. Teorema 2. Fie o matrice simetrică A (p × p). Ea poate fi scrisă sub forma A = ΛΓΛT unde matricea Λ conţine vectori proprii ai matricei A, matricea Γ este o matrice diagonală ce conţine valorile proprii ale matricei A iar ΛT este transpusa matricei Λ .