1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22....

22
1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea 1. Datu-Meatzaritzarako sarrera Irakasgaia: Konputazio-Zientzien Metodo Matematikoak Titulazioa: Informatikan Ingeniaria Konputazio Zientzia eta Adimen Artifiziala saila Universidad del Pa´ ıs Vasco - Euskal Herriko Unibertsitatea 1 / 22

Transcript of 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22....

Page 1: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

1. Datu-Meatzaritzarako sarrera

Irakasgaia: Konputazio-Zientzien Metodo MatematikoakTitulazioa: Informatikan Ingeniaria

Konputazio Zientzia eta Adimen Artifiziala sailaUniversidad del Paıs Vasco - Euskal Herriko Unibertsitatea

1 / 22

Page 2: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aurkibidea

1 Datu-Meatzaritza

2 Knowledge Discovery from Databases (KDD): datubaseetan eza gutza aurkitzea

2 / 22

Page 3: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aurkibidea

1 Datu-Meatzaritza

2 Knowledge Discovery from Databases (KDD): datubaseetan eza gutza aurkitzea

3 / 22

Page 4: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Definizio batzuk

Data mining. Aurretik ezezaguna den ezagutza erabilgarrieta ulergarria erauztea formatu desberdinetan gordetadauden datu-multzo handietatik (Witten eta Frank, 2000)

Knowledge discovery in databases. Datubaseetanezagutza aurkitzea, datuetatik abiatuz eredu baliagarriak,berriak eta azken batean ulergarriak identifikatuz (Fayyadeta lag. 1996)

4 / 22

Page 5: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Eredu-motak

Datuetatik ezagutza lortzea eredu konputazionalak erabilizEredu deskribatzaileak: datuak deskribatzen edo laburtzendira

Erregelak: datuen portaera-ereduak erakusten diraClustering: homogenoak diren kasuak multzokatzen dira

Eredu iragarleak: aldagai iragarleen balioetatik abiatuziragarri beharreko beste aldagai batzuren balioakestimatzen dira

Erregresioa: Iragarri beharreko aldagaia jarraia daGainbegiratutako sailkapena: Iragarri beharreko aldagaiadiskretua da (ordinala edo nominala)

5 / 22

Page 6: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Datu-motak

Datubase erlazionalak

Erlazio-multzoak (taulak). Ezaugarri-multzo baterako (aldagaiak, zutabeak,eremuak) n-koteak gordetzen dira (kasuak, errenkadak, erregistroak)Taula moduko aurkezpena: ezaugarri-balio

Datubase espazialak: geografi-datuak, medikuntza-irudiak, garraio-sareak, ....

Datubase tenporalak: denborazko une edo tarte desberdinak

Datubase dokumentalak: Objektuak testu-dokumentuak dira, aldagaiek hitzakadierazi ditzakete, edo laburpenak...

Multimedia datubaseak: irudiak, soinua, bideoa

World Wide Web: gaurregun dagoen informaziorako gunerik handiena etaanitzena

Edukiaren analisia: web orrietan ereduak aurkitzeaEgituraren analisia: hiperestekak eta URL-ak aztertzeaErabileraren analisia: nabigazioa aztertzea

6 / 22

Page 7: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Erlazioa beste zenbait arlorekinEstatistika. Datu-meatzaritzaren ′′ ama ′′

Ikasketa automatikoa. Konputagailuak adibideetatikikasten du

Ereduen ezagutza. Clustering. Sailkapen-gainbegiratua

Erabakiak hartzeko sistemak. Zuzendaritzari laguntzekotresnak eta sistemak

Datuen bistaratzea. Grafiken bidez datuetatik ateratakoereduak ikusten eta ulertzen laguntzea

Datubaseak. Datuen biltegiak. Atzipen eraginkorra

Informazioaren erauzketa. Testuak. Liburutegi digitalak.Bilaketak Interneten

Konputazio paraleloa eta banatua. Datu-meatzaritzakdakarren kostu konputazionala banatu egiten daprozesamendu paraleloa eta banatua erabiliz

7 / 22

Page 8: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aplikazioak

Finantza-aplikazioak

Kreditu-txartelen iruzurrezko erabilerak hautematea

Kreditu-txartelaren bidezko gastuaren iragarpena

Kreditua ematerakoan arriskua aztertzea

Datu historikoetatik merkatu-erregelak identifikatzea

”Fidelak” ez diren bezeroak identifikatzea

8 / 22

Page 9: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aplikazioak

MerkataritzaErosketa-saskiaren analisia

Publizitate-kanpainen ebaluazioa

Bezeroen sailkatzea

Salgaien, kostuen edota salmenten estimazioak egitea

9 / 22

Page 10: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aplikazioak

Aseguruak

Garesti gerta daitezkeen bezeroak identifikatzea

Poliza berriak kontratatzen dituzten bezero-motakidentifikatzea

Arrisku egoeran egon daitezkeen bezeroenportaera-ereduak identifikatzea

Iruzurrerako portaerak identifikatzea

10 / 22

Page 11: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aplikazioak

HezkuntzaIkasleen aukeraketa

Eskola-porrota hautematea

Ikasleek ikastegian emango duten denboraren estimazioaegitea

11 / 22

Page 12: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aplikazioak

MedikuntzaGaixotasunak diagnostikatzea

Gaixotasun jakin bat jasateko arriskuan egon daitezkeenpazienteak identifikatzea

Ospitale-kudeaketarako. Baliabideen erabilera hobetzekoasmoz osasun-zentroetarako denbora-iragarpenak egitea

Mediku-irudien tratamendua egitea

12 / 22

Page 13: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aplikazioak

Bioinformatika, bioingeniaritza

Geneen bilaketa (genoma kodifikatzen duten eremuak)

Proteinen bigarren mailako egituraren iragarpena egitea

Uholdeen iragarpena

Uren kalitatea neurtzeko ereduak sortzea

13 / 22

Page 14: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aplikazioak

Beste zenbait arlotanTelekomunikabideak: iruzurra identifikatzea

Posta elektronikoa eta agenda pertsonalak: postarensailkapena eta banaketa automatikoa, spam mezuakhautematea

Ogasuna: zerga-iruzurrak hautematea

Web: erabiltzaileen portaeraren analisia egitea

Kirolak: datu medikuetatik abiatuz lesioak jasatekoarriskua identifikatzea

14 / 22

Page 15: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Aurkibidea

1 Datu-Meatzaritza

2 Knowledge Discovery from Databases (KDD): datubaseetan eza gutza aurkitzea

15 / 22

Page 16: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Datubaseetan ezagutza aurkitzea

Prozesu iteratibo eta elkarreragilearen faseak

1 Datuak bildu eta bateratu2 Aukeratu, garbitu eta eraldatu3 Datu-meatzaritza egin4 Ebaluatu eta interpretatu5 Zabaldu eta erabili

16 / 22

Page 17: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Datubaseetan ezagutza aurkitzea

1. Datuak bildu eta bateratu

Datubaseak eta datuen prozesamendu tradizionala (On-LineTransaction Processing, OLTP): eguneroko beharrak asetzekonahikoak dira (fakturazioa, inbentarioen kontrola, ...)

Erabaki estrategikoak analisian, plangintzan eta iragarpeneanoinarrituta: datuak sail desberdinetan egon daitezke

Jatorrizko datuak formatu desberdinetan egoten dira

Datubaseen bateratzea: datuen biltegiak (data warehousing)

Datuen biltegiak gomendagarriak dira informazio-kantitateahandia denean. Hala ez denean ez dira beharrezkoak(testu-fitxategiak, kalkulu-orriak, ...)

17 / 22

Page 18: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Datubaseetan ezagutza aurkitzea

2. Aukeratu, garbitu eta eraldatu

Aurkitutako ezagutzaren kalitatea datu-meatzaritzan erabilitakoalgoritmoaren mende egoteaz gain aztertutako datuenkalitatearen mende dago

Datuen portaera orokorrera egokitzen ez den zenbait daturenpresentzia egon daiteke (outliers)

Balioak falta dituzten datuak egon daitezke (missing values)

Aldagai esanguratsuak aukera daitezke (feature subsetselection)

Datubase oso handietan kasuen auzazko aukeraketa egindaiteke

Aldagai berriak modu automatikoan eraiki daitezke

Aldagai jarraiak diskretiza daitezke18 / 22

Page 19: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Datubaseetan ezagutza aurkitzea

3. Datu-MeatzaritzaEredu deskribatzaileak

ErregelakMultzokatzea (clustering): partizionala, probabilistikoa,ierarkikoa, kontzeptuala

Eredu iragarleak

Erregresioa: regresio lineala...Gainbegiratutako sailkapena: sailkapen-zuhaitzak, K-NN,sailkatzaile Bayestarrak, erregelen indukzioa, erregresiologistikoa, sare neuronalak, sailkatzaileen konbinaketa

19 / 22

Page 20: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Datubaseetan ezagutza aurkitzea

4. Ebaluatu eta interpretatu

Ebaluazio teknikak: balidazio sinplea (entrenamendua +testa), k-geruzatako balidazio gurutzatua, bootstrapping

Erregelak: estaltzea, konfidantza

Multzokatzea (Clustering): multzo barruko elementuen etamultzoen arteko distantzia

Erregresioa: batazbesteko errore kuadratikoa

Gainbegiratutako sailkapena: ondo sailkatutakoenportzentaia, erroreen matrizea, ROC analisia

Eredu ulerterrazak eta interesgarriak (erabilgarriak etaberritzaileak)

20 / 22

Page 21: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Datubaseetan ezagutza aurkitzea

5. Zabaldu eta erabiliZabaldu: eraikitako eredua erabiltzaileen artean zabaldueta erabili erabakiak hartzeko

Ereduaren garapena neurtu behar da denboran zehar:

BerrebaluatuBerrentrenatuBerreraiki

21 / 22

Page 22: 1. Datu-Meatzaritzarako sarrera - UPV/EHUSalgaien, kostuen edota salmenten estimazioak egitea 9/22. 1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza

1. Datu-meatzaritza 2. Knowledge Discovery from Databases (KDD): datubaseetan ezagutza aurkitzea

Oinarrizko bibliografia

Liburua: Introduccion a la Minerıa de DatosCapıtulo 1: ¿Que es la minerıa de datos?Capıtulo 2: El proceso de extraccion de conocimiento

Egileak: Jose Hernandez Orallo, Ma Jose RamırezQuintana, Cesar Ferri Ramırez

Departamento de Sistemas Informaticos y Computacion,Universidad Politecnica de Valencia

Argitaratzailea: Pearson Prentice Hall, 2004

ISBN: 84-205-4091-9

22 / 22