Aquest lloc web utilitza cookies pròpies i de tercers per recopilar informació estadística sobre els teus hàbits de navegació i poder així millorar i personalitzar la teva experiència oferint-te continguts del teu interès. Si segueixes navegant, considerem que acceptes la seva instal·lació i ús. Pots canviar la configuració o obtenir més informació en Política de cookies.
UNITAT 1

Les dades no descansen

Què és una dada? Com es genera? Quins tipus de dades existeixen?

En la immensitat de la xarxa navegues diàriament entre grans volums de dades que no servirien de molt si no s’emmagatzemessin, es classifiquessin i s’analitzessin. A partir d’aquestes macrodades es genera coneixement, productes i serveis. La intel·ligència de dades o el fenomen big data com avui el coneixem està revolucionant la ciència, l’economia, la política i inclús el nostre estil de vida.

Dades per tot arreu

0:00 / 0:00
Infografia interactiva

Les dades també pesen

La revolució de les dades acaba de començar. Com que cada vegada generem més dades, necessitarem unitats de mesura més grans per quantificar el pes d’aquestes dades. Saps quant pesen les dades?

Píndola 1

Què són les dades?

Podem obtenir dades de qualsevol cosa que ens envolta, ja siguin objectes, persones o llocs. Pensa, per exemple, en un objecte: pots descriure'n la mida, el color, el material o materials de què està fet i el lloc on es troba. D'una persona, podem dir-ne el nom, l'edat, la data de naixement, el sexe i moltes més dades.

Però no totes les dades són estàtiques. El lloc on vas néixer no pot canviar, però sí el lloc on et trobes a cada moment.

La teva activitat també genera dades. Per exemple, els viatges en transport públic enregistren dades a través dels abonaments de transport, les compres a través de les targetes de crèdit, els GPS ens localitzen geogràficament i el nostre consum d'energia o la nostra activitat a les xarxes socials queden enregistrades.

Les dades ens poden ajudar a entendre les coses. Per exemple, si ens fixem en aquesta fotografia on apareixen uns llapis de colors.

Podem obtenir moltes més dades de les que sembla a simple vista. Podem dir, per exemple, que són llapis, que són de colors, de quins colors, quants n'hi ha, que serveixen per acolorir, quins estan més gastats, etc. Cadascuna d'aquestes dades respon a preguntes diferents.

Hi ha diferents tipologies de dades però anem a fixar-nos en dues grans categories: les dades quantitatives i les dades qualitatives.

Dades quantitatives

són les dades que es poden expressar en nombres, com mesures, quantitats o qualificacions. La demografia d'un país o una ciutat s'expressa en dades quantitatives: número d'habitants, superfície, densitat de la població, número de dones i homes, edat mitjana dels seus habitants, etc.

L'esport està ple de dades quantitatives: gols, cistelles, punts, classificacions, temps, velocitat, potència...

Posem un altre exemple: quan una persona està a l'hospital, els professionals sanitaris que l'atenen recullen a diari les dades del seu estat i de com evoluciona. Per exemple, li prenen la temperatura, anoten la dosi de medicaments que li subministren i l'hora. Aquestes dades són quantitatives.

 

Dades qualitatives

Aquestes dades descriuen les característiques d'alguna cosa, com per exemple de quin color és o quina forma té. Fins i tot poden fer referència a emocions o sensacions. Les dades qualitatives s'expressen en paraules i textos, per la qual cosa són més difícils de mesurar i comparar que les quantitatives. Les fotografies, els enregistraments o les respostes d'una entrevista poden ser dades qualitatives.

La investigació científica i les ciències socials solen combinar aquests dos tipus de dades per explicar fets i situacions. És important que entenguem que una dada per si sola no ens aporta una informació de gran valor. Hem de processar-la (validar-la, classificar-la, analitzar-la...) per poder posar-la en context i que ens aporti un coneixement valuós, cosa que la converteixi en una dada útil. Però la utilitat de les dades també dependrà de l'anàlisi que vulguis realitzar i de la informació que estiguis buscant. 

Tot i això, no totes les dades obtingudes han de proporcionar-nos informació valuosa. Internet està ple de dades. Per això, és necessari detectar quines dades poden ser útils i quines no.

Píndola 2

Les metadades

El terme «meta» prové d'una paraula grega que significa, entre altres coses, «juntament amb» o «relacionat amb». Per tant, podríem definir les metadades com a dades sobre altres dades.

Aquest sistema de registre d'informació que ara ens sembla propi del món digital és un mètode que tradicionalment s'ha utilitzat a les biblioteques per llistar i classificar els llibres i documents i facilitar la seva cerca. D'aquesta manera es registra el títol, l'autor, l'any de publicació, la matèria i la signatura topogràfica que assenyala el lloc on està situat el llibre.

A banda de les biblioteques, on més podem trobar metadades? A la butxaca, per exemple. Cada vegada que fas una foto o enregistres un vídeo amb el teu telèfon intel·ligent, s'emmagatzema també la data i hora de la captura. Són allà: aquestes dades són metadades i poden revelar fins i tot amb quina càmera es va fer la fotografia, el temps que va estar obert l'obturador i el punt exacte on es va fer, localitzat via GPS.

Quan pugem les nostres fotografies a Internet, hi pugem també tota la informació que contenen. I el mateix passa amb els nostres comentaris a Facebook, per exemple. La data, l'hora i el lloc de la publicació que acompanyen el comentari també són metadades. Les pàgines web són plenes de metadades, tot i que sovint no són visibles.

Amb l'increment de dades a la xarxa, va sorgir la necessitat de classificar totes aquestes dades i la informació que duen relacionada: hi ha diferents classificacions de metadades relacionades amb característiques referents a la funcionalitat, l'estructura o qui les produeix. Alguns exemples de classificació són:

Segons el domini:

  • Metadades per descriure recursos d'informació al web:
    Exemple: Dublin Core (DCMI)

  • Metadades per a la descripció d'arxius:
    Exemple: el Encoded Archival Description (EAD)

  • Metadades per a la descripció museística:
    Exemple: Consortium for the Interchange Museum Information (CIMI) 

  • Metadades per definir registres de catàlegs en biblioteques i centres de documentació:
    Exemple: MARC per a la descripció de recursos electrònics.

  • Metadades per a recursos geogràfics i espacials:
    Exemple: Content Standard for Digital Geospatial Metadata (CSDGM) o el Directory Interchange Format (DIF) de la NASA.

  • Metadades per descriure recursos d'informació governativa i administrativa:
    Exemple: Goverment Information Locator Service (GILS)

Segons la funció:

  • Metadades administratives:
    Per gestionar i administrar recursos digitals (localització, institució o autor que genera, guarda i manté els recursos, dada de creació i actualització, seguiment i control de versions, etc.)

  • Metadades descriptives:
    Descriuen i identifiquen recursos d'informació. Permeten als usuaris la cerca i recuperació.

  • Metadades estructurals:
    Faciliten la navegació i la presentació dels recursos. Proporcionen informació sobre l'estructura interna dels documents, així com la relació entre ells. 

Material de referència com a imatge exemplificativa per mostrar metadades:

Un altre exemple és el d'una cançó en format MP3. Podríem explicar-ho d'aquesta manera: la «dada» és el so i les metadades el títol de l'obra, l'àlbum, l'any, l'autor, la caràtula, el gènere, etc. 

Píndola 3

Intel·ligència de dades: quan les dades es tornen intel·ligents

Les dades i metadades que es troben a la xarxa no servirien gaire si no s'emmagatzemessin, es classifiquessin i s'analitzessin. La disciplina que s'encarrega d'aquest procés rep el nom d'intel·ligència de dades o Big Data.

A partir d'aquestes macrodades, podem generar coneixement, productes i serveis. Per exemple, ens permeten predir el temps, analitzar paràmetres de salut, millorar l'eficiència energètica o vendre més i millor. Per això, la intel·ligència de dades està revolucionant la ciència, l'economia, la política i el nostre estil de vida.

S'utilitza la intel·ligència de dades quan:

  • Introduïm malament una paraula d'una cerca i Google ens la corregeix.

  • Amazon ens ensenya productes que podrien interessar-nos segons el que hem comprat abans.

  • Snapchat ens fa descobrir usuaris i notícies.

  • Facebook ens suggereix amistats amb gent que és probable que coneixem.

  • Spotify elabora una llista setmanal de cançons segons els nostres gustos.

 

Les quatre ve baixes de la intel·ligència de dades

Aquestes primeres quatre ve baixes (més endavant en veurem alguna més) serveixen per recordar i descriure les característiques principals de la intel·ligència de dades: la gestió d'un gran volum de dades, a la velocitat més gran possible, emmagatzemats juntament amb una extensa varietat d'informació, que s'ha de verificar.

Volum 

El creixement de les dades a la xarxa és constant. Per això, es diu que «les dades mai no dormen». Tan és que sigui de dia o de nit: es generen dades les 24 hores a qualsevol part del món. Aquesta producció ininterrompuda es duplica cada 40 mesos, cosa que vol dir que es generen més dades en un dia de les que hi ha hagut en els darrers 20 anys.

Velocitat

imprescindible en la creació i anàlisi de dades. Tenint en compte que estem generant dades constantment, necessitem rapidesa per disposar d'aquesta informació en temps real. La informació es processa tan ràpidament que podem conèixer dades del present immediat, i consultar què està passant al món ara mateix. Això ens permet fer anàlisis prou detallats i complexes que sovint s'integren a altres processos de treball i sistemes.

Varietat

Hi ha dades de molts formats i tipologies diferents, segons la seva procedència. Podem classificar les macrodades en:

  • Dades públiques: dades que tenen les administracions públiques (per exemple, dades sobre transport, ús d'energia, sanitat, etc.).
  • Dades privades: dades derivades de transaccions comercials, de la navegació web, de l'ús de la telefonia mòbil, etc.
  • Dades comunitàries: dades produïdes principalment a les xarxes socials, continguts generats per l'usuari, etc.
  • Dades autoquantificades: dades obtingudes i proporcionades per les mateixes persones que mesuren i quantifiquen els seus comportaments i accions. Per exemple, les dades monitorades sobre les pulsacions durant la realització de l'exercici físic que són recollides per dispositius mòbils.

Veracitat

les dades obtingudes han de ser fiables, íntegres i autèntiques, per la qual cosa és necessari confirmar-ne la veracitat. I com sabem si les dades són vàlides?  Això dependrà de les fonts i els recursos que hàgim utilitzat per obtenir-les.

Píndola 4

Les dades contra el virus H1N1

A la publicació La revolució de les dades massives (2013), Viktor Mayor-Schöberger i Kenneth Cukier ens expliquen que l'any 2009 es va descobrir un nou virus de la grip que va rebre el nom d'H1N1. En poques setmanes, es va propagar tant que les autoritats sanitàries de tot el món van témer que produís una pandèmia global.

Com que no hi havia cap vacuna, les autoritats van decidir que la millor manera de combatre el virus era alentir tant com fos possible la seva propagació. Per això, primer havien de localitzar el lloc on es manifestava amb més força.

A Estats Units, els Centres de Control i Prevenció de Malalties van demanar als metges que avisessin sobre els nous casos de grip, però es propagava a una velocitat més gran que la velocitat a la qual es detectava. Això es devia a que gran part dels pacients tardaven dies en anar als centres i els metges a vegades tardaven dies en enviar els informes.

La transmissió de la informació era lenta, per la qual cosa la malaltia no deixava de propagar-se.

Casualment, unes setmanes abans que el virus alertés a les autoritats sanitàries, un grup d'enginyers de Google va publicar un estudi gràcies al qual havien pogut predir la propagació de la grip hivernal (grip comuna) a Estats Units, per regions, analitzant les paraules que buscava la gent a Internet.

Com que Google rep més de tres mil milions de cerques diàries i totes s'arxiven, hi ha un munt d'informació disponible per analitzar i comparar.

Google va agafar els cinquanta milions de termes més comuns que busquen els ciutadans nord-americans i els va comparar amb les dades dels Centres de Control i Prevenció de Malalties sobre la grip estacional entre 2003 i 2008. La intenció era identificar els malalts de grip per les cerques que feien a Internet com «remeis per a la tos i la febre».

D'aquesta manera, creuant les dades de les cerques i les dades dels malalts de grip entre 2007 i 2008, es van poder aconseguir models matemàtics que els permetessin predir la propagació de la grip gairebé en temps real en base a les cerques que s'estaven realitzant a Internet.

Aquest mètode no és perfecte i actualment no s'utilitza, però en aquesta ocasió va servir perquè les autoritats sanitàries sabessin més sobre el virus sense necessitat que els malalts arribessin a les consultes, aprofitant només el mètode sorprenent de Google sobre les dades massives.

final d'unitat 1

Felicitats!

Has finalitzat amb èxit la unitat 1.
Ja pots passar a la Unitat 2.

Descobreix la Unitat 2

Benvingut/da a l’espai docent de BigData!

Aquí trobaràs tots els recursos necessaris per aplicar el programa a l’aula.

Programa BigData

Nivell educatiu recomanat:

3r. i 4rt. d’ESO, batxillerat i cicles formatius de grau mitjà.

Objectius didàctics:

  1. Desenvolupar una actitud activa, crítica i realista envers les tecnologies i els mitjans tecnològics.

  2. Reconèixer la presència de les dades digitals a la nostra vida, com també les implicacions que hi tenen.

  3. Conèixer procediments d’extracció i processament de dades per generar coneixement i participar en la societat.

Competència clau:

BigData contribueix de manera directa i específica al desenvolupament de la competència digital.

Itineraris d’aplicació:

  • Reduït: 9 sessions*

  • Mitjà: 12 sessions*

  • Complet: 21 sessions*

*Cada sessió té una durada aproximada d’1 hora lectiva

Materials

  • Presentació del programa educatiu BigData: coneix tots els elements clau sobre el disseny del programa i organitza les classes. | Descarrega

  • Guia de capacitació per aplicar el programa: et proposem tres escenaris i tres itineraris per aplicar el programa a l’aula, a més de recomanacions sobre metodologies pedagògiques per dur-lo a terme. Tria el que s’adapti més a les necessitats de l’alumnat. | Descarrega

  • Programació didàctica: descarrega’t totes les sessions i activitats per dur a terme el programa. | Descarrega