La analítica de dades i el Data Science a les empreses

Cada vegada hi ha més dades, i cada vegada tenen més importància. Les empreses que analitzen millor les seves dades, i també les dades externes, adquireixen un avantatge competitiu sobre les altres, ja que mitjançant l'analítica de dades poden prendre decisions estratègiques basades en informació més que en intuició.

Les eines de Business Intelligence, com Oracle BI, IBM Cognos o Pentaho porten anys permetent a les empreses organitzar les seves dades mitjançant Data Warehouses o magatzems de dades corporatives, i explotar gràcies als informes que es poden executar des dels servidors de BI. Aquests informes poden ser operatius o analítics, i permeten l'exploració activa de les dades per part d'analistes a la recerca de respostes a preguntes de negoci.

Però el poder de les dades no acaba aquí. El Business Intelligence sempre ha buscat treure el màxim rendiment de la analítica de dades de les empreses o organitzacions, i fins i tot s'ha anomenat durant un temps Business Analytics, o analítica de negocis, encara que el terme no ha acabat de quallar, ja que la arribada del Big Data i del Data Science l'ha acabat eclipsant, en orientar directament les tendències tecnològiques cap a l'analítica de dades.

Panell de Classificació amb Weka

A les suites de Business Intelligence més completes sempre hi havia una part de les eines dedicades a la Mineria de Dades, com Weka a la suite de Pentaho, o SPSS a la suite de IBM. També hi ha eines independents de Datamining, com SAS o el programari Open Source RapidMiner .

La mineria de dades s'ha definit com un camp tecnològic dedicat a extreure coneixement de les dades i obtenir patrons ocults en les dades mitjançant l'aplicació de mètodes estadístics i algoritmes d'intel·ligència artificial i d'aprenentatge automàtic, aplicats sobre grans volums de dades.

Existeix des de fa molts anys, i ha estat utilitzada a molts nivells, tot i que ha estat especialment útil per entitats financeres i per asseguradores per al càlcul de risc, detecció de frau, i realització de projeccions o previsions. Amb l'arribada d'Internet, les xarxes socials, i l'explosió de dades públiques i dades externes disponibles a la xarxa, ha sorgit el terme Big Data per englobar tot el que es refereix al tractament de grans volums de dades per a l'obtenció d'informació i coneixement, que en realitat no aporta res especialment innovador pel que fa a la Intel.ligència de negocis, llevat de la manera en què s'emmagatzemen les grans dades, que ja no està limitada a les bases de dades clàssiques basades en models relacionals. Els sistemes com Hadoop i les bases de dades NoSQL permeten emmagatzemar grans quantitats de dades en fitxers distribuïts, cosa que aporta a aquests sistemes una escalabilitat molt gran, i senzilla, tema mica crític per, per exemple, les xarxes socials que estan triomfant avui dia, i que generen diàriament Terabytes i més Terabytes de dades amb les aportacions dels seus actius usuaris.

Tornant al tema de la mineria de dades, que mai ha arribat a utilitzar-se massa en la majoria d'empreses, igual que ha aparegut el Big Data, ha arribat el terme Data Science, que bàsicament és el mateix, però sembla que està entrant millor, segurament perquè les necessitats han canviat, hi ha més dades per analitzar, i algunes eines són més fàcils d'utilitzar. Destaca especialment el projecte de llenguatge open source R, que sembla que està desbancant SAS com a programari més emblemàtic per a Data mining, o Data Science, com se li vulgui dir.