Pentaho Kettle Solutions: Ressenyes

Bones ..

Acabo de concloure la lectura de Pentaho Kettle Solutions . Aquest llibre tan extens com interessant, m'ha portat més temps de lectura del que havia pensat, però també m'ha sorprès amb la qualitat del seu contingut i la diversitat de temes que abasta.

 

A continuació les ressenyes:

 

 

1) Ressenya general: és un llibre molt amè de llegir, que aprofundeix molts temes complexos mantenint explicacions senzilles d'entendre. El més destacable d'aquest llibre, és que ha estat escrit per professionals que han treballat amb PDI (akaKettle) durant molts anys, realitzant nombroses aportacions i fins i tot que han portat a terme el seu desenvolupament (en el cas de Matt Casters). És a dir, hi ha una bretxa molt gran entre conèixer per a què serveix un 'pas', i saber perquè es va crear aquest 'pas', i aquesta diferència es nota per tot arreu en aquest llibre.

 

Encara Pentaho Kettle Solutions no està pensat per a principiants, és ideal per a qualsevol persona que aquest treballant amb PDI actualment o vulgueu fer-ho en un futur, ja que cobreix temàtiques que són de vital importància tenir en ment al moment d'utilitzar aquesta eina.

 

 

2) Ressenya detallada: aquest llibre inicialcia amb una introdución sobre els ETL i les particularitats que hauria de tenir una eina ETL, després presenta Kettle i descriu les seves característiques, com instalar-lo i executar-lo, i com està dissenyat, és a dir, detalla sobre Transformacions, Treballs, Salts, tipus de dades , tipus de dipòsit, paràmetres, variables, etc.

 

Seguidament planteja exemples per prendre les dades d'una base de dades transaccional i carregar un Data Warehouse, abordant temes complexos relacionats amb dimensions lentament canviants , detecció de canvis en les dades (CDC - Change Data Capture), desnormalització, etc.

 

Segueix amb l'explicació dels 34 subsistemes del procés ETL definit per Ralph Kimball, per després abordar cada subsistema des Kettle, fent èmfasi en la forma en què aquest resol cada situació i exemplificant en cada cas.Les temàtiques cobertes a destacar són les següents:

  • Execució de Treballs, backtracking, en paral.lel, amb Slave servers (mitjançant Carte).

  • Execució de Transformacions multi-thread, distribució de files, clustering i maneig de particions transformacions.

  • Connexions a bases de dades: opcions generals i avançades, pooling, clustering, maneig de connexions i transaccions.

  • Performance i escalabilitat.

  • Extracció de dades, Data Profiling (utilitzant DataCleaner), CDC.

  • Data Cleasing, maneig dels diferents tipus d'errors, auditories, dades duplicats, scripting.

  • Maneig de claus, càrrega de taules de dimensió (esquema floc de neu i en estrella), implementació de diferents tipus de taules de dimensió.

  • Diferents tipus de taules de fets, Bulk Load, càrrega i manipulació.

  • Extreure dades des de diverses tecnologies OLAP.

  • Cicle de vida de desenvolupament de ETLs, bones i males pràctiques, desenvolupament àgil, test, debug i documentació.

  • Scheduling (cron, at, xaction, PDS i Pentaho) i monitoratge.

  • Utilització de Clústers dinàmics (Amazon EC2).

  • Integraci & oacutei, n de dades en temps real.

  • Manipulació de formats de dades complexes (no relacionals, no estructurats).

  • Ocupació de Web Service, exemples de XML, SOAP i RSS.

Ja arribant al final es detalla com obtenir i compilar Kettle, com utilitzar Kettle Java API a través d'exemples, i com estendre Kettle desenvolupant plugins propis!

 

Pentaho Kettle Solutions aborda la integració de dades (els 34 subsistemes) en la seva totalitat i sistematitza gran quantitat de conceptes, exemples, bones pràctiques, qüestions de disseny i performance, la qual cosa ho fa una opció completament recomanable per als qui pertanyem al món BI, com per als que necessitin realitzar algun tipus d'integració de dades.

 

 

3) Ressenya final: sense dubte, aquest és un altre llibre d'indispensable lectura, ja sigui que s'estigui treballant amb Pentaho, implementant solucions BI o sistemes transaccionals.Com que la integració de dades abasta molts tòpics i resol moltes situacions que estan presents en qualsevol empresa / organització que tingui sistemes transaccionals, sistemes BI, utilitzi SGBD o simples fulls de càlcul.

 

 

Salut.