lunes, 29 de noviembre de 2010

Leyendo Pentaho Kettle Solutions

Buenas.
Hace unos días me llegó el libro Pentaho Kettle Solutions, cortesía de Roland Bouman (co-autor del libro) y Wiley.


Pentaho Kettle Solutions: Building Open Source ETL Solutions with Pentaho Data Integration - Roland Bouman & Matt Casters & Jos van Dongen - Wiley 2010.


En las próximas semanas estaré leyendo este nuevo libro de Pentaho y elaborando la correspondiente reseña.

Nuevamente gracias Roland & Wiley.


Salud!

lunes, 18 de octubre de 2010

RapidMiner: Tutorial online + Operadores

Buenas.

Les dejo a continuación un muy buen material acerca de RapidMiner, que ha sido confeccionado por Leonardo M. Tito y Felipe Mullicundo:

"RapidMiner: Tutorial online + Operadores" contiene los siguiente temas:

  • Instalación:
    • Detalla como descargar, instalar y ejecutar RapidMiner.
  • Tutorial de RapidMiner 5.0:
    • Describe paso a paso los 26 ejemplos presentes en el tutorial online de RapidMiner.
  • Anexo: Descripción de los Operadores utilizados en el Tutorial de RM5:
    • Traducción basada en la wiki de RadipMiner, en donde se tratan 75 operadores.











Por último cabe destacar que este documento posee licencia GNU FDL, para permitir y proteger su libre difusión, distribución, modificación y utilización, en pos de su futura evolución y actualización.

Felipe y Leonardo, muchas gracias por seguir compartiendo!!!

Salud.

PD: para descargar el documento seguir este enlace a dataprix...

lunes, 6 de septiembre de 2010

HEFESTO v2.0: On Line & ePub

Buenas.

Después de varias horas de dedicación he terminado de actualizar en su totalidad la versión On Line de HEFESTO que se encuentra en Dataprix: ver hefesto online...

Por otra parte, Nicolas Gutierrez, se ha tomado la molestia de convertir HEFESTO en formato ePub (formato estándar para archivos e-book): descargar hefesto.epub...


Espero les sea útil.
Salud.

PD: gracias Nicolas Gutierrez por compartir.

lunes, 19 de julio de 2010

HEFESTO v2.0

Buenas, me complace mucho anunciarles que ya está listo HEFESTO versión 2.0: "DATA WAREHOUSING: Investigación y Sistematización de Conceptos - HEFESTO: Metodología para la construcción de un Data Warehouse".



Se han hecho muchas actualizaciones tanto en la parte teórica, como en la metodológica.

A continuación un pequeño listado de las secciones nuevas que se han incluido:
  • Query Manager -> Drill-through.
  • Área de Datos.
  • Performance.
  • Claves Subrogadas.
  • Dimensiones Lentamente Cambiantes.
  • Dimensiones Degeneradas.
  • Dimensiones Clustering.
Con respecto a la metodología, en la siguiente imagen se pueden observar cuáles son sus pasos:


También se ha hecho énfasis en la parte estética, así que HEFESTO v 2.0 cuenta con imagenes totalmente renovadas. Por ejemplo:


Por último, quiero destacar que muchas de las actualizaciones se fueron dando gracias a los diferentes feedbacks que he recibido de quienes leyeron la parte teórica y de quienes utilizan la metodología.



Actualización:


Espero les sea útil.
Y ya saben, si les a gustado envien un mail o un comentario.

Salud.

PD: para descargar la versión ePub, seguir este enlace...

viernes, 25 de junio de 2010

Pentaho 3.2 Data Integration: Reseñas

Buenas.
Hace unos días terminé de leer (y hacer los ejercicios!) el libro Pentaho 3.2 Data Integration - Beginner's Guide, escrito por María Carina Roldan.

Tal como lo vengo haciendo, realizaré una serie de reseñas desde diferentes perspectivas:

1) Reseña general: es un libro muy ameno y fácil de leer. Cada tema es abordado con muchísima dedicación apuntando a que la comprensión de lo que se quiere transmitir sea lo más alta posible.
Cabe destacar la cantidad y la calidad de los ejemplos presentes en el libro, como así también el énfasis en detallar qué se hizo y para qué.

Algo principal a remarcar para que quede bien claro, es que María Carina en su libro habla de la Integración de Datos y no solo de "procesos ETL para cargar un DW", lo cual hace que su lectura nos pueda ayudar en muchísimos ámbitos.


2) Reseña detallada: Pentaho 3.2 Data Integration es un paseo por la integración de datos a través de los ejemplos, prácticas, consejos y recomendaciones que nos plantea María Carina, utilizando por supuesto PDI.

A lo largo del libro se tratan temas complejos tales como: expresiones regulares, pasaje de parámetros, ejecución de transformación y trabajos por línea de comandos, xml, manejo de variables, etc, etc.

Se utilizan pasos no convencionales: Fórmula, Búsqueda en flujo de datos, Append streams, Des-Normalización de Fila, If field value is null, Normalización de Fila, Number range, Regex Evaluation, Búsqueda en Base de Datos, Mapeo, etc, etc.

Hay todo un capítulo dedicado a la utilización de código javascript y del paso "Valor Java Script Modificado".
Oto dedicado al manejo de errores y a los pasos "Write to log", "Abort" y "Data Validator".
Y uno más dedicado al armado de un Data Mart: dimensiones degeneradas, dimensiones junk, claves subrogadas, dimensiones lentamente cambiantes, dimensión tiempo.

Finalmente, se introduce y ejemplifica cómo instalar diferentes plugins en PDI, se habla de cómo aumentar la performance en trabajos y transformaciones y de cómo integrar PDI con Pentaho BI Server.

Pentaho 3.2 Data Integration es un material totalmente recomendable tanto para quienes nos dedicamos al BI, como para quienes tengan que implementar técnicas de Integración de Datos.


3) Reseña final: existen muchas tareas en el mundo del IT y del BI que se hacen manualmente casi sin darle la menor importancia y otras tantas que no son siquiera tenidas en cuenta. A través de este libro María Carina nos muestra una serie de ejemplos que nos hace pensar en todos estos casos y cómo sería la transformación o trabajo que deberíamos utilizar.

Sin lugar a duda, este es otro libro de indispensable lectura.



Salud!

lunes, 21 de junio de 2010

Test de Drivers JDBC

Buenas, adjunto a continuación un pequeño programa que utilizamos en eGluBI y sirve para testear un Driver JDBC y su correspondiente URL.

Este programita es bastante simple y se ejecuta por líneas de comandos. Los pasos a seguir son:
  1. Se debe tener instalado JRE 1.4 o posterior y el accesible al SGBD al que pertenece el Driver en cuestión.
  2. Descomprimir el archivo en, digamos [HOME].
  3. Copiar el Driver JDBC a testear en [HOME]\drivers.
  4. Modificar el archivo c.properties colocando la url, driver, usuario y contraseña a testear.
  5. Ejecutar el programa:
    • Si se trata de Window$: entrar en la consola "CMD" o "COMMAND", cambiar al directorio [HOME] y ejecutar el comando: ejecutar.bat
    • Si se trata de GNU/Linux o Unix: entrar en la consola, cambiarse a la carpeta [HOME], asegurarse que los archivos .sh tengan permisos de ejecución con "chmod +x *.sh" y luego ejecutar el comando: sh ejecutar.sh
Si la ejecución de este programita devuelve un error, por ejemplo "java.lang.ClassNotFoundException" verificar si copiamos el Driver correcto en [HOME]\drivers o bien si colocamos mal el nombre del Driver. Pueden ocurrir otros errores pero son bastante autoexplicativos.


Para DESCARGAR el archivo hacer clic aquí...

Salud!

martes, 8 de junio de 2010

Mini videos tutoriales: Eclipse, JBoss Tools / Struts, IReports / Struts

Buenas, a continuación les presento una serie de videos-tutoriales que ha realizado mi colega Mariano Mattío (miembro de eGlu BI) y que ha decidido compartir con la comunidad.

Gracias Mariano.


Esperamos que les sean útiles, y ya saben, cualquier comentario, feedback, agradecimiento, etc, son bienvenidos.


Eclipse:

  1. Introducción y Descarga: link...
  2. Instalación: link...
  3. Layout y nuevo proyecto: link...
  4. Paquetes y primera clase: link..
  5. Clase hija, clase de prueba, ejecución y reescritura de toSting(): link...
  6. Perfiles de ejecución, paso de argumentos, exportación a JAR y ejecución desde consola: link...
  7. Creación y descripción de la BD que se utilizará en adelante mediante un "poblador" automático: link...
  8. Descarga del conector (driver) JDBC de MySQL: link...
  9. Introducción teórica a JDBC: link...
  10. Carga de un driver y conexión a una BD desde Eclipse: link...
  11. Uso de la Metadata de la conexión: link...
  12. Ejecución de sentencias Insert/Update y Delete de forma dinámica: link...
  13. Ejecución de sentencias Select de forma dinámica y recorrido del resultado: link...
Quedan pendientes aún una serie de videos tutoriales, en cuanto esten disponibles actualizaré esta entrada.


JBoss Tools / Struts:

IReports / Struts:

sábado, 8 de mayo de 2010

Dimensiones Degeneradas

El término Dimensión Degenerada, hace referencia a un campo que será utilizado como criterio de análisis y que es almacenado en la tabla de hechos.

Esto sucede cuando un campo que se utilizará como criterio de análisis posee el mismo nivel de granularidad que los datos de la tabla de hechos, y que por lo tanto no se pueden realizar agrupaciones o sumarizaciones a través de este campo. Los "números de orden", "números de ticket", "números de transacción", etc, son algunos ejemplos de dimensiones degeneradas.

La inclusión de estos campos en las tablas de hechos, se lleva a cabo para reducir la duplicación y simplificar las consultas.

Se podría plantear la opción de simplemente incluir estos campos en una tabla de dimensión, pero en este caso estaríamos manteniendo una fila de esta dimensión por cada fila en la tabla de hechos, por consiguiente obtendríamos la duplicación de información y complejidad, que precisamente se pretende evitar.

viernes, 30 de abril de 2010

Curso OSBI PENTAHO: Cuernavaca, última clase

Saludos desde Cuernavaca, México.

El jueves 29 de abril, acaba de concluir el dictado del Curso OSBI PENTAHO (ver 1era clase, ver anuncio), desde eGlu BI consideramos que fue un completo éxito!

A continuación algunas fotos:



Queremos volver a agradecer la hospitalidad con que hemos sido tratados desde el primer día en que llegamos, tanto por parte de nuestr@s anfitrion@s como por parte de l@s asistentes del curso.

Así mismo, destacamos el nivel de atención e interés que han demostrado l@s asistentes acerca de los temas que se dictaron, lo cual se notaba claramente en las repetidas preguntas que nos hacían a lo largo de todo el curso.

EXTRA:
Al finalizar la última clase realizamos un almuerzo conjunto, aunque much@s se tuvieron que retirar antes, razón por la cual tampoco estuvieron para cuando sacamos la foto grupal de la imagen anterior.

Luego de almorzar y de una larga sobremesa muy amena, Mario Guillén Rodríguez, Humberto Hernández García y Alejandro Moreno Lopez de la IEEE Sección Morelos, nos llevaron a conocer Tepoztlan. Algunas fotos a continuación:



Muchas gracias.

Dario y Mariano.

PD: Oye Beto!

lunes, 26 de abril de 2010

Curso OSBI PENTAHO: Cuernavaca 1ra clase

Saludos desde Cuernavaca, México.

Queríamos contarles que hoy lunes 26 de abril ha dado comienzo el Curso OSBI PENTAHO que anunciábamos anteriormente (ver post...).

A continuación unas fotos del curso:



Hemos concluido esta primera clase muy felices por como se ha desarrollado la misma.

Destacamos por sobre todas las cosas la cordialidad con que hemos sido tratados en todo momento y la buena predisposición, tanto de nuestros anfitriones como de l@s asistentes al curso.

Así mismo queremos agradecer particularmente a Mario Guillén Rodríguez y Humberto Hernández García de la IEEE Sección Morelos por toda su hospitalidad y trato fraternal.

Más novedades en breve.
Saludos.

Dario y Mariano.

viernes, 23 de abril de 2010

Leyendo Pentaho 3.2 Data Integration

Buenas.

Hace unos días María Carina Roldan, me ha hecho llegar, por medio de Richard Dias (Packtpub), el libro que acaba de escribir: Pentaho 3.2 Data Integration - Beginner's Guide.



En esta ocasión, debido a una actividad que tengo programada en méxico, la lectura de este libro me llevará más tiempo del habitual.

Muchas gracias María Carina por pasarme este libro tan interesante.

Adjunto un capítulo que pueden descargar libremente: descargar...

Salud!

martes, 13 de abril de 2010

Pentaho Solutions: Reseñas

Buenas.
Finalmente he terminado de leer el libro Pentaho Solutions, que gentilmente me han hecho llegar Roland Bouman (co-autor del libro) y Wiley.

En esta ocasión también realizaré diferentes reseñas desde diferentes puntos de vista, tal y como lo hice con Pentaho Reporting. A continuación las reseñas:

1) Reseña general: es un libro muy fácil de leer y maneja muy bien los contenidos teóricos y prácticos. A medida que van exponiendo los conceptos más complejos y pesados, se acompaña siempre con algún ejemplo, gráfico o ejercicio.

Es un libro realmente muy útil y de indispensable lectura, tanto para aquellas personas que recién empiezan a trabajar con Pentaho, como para las que llevamos ya tiempo.


2) Reseña detallada: Pentaho Solutions abarca todo el proceso de Data Warehousing. Toma como base una ejemplo particular y a través de las diferentes secciones del libro se llega a la implementación final de la solución pentaho.

Los temas van desde la descarga e instalación de pentaho y mysql, hasta la creación de análisis interactivos, reportes ad hoc y dashboards. Pasando claro, por la configuración avanzada de Pentaho, scheduler, suscripciones, bursting, pds, pdi, pme, prd, psw, weka y cdf.

Las explicaciones teóricas acompañan y sustentan en todo momento lo que se esta haciendo y/o lo que se hará a continuación.

Cabe destacar que los ejemplos están orientados hacia dos sistemas operativos:
  • GNU/Linux: Ubuntu.
  • Window$ XP.
Pentaho Solutions permite a l@s principiantes tener todas las herramientas a la mano para crear sus propias soluciones, y permite a l@s que ya llevamos tiempo con Pentaho profundizar algunas cuestiones más teóricas y reafirmar conocimientos.


3) Reseña final: Pentaho Solutions es un libro totalmente recomendable para quienes trabajamos con Pentaho día a día y para quienes desean iniciarse en él.


Salud!

viernes, 12 de marzo de 2010

Dimensiones Lentamente Cambiantes

Las dimensiones lentamente cambiantes o SCD (Slowly Changing Dimensions) son dimensiones en las cuales sus datos tienden a modificarse a través del tiempo, ya sea de forma ocasional o constante, o implique a un solo registro o la tabla completa.

Cuando ocurren estos cambios, se puede optar por seguir alguna de estas dos grandes opciones:

  • Registrar el historial de cambios.
  • Reemplazar los valores que sean necesarios.
Inicialmente Ralph Kimball planteó tres estrategias a seguir cuando se tratan las SCD: tipo 1, tipo 2 y tipo 3; pero a través de los años la comunidad de personas que se encargaba de modelar bases de datos profundizó las definiciones iniciales e incluyó varios tipos SCD más, por ejemplo: tipo 4 y tipo 6.

A continuación se detallará cada tipo de estrategia SCD:

  • SCD Tipo 1: Sobreescribir.
  • SCD Tipo 2: Añadir fila.
  • SCD Tipo 3: Añadir columna.
  • SCD Tipo 4: Tabla de Historia separada.
  • SCD Tipo 6: Híbrido.
De acuerdo a la naturaleza del cambio se debe seleccionar qué Tipo SCD se utilizará, en algunos casos resultará conveniente combinar varias técnicas.

Es importante señalar que si bien hay diferentes maneras de implementar cada técnica, es indispensable contar con claves subrogadas en las tablas de dimensiones para aplicar poder aplicar dichas técnicas.

Al aplicar las diferentes técnicas SCD, en muchos casos se deberá modificar la estructura de la tabla de dimensión con la que se este trabajando, por lo cual estas modificaciones son recomendables hacerlas al momento de modelar la tabla; aunque también puede hacerse una vez que ya se ha modelado y contiene datos, para lo cual al añadir por ejemplo una nueva columna se deberá especificar los valores por defecto que adoptarán los registros de la tabla.
NOTA: para todos los ejemplos a continuación, "id_Producto" es una clave subrogada que es clave principal de la tabla utilizada.

Ver artículo completo...

miércoles, 3 de marzo de 2010

Leyendo Pentaho Solutions

Buenas.
Hace instantes me acaba de llegar el libro Pentaho Solutions, gentileza del mismísimo Roland Bouman (co-autor del libro) y Wiley.


Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL - Roland Bouman & Jos van Dongen - Wiley 2009.


Así que en las siguientes semanas estaré leyendo este libro y preparando la correspondiente reseña.

Nuevamente gracias Roland & Wiley.


Salud!

sábado, 27 de febrero de 2010

JPivot: 3 nuevos tutoriales

Buenas, recientemente he creado un grupo en la Red Open BI, dedicado a JPivot:



Así mismo he creado en este grupo una serie de tutoriales:






Espero les sea útil.
Salud!

miércoles, 10 de febrero de 2010

Curso OSBI PENTAHO (en CUERNAVACA, MÉXICO)

Desde Grupo eGlu, tenemos el agrado de invitarl@s al curso que dictaremos en la IEEE Sección Morelos (Cuernavaca, México):



Los temas que se incluirán serán los siguientes:
  • Inteligencia de Negocios.
  • Software Libre, Open Source.
  • Data Warehousing.
  • Suite Pentaho.
  • MySQL, JDBC, JNDI.
  • Data Integration (Kettle).
  • BI Server.
  • Mondrian.
  • JPivot.
  • Metadata Editor.
  • Reportes Ad Hoc.
Adjuntamos la invitación formal realizada por la IEEE Sección Morelos:

El Capítulo de Computación de la IEEE Sección Morelos Invita al Curso Open Source Business Intelligence PENTAHO


Instructores:

Este curso tiene por finalidad principal que l@s participantes comprendan en primera instancia los conceptos relacionados a la Inteligencia de Negocios, Data Warehousing, software libre, open source, etc.; para luego presentarles la suite Pentaho y sus diferentes herramientas.
Cada herramienta será expuesta y contextualizada en el proceso de Data Warehousing, además se realizará mucha práctica.
  • Lugar: Cuernavaca, Morelos, México.
  • Fecha: Abril 26-29, 2010
  • Costo: Miembros del IEEE $6500.00 + IVA. No Miembros del IEEE $7500.00 + IVA.
  • Incluye material del curso, diploma y café.
  • Horario: 09:00 a 15:00 horas.
  • Cupo mínimo de inscripción: el curso está supeditado a un número mínimo de personas inscritas. Si está interesad@ en el curso favor de preinscribirse.
Informes con: Mario Guillén Rodríguez, Presidente del Capítulo de Computación de la IEEE Sección Morelos (osbi2010@gmail.com). Telefono: (777)3623811 ext 7451.

miércoles, 27 de enero de 2010

Claves Subrogadas

Buenas.
A continuación les dejo un pequeño resumen de lo que son las Claves Subrogadas y de la importancia de su implementación en los DW:

Las claves existentes en los OLTP se denominan claves naturales; en cambio, las claves subrogadas son aquellas que se definen artificialmente, son de tipo numérico secuencial, no tienen relación directa con ningún dato y no poseen ningún significado en especial.

Lo anterior, es solo una de las razones por las cuales utilizar claves subrogadas en el DW, pero se pueden definir una serie de ventajas más:
  • Ocupan menos espacio y son más performantes que las tradicionales claves naturales, y más aún si estas últimas son de tipo texto.
  • Son de tipo numérico entero (autonumérico o secuencial).
  • Permiten que la construcción y mantenimiento de índices sea una tarea sencilla.
  • El DW no dependerá de la codificación interna del OLTP.
  • Si se modifica el valor de una clave en el OLTP, el DW lo tomará como un nuevo elemento, permitiendo de esta manera, almacenar diferentes versiones del mismo dato.
  • Permiten la correcta aplicación de técnicas SCD (Dimensiones lentamente cambiantes).
Esta clave subrogada debe ser el único campo que sea clave principal de cada tabla de dimensión.

Una forma de implementación sería, a través de la utilización de herramientas ETL, mantener una tabla que contenga la clave primaria de la tabla del OLTP y la clave subrogada correspondiente a la dimensión del DW. Aquí un buen ejemplo...

En la tabla de dimensión Tiempo, es conveniente hacer una excepción y mantener un formato tal como "yyyymmdd", ya que esto provee dos grandes beneficios:
  • Se simplifican los procesos ETL.
  • Brinda la posibilidad de realizar particiones de la tabla de hechos a través de ese campo.

Espero les sea útil.
Salud!

miércoles, 13 de enero de 2010

Aprender y Compartir Conocimientos: 5 Tutoriales/Manuales

Tengo el agrado de contarles que desde que comenzó la iniciativa "Aprender y Compartir Conocimientos" en la Red Open BI, ya se han creado 5 grandes tutoriales/manuales:
  • Pentaho Design Studio -> Crear un gráfico OpenFlash dinámico en Pentaho desde un jsp:
    • Autor: Iván E. Tijanero Díaz.
    • Link.

  • Pentaho Design Studio -> Agregar parámetros de entrada y condiciones IF:
    • Autor: Dennis Alba Infante.
    • Link.
  • Mondrian Schema Workbench -> Pasos para crear Cubos:
    • Autor: Dennis Alba Infante.
    • Link.
  • Pentaho Data Integration -> Manual de Usuari@ de Spoon en español:
    • Autores: Bernabeu R. Dario, Leonardo M. Tito, Felipe Mullicundo.
    • Link.
  • Mondrian Schema Workbench -> HowTo Pentaho 3.5 & Cubo Mondrian en GNU/Linux:
    • Autor: Alvarez Sebastián Matias.
    • Link.