Block
TENEMOS LA INGENIERÍA PARA TI, ELIGE BIEN TU FUTURO
NIVELACIÓN A
INGENIERÍA EN SISTEMAS COMPUTACIONALES
RVOE: 20192859
NIVELACIÓN A
INGENIERÍA INDUSTRIAL
RVOE: 20192862

Entre muchos de los profesionales que desarrollan y ejecutan proyectos de “Big Data y Analítica”, siempre existen varias interrogantes recurrentes, tales como: ¿Qué funciones o qué habilidades debería tener un Ingeniero de Datos, un Analista de Datos o un Científico de Datos?, ¿Cómo pueden colaborar y combinar sus esfuerzos tres personas con diferentes experiencias y habilidades para acelerar la ejecución de un proyecto de estas características?

En efecto, cada uno de estos roles cumple una función específica dentro de todo el ciclo de vida del dato mientras pasa por diferentes “pipelines” (en español, “canalizaciones”, que son procesos secuenciales que extraen, transforman y cargan datos).

¿Qué realiza un ingeniero de datos?

En términos generales, la tarea de exploración de los datos es asignada a la persona con el perfil de analista de datos; por otro lado, el desarrollo y entrenamiento de un modelo matemático es realizada por un científico de datos. Estas dos tareas mencionadas anteriormente no se podrían realizar si toda la información necesaria para esta finalidad se encuentra en un formato difícil de leer e interpretar o si la información que está almacenada carece de orden.

Es aquí donde el rol de un ingeniero de datos toma valor, ya que es el responsable de transformar los datos en bruto a datos consumibles, creando múltiples pipelines de datos.

Adicionalmente, está encargado de monitorear los pipelines generados, y en el caso de existir algún problema/fallo de ejecución, cae entre sus tareas el revisar los registros o logs del proceso, diagnosticar el fallo y asegurar que la información que debía ser procesada se encuentre disponible en el almacén de datos lo más pronto posible.

En los zapatos de un ingeniero de datos

Para la generación de un nuevo pipeline de datos generalmente se sigue una serie de lineamientos clave en la etapa de predesarrollo, lo cual permite implementar la solución de la manera más adecuada. A continuación, se detallan algunos de ellos:

  1. Entender la(s) fuente(s) de datos y sus limitaciones.
  2. Tener claramente definidos los datos que faltan.
  3. Definir los tipos y el formato de los datos.
  4. Definir las zonas horarias y la frecuencia de las ejecuciones.
  5. Tener en mente la escalabilidad, mantenibilidad y durabilidad del desarrollo.
  6. Tener definidas previamente las tablas y/o vistas resultantes.
  7. Definir los usuarios que van a tener acceso a estos datos.
  8. Definir aprobadores para los procesos de migraciones de ambiente (DESARROLLO/QA/PRODUCCIÓN).
  9. Definir un proceso de retroalimentación de las partes interesadas (Product Owner, usuarios funcionales, etc..), para que la solución final cumpla con sus expectativas.

Como siguiente paso y enfocándonos en la etapa de desarrollo de pipelines de datos como tal, tanto el ingeniero, analista y científico de datos