martes, 12 de mayo de 2015

Profesiones con más futuro en IT - Parte 3

Desde algunos meses empezaron a promover una lista de las profesiones con más futuro en IT serían: Experto en Ciberseguridad, Ingeniero de Big Data, Experto en Cloud Computing, Desarrollador de software avanzado, Computación gráfica y simulación

En la Parte 1 vimos las certificaciones relacionada con Experto en Cloud Computing

En la Parte 2 vimos las certificaciones relacionada con Experto en Ciberseguridad

En esta oportunidad vamos estar revisando un poco sobre la más innovadora de esta lista de profesiones la de Ingeniero de Big Data o Científico de datos.

Primero hagamos un breve repaso.

¿Qué es Big Data?

Si pensamos bien todos tenemos, nuestro propio deseo interno de Big Data.
Siempre queremos mantener nuestros datos acumulados durante 10, 20, 50 años o más.

Pero ¿por qué esto no se hizo antes?

Simplemente porque las arquitecturas tradicionales de análisis de datos (Business Intelligence, Business Analytics, etc.) no podían estar frente a la gran cantidad de datos generados a gran velocidad y forma no estructurada (tweets, mensajes de Facebook, fotos en Instagram, etc.) .

Esto ha dado lugar a lo que la literatura caracteriza como los 3 V de de Big Data, que con el tiempo se han ampliado, y ahora algunos consideran que la V de Big Data son cinco.

Volumen
En la actualidad, el crecimiento exponencial en el volumen de datos se presenta de manera natural, es común ver a los servicios que ofrecen "ilimitado" en capacidad de almacenamiento. Este es el caso de Flickr y Google Fotos, por ejemplo, que le permiten almacenar cualquier número de imágenes siempre siguiendo algunas reglas.

Velocidad
El crecimiento de los datos y la explosión de los medios sociales han cambiado la manera en que vemos los datos. Hubo un tiempo en que se creía que los datos de ayer eran recientes. Algunos periódicos impresos todavía siguen esta lógica.
Sin embargo, los canales de noticias en la web, la radio de la comunidad en línea, las redes sociales han cambiado la velocidad a la que recibimos la información. Las personas interactúan en las redes sociales para actualizar las novedades que están sucediendo en todo el mundo.
A veces sólo toma unos segundos para mensajes de "viejos" (un tweet, por ejemplo) no logran despertar el interés de la gente. Es un comportamiento común descartar los mensajes antiguos y ver las últimas actualizaciones.
El movimiento de datos es casi en tiempo real y la ventana de actualización se ha reducido a una fracción de segundo.

Variedad
Los datos pueden ser almacenados en múltiples formatos: bases de datos, hojas de cálculo, documentos de texto, audio, vídeo, imágenes, etc.
Este es el tipo de datos que más crece, son llamados de datos no estructurados, que representan un volumen relevante, debe ser analizado por las organizaciones de acuerdo a sus necesidades, de forma más eficaz y eficiente posible.
Sería fácil de manipular esta información si los datos están en el mismo formato, pero este no es la mayoría de los casos. El mundo real tiene datos en muchos formatos diferentes y este es el reto que las tecnologías Big Data están ayudando a superar.

Veracidad
A pesar de la definición de Big Data desde el 3 V del mencionado anteriormente es el más citado, cuarto V se ha utilizado para poner de relieve la necesidad de verificar los resultados obtenidos del análisis de los datos si son reales.
En otras palabras, este 'V' refleja la preocupación de identificar si se les pide las consultas adecuadas en relación con los datos, si el análisis es correcto, y, sobre todo, si los datos son fiables.

Valor
El último 'V' en la lista se refiere a los beneficios generados en relación con los objetivos de la organización.
Valió la pena el esfuerzo de analizar todo el volumen y la variedad de los datos?
Estos resultados ayudan a organizar de tal manera que la inversión se justifica?
En definitiva, Big Data no se refiere sólo a los grandes volúmenes de datos, pero la nueva visión de los datos, incluyendo directrices para su captura y análisis en el futuro.
Adaptarse y superar los desafíos de la información dinámica será una cuestión de supervivencia para muchas empresas en un futuro próximo.

Ciencia Datos vs Big Data vs Business Intelligence

Es común ver debates sobre la relación entre la ciencia de datos y Big Data, o entre Big Data y Business Intelligence.
  •  Big Data es el mismo que el BI?
  • Y la ciencia de datos? Es sólo otro nombre para Estadísticas?


Creo que la tecnología de BI tiende a centrarse más en el pasado que en el futuro, por lo que esto limita en cierta medida, los beneficios que se pueden obtener de la tecnología.

Big Data, por otro lado, hay una mayor preocupación en el análisis de la actualidad, en tiempo real, y predecir el futuro basado no sólo en lo que pasó antes, pero también de lo que está sucediendo ahora.

Piense en los 'trending topics' en Twitter, por ejemplo.

Es cada vez mayor el número de empresas cuyo modelo de negocio se basa en el análisis de datos en las redes sociales.

Otro punto a resaltar la ventaja de Big Data en relación con BI es más fácil tratar con datos no estructurados, lo que aumenta enormemente las posibilidades de análisis, en la medida que la "estructura" de la matriz se hace mucho más flexible, atreves de esquemas que asignan una estructura lógica de un sistema de archivos distribuido, en lugar de las estructuras más rígidas, la organización de los bytes en archivos binarios de base de datos relacional.

¿Qué pasa con la ciencia de los datos? ¿Cuál es su relación con Big Data?

Creo que Big Data no existe sin la ciencia de datos, y la primera es más genérica y global, la segunda es la importancia de lidiar de manera científica con los datos, como lo indica los Vs de Veracidad y de valor con el fin de garantizar que Los resultados obtenidos son confiables y por lo tanto pueden subvencionar efectivamente organizaciones en la toma de decisiones.
Por lo tanto, la Ciencia de datos se traduce en hipótesis, modelos matemáticos y estadísticos aplicados para analizar los datos con el fin de asegurar la calidad de los resultados.

El conocimiento necesario para una exitosa carrera en Big Data



El diagrama anterior, se nota las tecnologías que implican Big Data y Ciencia de Datos.

Es importante saber matemáticas, estadística, informática, y tiene un enfoque científico, con método y la organización en el análisis y presentación de datos.
Todo esto sin contar la necesidad de conocer el negocio específico, inherente a cada profesional de TI.

Creo que, en la práctica, el tiempo revelará la necesidad de equipos multidisciplinarios, donde la colaboración entre los diferentes perfiles que componen el equipo será decisiva para la calidad del trabajo.

Por lo tanto, deben ser definidos los nombres más específicos que tan solo científico de datos, y ya empiezan a ver las referencias a ingenieros, desarrolladores y analistas, por lo que debe ser cada vez más claro que los perfiles necesarios para el trabajo en un "tiempo de Big Data ' así como el papel de cada uno.

Gama de salarios de Carreras en Big Data y Ciencia de Datos


Según Datajobs , los salarios de una carrera en Big Data son:
  • Data Analyst - principiante hasta 75.000 dólares con experiencia hasta 110.000;
  • Data Scientist - entre 85 000 y 170 000 dólares;
  • Gerentes - entre 90 000 y 240 000 dólares, como el tamaño y la experiencia del equipo;
  • Ingeniero Big Data - entre 70 000 y 165 000 dólares;
¿Quién utiliza Big Data?

Una de las mejores cosas cuando se empieza a explorar el mundo de Big Data es ver los increíbles proyectos que las empresas están liderando el mundo.

Ford está evaluando Hadoop para tratar de obtener el valor de los datos generados por sus operaciones, la investigación de vehículos y para los coches de los clientes, centrándose en conseguir los datos generados por numerosos sensores de los vehículos actuales y usar los datos recogidos a saber el comportamiento del cliente en el uso del vehículo, mejorar la experiencia del conductor en el futuro.

Mitsui utiliza SAP HANA, R y Hadoop para pre procesamiento de  secuencias de ADN que solían tardar días, lo que reduce a una cuestión de minutos los análisis que implican la investigación relacionada con el cáncer.

Nokia utiliza la información generada por los dispositivos de todo el mundo, desde la creación de mapas y predecir la densidad del tráfico para crear modelos de elevación en capas.

Walmart utiliza Hadoop para analizar los datos de Twitter, Facebook, Foursquare y otras fuentes con el fin de predecir el flujo de clientes a sus tiendas.

Cómo prepararse para trabajar con Big Data y Ciencia de Datos?

Hay cursos gratuitos repartidos por toda la web (en Inglés).

Enumero algunos de ellos a continuación:

Certificaciones en Big Data

En muchos casos, los profesionales de TI a obtener mejores resultados en términos de carrera invirtiendo en certificaciones y no en cursos más extensos como Posgrados o maestrías.

Enumero alguna de las certificaciones más relevantes en el mercado de Big Data.

Cloudera es un proveedor líder de soluciones de Big Data, y ofrece certificaciones:

Cloudera Certified Professional: Data Scientist (CCP: DS)
Hadoop desarrollador (CCDH)
Hadoop Admin (CCAH)
HBase Especialista (CCSHB)

Certificación CCP: DS requiere aprobar tres exámenes y Cloudera recomienda la realización de un curso presencial en la suma de US$ 2,495.00 L

Las certificaciones de Hadoop comienzan en US$ 295.00 y requieren pasar un examen con 50 a 60 preguntas, con una duración de una hora y media, y un mínimo de 70%. No, los exámenes no están disponibles en español :(

El Hortonworks tiene una solución que es la base de los servicios que se ofrecen en la nube Microsoft, y ofrece certificaciones:
  • HDP Certified Developer (HDCDP);
  • Hortonworks Certified Apache Hadoop Administrator;
  • Hortonworks Certified Apache Hadoop Java Developer.
Estos certificados cuestan entre US$ 200.00 y US$ 250.00 y se componen de tareas que se deben realizar a través de los servicios de Amazon, un máximo de dos horas.

También existe la certificación de:
IBM (IBM InfoSphere for BigInsights Technical Mastery Test y IBM InfoSphere Streams Technical Mastery Test v1).
EMC (EMC Data Science Associate).
HP (HP Vertica).
SAS (SAS Certified Statistical Business Analyst),
y muchas otras…..

Conclusión

Big Data es una tendencia tecnológica nueva como IOT, Cloud, que representan una oportunidad excepcional para aquellos que tienen la dedicación necesaria para luchar contra la inercia y superar las dificultades de estos nuevos desafíos.

El esfuerzo compensará.

“Sólo podemos ver poco del futuro, pero lo suficiente para darnos cuenta de que hay mucho que hacer” Alan Turing.