Desde algunos meses
empezaron a promover una lista de las profesiones con más futuro en IT serían:
Experto en Ciberseguridad, Ingeniero de Big Data, Experto en Cloud Computing,
Desarrollador de software avanzado, Computación gráfica y simulación
En esta oportunidad vamos
estar revisando un poco sobre la más innovadora de esta lista de profesiones la
de Ingeniero de Big Data o Científico de datos.
Primero hagamos un breve
repaso.
¿Qué es Big Data?
Si pensamos bien todos tenemos, nuestro propio deseo interno de Big
Data.
Siempre queremos mantener nuestros datos acumulados durante 10, 20, 50
años o más.
Pero ¿por qué esto no se hizo antes?
Simplemente porque las arquitecturas tradicionales de análisis de datos
(Business Intelligence, Business Analytics, etc.) no podían estar frente a la
gran cantidad de datos generados a gran velocidad y forma no estructurada
(tweets, mensajes de Facebook, fotos en Instagram, etc.) .
Esto ha dado lugar a lo que la literatura caracteriza como los 3 V de de
Big Data, que con el tiempo se han ampliado, y ahora algunos consideran que la
V de Big Data son cinco.
Volumen
En la actualidad, el crecimiento exponencial en el volumen de datos se
presenta de manera natural, es común ver a los servicios que ofrecen
"ilimitado" en capacidad de almacenamiento. Este es el caso de Flickr
y Google Fotos, por ejemplo, que le permiten almacenar cualquier número de
imágenes siempre siguiendo algunas reglas.
Velocidad
El crecimiento de los datos y la explosión de los medios sociales han
cambiado la manera en que vemos los datos. Hubo un tiempo en que se creía que
los datos de ayer eran recientes. Algunos periódicos impresos todavía siguen
esta lógica.
Sin embargo, los canales de noticias en la web, la radio de la comunidad
en línea, las redes sociales han cambiado la velocidad a la que recibimos la
información. Las personas interactúan en las redes sociales para actualizar las
novedades que están sucediendo en todo el mundo.
A veces sólo toma unos segundos para mensajes de "viejos" (un
tweet, por ejemplo) no logran despertar el interés de la gente. Es un
comportamiento común descartar los mensajes antiguos y ver las últimas
actualizaciones.
El movimiento de datos es casi en tiempo real y la ventana de
actualización se ha reducido a una fracción de segundo.
Variedad
Los datos pueden ser almacenados en múltiples formatos: bases de datos,
hojas de cálculo, documentos de texto, audio, vídeo, imágenes, etc.
Este es el tipo de datos que más crece, son llamados de datos no estructurados,
que representan un volumen relevante, debe ser analizado por las organizaciones
de acuerdo a sus necesidades, de forma más eficaz y eficiente posible.
Sería fácil de manipular esta información si los datos están en el mismo
formato, pero este no es la mayoría de los casos. El mundo real tiene datos en
muchos formatos diferentes y este es el reto que las tecnologías Big Data están
ayudando a superar.
Veracidad
A pesar de la definición de Big Data desde el 3 V del mencionado
anteriormente es el más citado, cuarto V se ha utilizado para poner de relieve
la necesidad de verificar los resultados obtenidos del análisis de los datos si
son reales.
En otras palabras, este 'V' refleja la preocupación de identificar si se
les pide las consultas adecuadas en relación con los datos, si el análisis es
correcto, y, sobre todo, si los datos son fiables.
Valor
El último 'V' en la lista se refiere a los beneficios generados en
relación con los objetivos de la organización.
Valió la pena el esfuerzo de analizar todo el volumen y la variedad de
los datos?
Estos resultados ayudan a organizar de tal manera que la inversión se
justifica?
En definitiva, Big Data no se refiere sólo a los grandes volúmenes de
datos, pero la nueva visión de los datos, incluyendo directrices para su
captura y análisis en el futuro.
Adaptarse y superar los desafíos de la información dinámica será una
cuestión de supervivencia para muchas empresas en un futuro próximo.
Ciencia Datos vs Big Data vs Business
Intelligence
Es común ver debates sobre la relación entre la ciencia de datos y Big
Data, o entre Big Data y Business Intelligence.
- Big Data es el mismo que el BI?
- Y la ciencia de datos? Es sólo otro nombre para Estadísticas?
Creo que la tecnología de BI tiende a centrarse más en el pasado que en
el futuro, por lo que esto limita en cierta medida, los beneficios que se
pueden obtener de la tecnología.
Big Data, por otro lado,
hay una mayor preocupación en el análisis de la actualidad, en tiempo real, y
predecir el futuro basado no sólo en lo que pasó antes, pero también de lo que
está sucediendo ahora.
Piense en los 'trending topics' en Twitter, por ejemplo.
Es cada vez mayor el número de empresas cuyo modelo de negocio se basa
en el análisis de datos en las redes sociales.
Otro punto a resaltar la ventaja de Big Data en relación con BI es más
fácil tratar con datos no estructurados, lo que aumenta enormemente las
posibilidades de análisis, en la medida que la "estructura" de la
matriz se hace mucho más flexible, atreves de esquemas que asignan una
estructura lógica de un sistema de archivos distribuido, en lugar de las
estructuras más rígidas, la organización de los bytes en archivos binarios de
base de datos relacional.
¿Qué pasa con la ciencia de los datos? ¿Cuál es su relación con Big
Data?
Creo que Big Data no existe sin la ciencia de datos, y la primera es más
genérica y global, la segunda es la importancia de lidiar de manera científica
con los datos, como lo indica los Vs de Veracidad y de valor con el fin de
garantizar que Los resultados obtenidos son confiables y por lo tanto pueden
subvencionar efectivamente organizaciones en la toma de decisiones.
Por lo tanto, la Ciencia de datos se traduce en hipótesis, modelos
matemáticos y estadísticos aplicados para analizar los datos con el fin de
asegurar la calidad de los resultados.
El conocimiento
necesario para una exitosa carrera en Big Data
El diagrama anterior, se nota las tecnologías que implican Big Data y Ciencia de Datos.
Es importante saber matemáticas, estadística, informática, y tiene un
enfoque científico, con método y la organización en el análisis y presentación
de datos.
Todo esto sin contar la necesidad de conocer el negocio específico,
inherente a cada profesional de TI.
Creo que, en la práctica, el tiempo revelará la necesidad de equipos
multidisciplinarios, donde la colaboración entre los diferentes perfiles que
componen el equipo será decisiva para la calidad del trabajo.
Por lo tanto, deben ser definidos los nombres más específicos que tan
solo científico de datos, y ya empiezan a ver las referencias a ingenieros,
desarrolladores y analistas, por lo que debe ser cada vez más claro que los
perfiles necesarios para el trabajo en un "tiempo de Big Data ' así como
el papel de cada uno.
Gama de salarios
de Carreras en Big Data y Ciencia de Datos
Según Datajobs
, los salarios de una carrera en Big Data son:
- Data Analyst - principiante hasta 75.000 dólares con experiencia hasta 110.000;
- Data Scientist - entre 85 000 y 170 000 dólares;
- Gerentes - entre 90 000 y 240 000 dólares, como el tamaño y la experiencia del equipo;
- Ingeniero Big Data - entre 70 000 y 165 000 dólares;
¿Quién utiliza
Big Data?
Una de las mejores cosas cuando se empieza a explorar el mundo de Big
Data es ver los increíbles proyectos que las empresas están liderando el mundo.
Ford está evaluando Hadoop para tratar de obtener el valor de los datos
generados por sus operaciones, la investigación de vehículos y para los coches
de los clientes, centrándose en conseguir los datos generados por numerosos
sensores de los vehículos actuales y usar los datos recogidos a saber el
comportamiento del cliente en el uso del vehículo, mejorar la experiencia del
conductor en el futuro.
Mitsui utiliza SAP HANA, R y Hadoop para pre procesamiento de secuencias de ADN que solían tardar días, lo
que reduce a una cuestión de minutos los análisis que implican la investigación
relacionada con el cáncer.
Nokia utiliza la información generada por los dispositivos de todo el
mundo, desde la creación de mapas y predecir la densidad del tráfico para crear
modelos de elevación en capas.
Walmart utiliza Hadoop para analizar los datos de Twitter, Facebook,
Foursquare y otras fuentes con el fin de predecir el flujo de clientes a sus
tiendas.
Cómo prepararse
para trabajar con Big Data y Ciencia de Datos?
Hay cursos gratuitos repartidos por toda la web (en Inglés).
Enumero algunos de ellos a continuación:
- Coursera - Web Intelligence y Big Data
- Universidad Big Data (IBM) - Big Data Fundamentos
- Udemy - Big Data Hadoop Esencial
- Udacity - Introducción a Hadoop y mapa Reducir
Certificaciones en Big Data
En muchos casos, los profesionales de TI a obtener mejores resultados en
términos de carrera invirtiendo en certificaciones y no en cursos más extensos
como Posgrados o maestrías.
Enumero alguna de las certificaciones más relevantes en el mercado de
Big Data.
Cloudera es un proveedor
líder de soluciones de Big Data, y ofrece certificaciones:
Cloudera
Certified Professional: Data Scientist (CCP: DS)
Hadoop
desarrollador (CCDH)
Hadoop
Admin (CCAH)
HBase Especialista (CCSHB)
Certificación CCP: DS requiere aprobar tres exámenes y Cloudera
recomienda la realización de un curso presencial en la suma de US$ 2,495.00 L
Las certificaciones de Hadoop comienzan en US$ 295.00 y requieren pasar
un examen con 50 a 60 preguntas, con una duración de una hora y media, y un mínimo
de 70%. No, los exámenes no están disponibles en español :(
El Hortonworks tiene una
solución que es la base de los servicios que se ofrecen en la nube Microsoft, y
ofrece certificaciones:
- HDP Certified Developer (HDCDP);
- Hortonworks Certified Apache Hadoop Administrator;
- Hortonworks Certified Apache Hadoop Java Developer.
Estos certificados cuestan entre US$ 200.00 y US$ 250.00 y se componen
de tareas que se deben realizar a través de los servicios de Amazon, un máximo
de dos horas.
También existe la certificación de:
IBM (IBM InfoSphere for BigInsights
Technical Mastery Test y IBM InfoSphere Streams Technical Mastery Test v1).
EMC (EMC Data Science Associate).
HP (HP Vertica).
SAS (SAS Certified Statistical Business
Analyst),
y muchas otras…..
Conclusión
Big Data es una tendencia tecnológica nueva como IOT, Cloud, que representan una oportunidad
excepcional para aquellos que tienen la dedicación necesaria para luchar contra la
inercia y superar las dificultades de estos nuevos desafíos.
El esfuerzo compensará.
“Sólo podemos ver poco del futuro, pero lo suficiente para darnos cuenta de que hay mucho que hacer” Alan Turing.
“Sólo podemos ver poco del futuro, pero lo suficiente para darnos cuenta de que hay mucho que hacer” Alan Turing.