Diferencias entre Data Scientist, Data Engineer, y Data Analyst

Hay un barullo bastante grande con algunas de las nuevas palabras clave laborales de moda, y en concreto con tres de ellas que contienen la palabra Data. En el post de hoy intentaré explicar, de forma muy sucinta, la diferencia entre un data scientist, un data engineer, y un data analyst.

Escribo este post porque con frecuencia veo confusión en el uso de los mismos, incluso en ofertas de empleo – lo que es especialmente grave. Me sucedió hace poco que me llamaron de una empresa para saber si me interesaría cambiar de proyecto y yo estoy muy contento donde me hallo ahora mismo, pero no voy a descartar una opción antes de oirla en detalle, porque nunca se sabe.

El asunto es que a pesar de que dijeron buscamos velocidad, cuando me describieron las funciones resultan que lo que buscaban era tocino. Yo me dedico a la velocidad, pero no al tocino, así que no llegó muy lejos aquella conversación. Intentemos, aunque sea simplificando mucho las descripciones (¡un párrafo por rol!), que eso no se repita.

Data Scientist

Está implicado en el desarrollo de modelos matemáticos y algoritmos para explotar datos y obtener nueva información de ellos. Esto requiere conocimiento de bases de datos, ya que es de esas bases de datos de las que hay que extraer información que serán procesados o actuarán como entrada a nuestro modelo matemático. Nociones básicas de programación para implementar versiones básicas de los modelos y los algoritmos desarrollados también son clave.

Conocimientos clave: matemáticas, SQL, Python, R.

Data Engineer

Está implicado en el desarrollo del software que ha de procesar los datos tanto que actuarán de entrada a los desarrollos de los data scientist como de almacenar la salida procesada, el resultado del trabajo. Es de los tres roles que tratamos hoy el que más se alinea con el puesto de desarrollador de software de toda la vida, si bien es un desarrollador de software con conocimientos en sistemas de big data.

Conocimientos clave: Scala, Python, Hadoop (y toda la utillería habitual de big data), Spark.

Data Analyst

Es un rol más próximo al desarrollo de negocio. Su función es interpretar datos (también los datos de salida de los sistemas desarrollados por los Scientist y los Engineer) y extraer a partir de ellos conclusiones e implicaciones para el mundo real que faciliten la toma de decisiones de negocio correctas.

Conocimientos clave: estadística, software de generación de reports (Tableau, Qlikview), hojas de cálculo, algo de SQL.

El hilo que va desde el ajedrez al coche autónomo

Tesla Model S

Leí hace unos días uno de esos artículos sobre coche autónomo que me hacen sonreir ligeramente, de forma casi imperceptible.

Resulta que con los datos en la mano el piloto automático de los Tesla actuales es menos competente que un humano y hay a quien parece que eso deba ser recalcado, quizá con idea de que esa percepción de incapacidad técnica cale entre el público objetivo.

Entonces me dio por pensar que en los años noventa, algún periodista debió escribir algo parecido acerca de cómo los ordenadores eran incapaces de ganar a los mejores jugadores del mundo de ajedrez. Seguro que cuando Kasparov ganó la revancha a Deep Blue también lo escribieron. Recordé entonces que hace ya unos quince años que el mejor humano (entonces, Ponomariov) derrotó por última vez a la mejor máquina para jugar al ajedrez, como conté en su día; y que eso ya jamás volverá a suceder.

Entonces, como ya se imaginan, se me pintó la sonrisa casi imperceptible que les comentaba. La pregunta no es si los coches conducirán mejor que las personas, sino cuándo.

Voto cuadrático

En Bloomberg hablan de lo que llaman voto cuadrático, un curioso invento bastante nerd que han probado en Colorado (Estados Unidos) y parece que con buen resultado:

The tool is called quadratic voting, and it’s just as nerdy as it sounds. The concept is that each voter is given a certain number of tokens—say, 100—to spend as he or she sees fit on votes for a variety of candidates or issues. Casting one vote for one candidate or issue costs one token, but two votes cost four tokens, three votes cost nine tokens, and so on up to 10 votes costing all 100 of your tokens. In other words, if you really care about one candidate or issue, you can cast up to 10 votes for him, her, or it, but it’s going to cost you all your tokens.

Según explican, la idea es medir si las intensas preferencias de una minoría pesan más que las preferencias suaves de una mayoría.

Con las cifras del ejemplo anterior, un elector convencido podría emitir 10 votos por una única opción, o un máximo de 100 votos repartidos entre sendas opciones.

Parece una forma correcta de mitigar los efectos del pensamiento más sectario o intransigente en favor de una visión más compensada y repartida que sea capaz de apoyar a otros candidatos.

The Coddling of the American Mind

Hace cosa de un mes terminé The Coddling of the American Mind, de Jonathan Haidt y Greg Lukianoff, y llevo desde entonces queriendo sacar una nota al respecto en el blog, pues creo que es un libro excelente. Hay una web que acompaña al libro que también es muy recomendable.

El título y el subtítulo del libro te dan una idea de por dónde van a ir los tiros: La sobreprotección de la mente americana: cómo buenas intenciones y malas ideas están configurando a una generación para fracasar.

El libro de Haidt es, sin duda alguna, lo mejor que he leído en bastante tiempo. Un análisis pormenorizado del devenir contemporáneo, con especial foco en la transformación de las instituciones universitarias, otrora avatares de la libertad de pensamiento y cada vez más reductos donde sus integrantes (tanto profesores como alumnos) esperan encontrar únicamente confirmación a sus ideas, sin ser estas cuestionadas ni sometidas a escrutinio.

No son los millenials, estúpido

Una cosa que Haidt explica muy bien es que pese a que el término millenial se ha convertido ahora en meme-parodia de todo lo que se quiera ridiculizar (creo que en eso ha sustituido las referencias al cuñadismo de hace unos años), los problemas derivados de la sobreprotección de los jóvenes no se manifiestan con la llegada de los millenials a la vida adulta, sino con una generación posterior que ha crecido masivamente con Internet en sus bolsillos.

Haidt llama a esta generación la iGen, y la define de forma que quienes nacieron un poco antes del cambio de siglo (en torno a 1995) forman parte de ella. Son personas que llegan a la edad adulta en la década que ahora terminamos, a partir de 2013 si sumamos desde la fecha mencionada arriba.

Una característica clave para entender a esta nueva generación es que es la primera que ha pasado los años clave de su desarrollo personal (la adolecencia) con mucha menos interacción directa y menos actividades no supervisadas (como jugar en la calle sin un adulto que supervise el juego y resuelva los conflictos entre niños) que cualquier generación anterior en toda la historia.

El resultado son jóvenes adultos que no saben resolver conflictos sin un mediador, que es uno de los motivos por el que aflora la continua y reiterada petición de normas, reglas, y autoridades que estipulen lo que se puede y no se puede hacer; básicamente, son niños pidiendo a adultos que pongan orden donde ellos no son capaces.

Se puede hilvanar estas ideas con partes de Lanier, Stallman o Lessig. Todos ellos nos avisaron del peligro de que los humanos sucumban ante la mediación de las computadoras. Desde la influencia desmesurada de quien controla el software (Stallman, Lessig) a las limitaciones que derivan del hecho de dejar que el software establezca los matices de tu pensamiento (Lanier). En realidad, todo lo argumentado por Haidt viene a ser una descorazonadora confirmación de que está sucediendo lo que anticipaban todos estos pensadores. Suelo tratar estos temas en el blog.

Podría extenderme mucho más, el libro da para ello con temas como una crítica extensa a Marcuse y a las ideas que heredaron de su pensamiento (como todo lo relacionado con la interseccionalidad), incluyendo toda esa fijación posmoderna en que el consenso construye la verdad de forma subjetiva y que para solucionar problemas basta con cambiar de nombre a los mismos, en lugar de atajarlos de raíz. Pero entonces me alargaría demasiado y les robaría tiempo que, humildemente, les recomiendo gastar leyendo este libro.

Facebook, resumido

Una cita que guardé aquí hace unas semanas, sacada directamente de un post de Om Malik:

It is a vortex of negativity for the Silicon Valley ecosystem — a company that has stolen from the ecosystem at every turn. Its actions are why regulators will foist ill-thought-out regulation on all technology and in the process dampen the spark of innovation. The reaction to Facebook and its impact on society, in general, will lead to even good technology being demonized because it has shown what happens when technology has no consequence.

Entiendo que se refiere a la falta de consecuencias de los abusos cometidos con la tecnología.

La Internet del abuelo cebolleta

El pasado mes de marzo mi cuenta de Twitter cumplió 12 años. Eso significa que, como usuario de Internet, ha pasado más tiempo desde el día en que me registré en Twitter hasta ahora que del que había transcurrido desde mi primer contacto con Internet hasta el día en que creé mi perfil ahí.

Para personas que no se iniciaran en Internet en los noventa, y que no la usaran con la misma intensidad que lo hicimos quienes sí que la usamos con intensidad en aquellos maravillosos años, esta balanza está aún más equilibrada hacia esa era de Internet en que ya existían los servicios que ahora son omnipresentes y centralizan toda nuestra actividad.

Para la generación de Internet posterior, iGen como la llama Jonathan Haidt, que alcanzó la preadolescencia cuando ya existían estas webs (esa generación que tan frecuentemente se califica erróneamente de millenials), la Internet previa a la recentralización provocada por la también mal llamada web social sencillamente jamás existió. La primera vez que sus padres les dejaron usar un teléfono móvil ya había Facebook y Twitter, y los que llegaron un poco después lo hicieron ya incluso con Instagram, Snapchat, y WhatsApp.

La Internet previa es un recuerdo en la cabeza de una cada vez menor proporción de personas.

Volviendo a El bosque originario de Juaristi

Anduve releyendo El bosque originario, de Jon Juaristi, pues tenía ganas de refrescar todo acerca de los mitos de origen europeos. Es un libro que leí hace ya bastantes años y que en su día me dejó muy buen sabor de boca: tras leerlo de nuevo casi una década después solo puedo decir que sigue siendo un libro excepcional tanto por estar profundamente bien documentado como por el contenido en sí.

Al pasar el tiempo, además, pensé que una relectura sería provechosa: algunas cosas con las que no estaba del todo de acuerdo parecían encajarme mentalmente, y otras que en su día vi de una forma veía ahora de otra. Mucho debate interior, una excusa perfecta para volver a un libro.

La relectura ha sido un éxito: el libro, publicado en el año 2000, sigue siendo muy recomendable, algo más que destacable en un ensayo publicado hace casi veinte años.

Como anécdota de algo que no recordaba, en los últimos coletazos del libro nos habla de la inefable Madame Blavatsky y la influencia de su teosofía en la evolución del mito de origen ario en Alemania. Cuenta Juaristi que:

La aparición de la cultura de masas, de la industrialización de la literatura, así como de un nuevo público capaz de leer la prensa pero sin grandes exigencias intelectuales, explica no sólo el triunfo y la rápida extensión de la teosofía, sino también que la ariomanía terminara desembocando en el nazismo.

Las negritas son mías. Inciso: El mandril de Madame Blavatsky, de Peter Washington, es un libro también interesante sobre esta mujer y la capacidad de las personas para dejarse embaucar y creer cosas absurdas. Hablando de creer cosas absurdas, hace poco hablábamos en este blog de The True Believer, un librito escrito hace 70 años pero que parece escrito para nuestro momento histórico.

Ariomanía es el nombre que Juaristi da a ese furor que causaban todos los mitos de origen en torno a lo ario, y que vinieron a sustituir a la celtomanía predominante en los siglos XVII y XVIII, dando en ocasiones lugar a curiosas amalgamas celto-arias a base de trisqueles, que aún persisten si bien más convertidas en reclamos turísticos a que en mitos de verdad movilizadores de masas.

Usa Juaristi su verbo afilado para enlazar ese perfil de masas semicultas (y se entiende que también semiincultas) capaces de leer y de hacerse preguntas pero sin la voluntad o la capacidad para esgrimir un espíritu verdaderamente crítico respecto de lo leído, con el posmodernismo y el relativismo New Age contemporáneo, al tiempo que hace un pequeño descargo a Blavatsky:

List y Lanz [que extendieron y profundizaron las ideas de Blavatsky], como antes la Blavatsky, representaron sólo un aspecto superficial y anecdótico del más letal de los relatos de origen alumbrados en Europa. Un aspecto, por cierto, que sobrevive aún en el abigarrado repertorio de la religiosidad New Age y de las espiritualidaades alternativas de nuestro tiempo.

Al fin y al cabo, como ya aprendimos cuando leímos el libro no podemos (ni queremos) vivir sin historias. (Los dos artículos enlazados en la frase anterior tienen casi 9 años, y yo mismo matizaría algunas de las cosas que ahí cuento, y sobre todo en sus derivadas de primer y segundo orden.) Algo que también nos dijo el bueno de David Foster Wallace, que precisamente hacía hincapié en que lo determinante de tener acceso a una cultura sólida era no tanto decidir si creer o no creer, sino ser capaces de decidir consciente y voluntariamente en qué creer, para así dotar de sentido a la vida.

Este blog usa cookies para su funcionamiento.    Más información
Privacidad