Las personas que se han movido a esta esfera nos lo dicen en esta entrevista.

Contents

¿Qué hacen realmente los científicos de datos? Callosa Digital
¿Qué están haciendo realmente los científicos de datos?

La ciencia de datos es un área popular en TI de la que todo el mundo habla ahora. Pero no todo el mundo comprende lo que hacen los científicos de datos en la práctica. En resumen, procesan enormes cantidades de datos (tantos que no caben en una hoja de cálculo de Excel) y, basándose en ellos, crean algoritmos para resolver diversos problemas, desde la elaboración de pronósticos meteorológicos y sistemas de recomendación para servicios de música hasta el desarrollo de bots de chat inteligentes. y realización de investigaciones genéticas (ref.: Data Science From Scratch PDF).

Existe una gran demanda de científicos de datos calificados entre las grandes empresas. El trabajo interesante, la falta de rutina y los altos salarios hacen que la gente piense en cambiar de trabajo no solo para las personas con educación técnica, sino también para las humanidades. Sin embargo, ni uno ni otro sabe cómo acercarse a la profesión de científico de datos: dónde ir a estudiar, cómo conseguir un trabajo y qué habrá que hacer eventualmente.

Hablamos con tres egresados ​​que hicieron un curso en Data Science, y descubrimos por qué decidieron hacer cambios en sus vidas, si las expectativas de la nueva profesión coincidían con la realidad y qué dificultades tenían que enfrentar durante el trabajo y el estudio.

Por qué elegí Data Science

Realmente no me gustaron todas las profesiones que conocí de niño, pero siempre me atrajeron las computadoras. En sexto grado, me interesé en la programación y comencé a estudiar los lenguajes C ++ y Python y especialmente . Podemos decir que para el noveno grado ya tenía un conocimiento bastante profundo de la escritura de código.

Incluso entonces me di cuenta de que si quiero desarrollarme en el campo de las tecnologías de la información, la programación por sí sola no es suficiente. En ese momento, me ofrecieron participar en una olimpiada escolar relacionada con la ciencia de datos. Trabajar con conjuntos de datos me atrajo porque requiere un enfoque creativo: para cada tarea es necesario encontrar una solución original. Aquí es donde la ciencia de datos se diferencia del desarrollo de software, que utiliza aproximadamente los mismos métodos. Pero esta es mi opinión subjetiva.

Dificultades de aprendizaje

Hay muy pocos cursos de formación e información realmente útil en el acceso abierto sobre Data Science. La decisión de estudiar científico de datos en SkillFactory se produjo después de que hice un curso de tres meses sobre programación en Python con ellos. Me gustó el formato remoto y la forma en que está estructurado el plan de estudios.

Ya sabía codificar y confiaba en mis habilidades, así que lo único que me confundió en el curso fue la sección con matemáticas superiores. Fue muy difícil para mí, así que a veces recurrí a mentores en busca de ayuda. Su respuesta podría llegar instantáneamente o al día siguiente.

Otros estudiantes también me ayudaron. En general, hay muchas competiciones por equipos en el campo, porque el científico de datos casi nunca trabaja solo. Los temas del concurso están completamente relacionados con la ciencia de datos. Por ejemplo, hubo un concurso de análisis de series de tiempo. me ayudó mucho.

Cómo el proyecto de graduación ayudó a mejorar las habilidades de un científico de datos

Durante casi dos años que he estado haciendo ciencia de datos, la tarea más difícil para mí fue mi proyecto de graduación en - "Predecir los precios de las propiedades mediante el aprendizaje automático". El programa que hice tomó datos sobre un objeto específico: ubicación, número de pisos, área del apartamento y número de habitaciones, y construyó pronósticos del costo de esta vivienda basados ​​en ellos.

La parte más difícil, pero también la más interesante, del proyecto fue el formato de datos complejo. Es fácil trabajar con información en el mismo formato. Por ejemplo, cuando los números están cuidadosamente reunidos en una tabla. Pero si hay firmas o símbolos, es necesario limpiarlos, y esto es muy difícil. Básicamente, me enfrenté a una gran variedad de datos no estructurados. El proyecto de graduación tomó mucho tiempo, pero fue él quien desarrolló las habilidades que antes faltaban. La tarea me obligó a aplicar las soluciones más sofisticadas, en las que difícilmente hubiera pensado antes.

Me volví más detallado en todas las "características" de la ciencia de datos y dominé nuevas herramientas, por ejemplo, hyperopt para la selección automática de hiperparámetros o corrector ortográfico para corregir la ortografía de las palabras. También fortalecí mi conocimiento de materiales que no me quedaron del todo claros durante el curso.

El formato del diploma era nuevo para mí, por lo que los mentores ayudaron principalmente con el diseño de la presentación. En cada etapa del trabajo, recibí una lista de errores y deficiencias que deben corregirse. Lo mismo ocurre con el código. Siempre puedes pedir ayuda, pero yo quería arreglar las cosas yo mismo. Al menos donde sea posible.