Para se tornar um cientista de dados não exige necessariamente um diploma especifico de ciência de dados ou ciência da tecnologia. Defendo essa visão pela quantidade de vagas que já analisei no mercado.
Mas há uma escassez significativa de cientistas de dados e algumas empresas não se importam em contratar pessoas que não têm diploma especifico na área de tecnologia, mas têm a experiência necessária para atuar como cientista de dados.
Mas o que um cientista de dados faz?
Não está bem definindo seu papel, mas vejo que algumas tarefas são pré-requisitos de mercado:
Manipular grande quantidade de dados com dados estruturados ou não-estruturados;
Criação de modelos preditivos usando algoritmos de machine learning;
Analisar dados para validar hipóteses e gerar insights para o negócio;
Técnicas de visualização de dados;
Desenvolvimento de modelos estatísticos;
Outros.
Como disse acima, é um pouco relativo definir exatamente suas tarefas. Quando converso com um cientista sempre descubro uma nova tarefa que vem realizados. Mas uma coisa é universal, a criação de modelos de machine learning, não imagino um cientista de dados sem essa tarefa.
Quais habilidades tenho que desenvolver?
Estatísticas
Umas das habilidades que é essencial o desenvolvimento.
Existem técnicas estatísticas disponíveis, e um cientista de dados deve pesquisar e encontrar as técnicas estatísticas mais apropriadas para a situação. Listadas abaixo estão algumas técnicas estatísticas muito básicas, que um cientista de dados deve entender e que fornecem uma base de compreensão para outras técnicas estatísticas:
Estatísticas básicas;
Distribuição de probabilidade;
Redução de Dimensões;
Amostragem;
Estatística Bayesiana;
Outros.
Linguagens de programação
Há uma grande variedade de linguagens de programação úteis para Data Science. As linguagens são usadas em programas de computador para realizar algoritmos caso não tenha conhecimento sobre o assunto. Um cientista de dados deve ter aprendido e dominado pelo menos uma linguagem de programação.
Python
É considerado por muitos como a linguagem de programação Data Science mais popular usada hoje. Python é uma linguagem de propósito geral que é Orientado a Objetos e fácil de usar. É uma linguagem de código aberto e começou a ser usada em 1991.
R
É uma linguagem de código aberto desenvolvida por estatísticos. R é normalmente usado para computação gráfica e estatística, mas também vem com vários aplicativos de ciência de dados e várias bibliotecas úteis. R pode ser usado para pesquisar dados e realizar análises de dados, conforme necessário. Essa linguagem é, no entanto, mais complexa e mais difícil de aprender do que Python.
Scala
Essa linguagem de programação foi desenvolvida em 2003 e foi originalmente projetada para resolver problemas com Java. Possui aplicações que vão desde aprendizado de máquina até programação web e é bom para trabalhar com pesquisa de big data, em parte porque é escalável. Scala oferece suporte a programação orientada a objetos e funcional. Mas ainda não é tão comum quanto R e Python.
Banco de Dados
SQL
Linguagem de consulta estruturada é uma linguagem de programação muito popular para gerenciamento de dados e é comumente usada por uma variedade de empresas. Tabelas e consultas SQL são úteis para cientistas de dados ao trabalhar com sistemas de gerenciamento de banco de dados. Essa linguagem é extremamente útil ao armazenar, recuperar e trabalhar com dados em bancos de dados relacionais.
Quer saber mais sobre o tema?
Treinamento gratuito para começar sua história em ciência de dados.
Descubra a estratégia exata que usamos para estudar de forma correta.
Escrito por Odemir Depieri Jr em 17/12/2022
Comments