Conheça os serviços de analytics na AWS: Athena, Glue, Sagemarker e Quicksight
Os serviços de analytics na AWS são um conjunto de ferramentas que ajudam no entendimento dos seus dados. Eles ajudam os negócios a tomar decisões melhores e a serem mais eficientes. Esses serviços são bem amplos e podem usadas em diversas situações além de projetos de analytics.
Lembrando que se for usar algum exemplo desse artigo, os serviços da AWS são pagos, vale estudar o preço do uso de cada serviço para não ter supressas no cartão de crédito.
Cada serviço tem uma forma de tarifa, como: uso por hora, execução, outros.
Athena
O AWS Athena é um serviço de análise interativa da Amazon Web Services (AWS) que permite consultar e analisar dados armazenados no Amazon S3 (Simple Storage Service) usando SQL padrão. Ele é uma ferramenta poderosa que não requer configuração de infraestrutura ou gerenciamento de servidores, pois funciona em um modelo de "serverless"
Com o Athena, você pode executar consultas SQL diretamente nos dados armazenados no S3, sem a necessidade de carregar ou transformar esses dados em um banco de dados tradicional. Isso significa que você pode analisar grandes volumes de dados de forma rápida e flexível, pagando apenas pelo que é processado nas consultas.
No exemplo abaixo vamos:
Vamos criar uma tabela chamada "Tabela_Exemplo_Athena";
Indicar que os dados no arquivo CSV são delimitados por vírgulas;
Especifica o local do arquivo CSV no seu bucket do Amazon S3;
Indicar que a primeira linha do arquivo CSV é um cabeçalho e deve ser ignorada na criação da tabela.
Glue
O AWS Glue é um serviço da Amazon Web Services (AWS) usado principalmente para preparar e transformar dados para análise. Ele simplifica e automatiza muitas das tarefas associadas à criação e gerenciamento de pipelines de dados.
Algumas das funcionalidades do AWS Glue:
Catálogo de Dados: O Glue possui um catálogo de metadados que armazena informações sobre os dados e sua estrutura. Isso permite descobrir, catalogar e mapear automaticamente a estrutura de diferentes fontes de dados.
Estruturação de Dados: Ele ajuda na transformação e limpeza de dados, permitindo que você crie scripts de transformação usando uma interface gráfica ou por meio de código Python.
Job Scheduler: Permite criar e gerenciar jobs (processamentos) para extrair, transformar e carregar (ETL) dados em vários formatos e locais.
Suporte a Diversos Dados: É compatível com uma variedade de fontes de dados, incluindo Amazon S3, bancos de dados relacionais e não relacionais, além de ser integrado com outros serviços AWS como o Amazon Redshift, Amazon RDS, entre outros.
Ambiente Serverless: Funciona em um ambiente "serverless", o que significa que você não precisa se preocupar com a infraestrutura subjacente. O AWS Glue dimensiona automaticamente conforme necessário, cobrando apenas pelos recursos utilizados.
No exemplo abaixo vamos:
Criar um ETL usando a interface gráfica do AWS Glue Studio para criar um fluxo de processamento;
Importar os dados do S3, utilizado uma função retirar valores nulos e depois um função de agregração;
SageMarker
O Amazon SageMaker é um serviço voltado para a construção, treinamento e implantação de modelos de machine learning de forma simplificada na nuvem.
Facilita a construção de modelos de machine learning por meio de uma interface integrada que suporta várias bibliotecas populares, como TensorFlow, PyTorch, Pandas, Plolty, além de oferecer suporte a notebooks Jupyter.
Possibilita treinar modelos de machine learning usando recursos escaláveis, permitindo o treinamento distribuído em grandes conjuntos de dados. Esse recurso na minha visão é um diferencial para treinar modelos com alta carga de dados e algoritmos mais complexos como ensembles.
No exemplo abaixo vamos:
Criar um ambiente para um notebook Jupyter;
Criar um código Python para integrar no s3;
Criar um modelo de Machine Learning.
QuickSight
O Amazon QuickSight é um serviço de business intelligence (BI) e visualização de dados da AWS. Ele permite que usuários criem, compartilhem e visualizem insights de dados de maneira rápida e fácil, sem a necessidade de habilidades avançadas em análise de dados ou programação.
Oferece uma ampla variedade de opções de visualização, como gráficos interativos, tabelas, dashboards e widgets, para representar dados de maneira compreensível e informativa.
Integra-se facilmente a diversas fontes de dados, incluindo serviços da AWS (como o Amazon Redshift, Amazon RDS, Amazon S3), bancos de dados relacionais, serviços web, entre outros, para acessar e processar informações.
No exemplo abaixo vamos:
Importar uma base de dados via 'csv';
Criar um gráfico simples para exemplificar todas as possibilidade.
Caso de uso
O uso do serviço pode dependente bastante do tipo do seu projeto, mas o grande diferencial de utilizar esses serviços é a possibilidade de integração entre eles.
Vamos imaginar uma situação na qual queira criar um Dashboard.
Preparação dos dados: É possível utilizar o AWS Glue para catalogar os dados no Amazon S3, definindo um esquema e aplicando as transformações necessárias para preparar os dados para análise.
Consulta de Dados: O Athena pode ser usado para consultar os dados preparados no S3.
Treinamento de Modelo: Utilizo o SageMaker para treinar um modelo de machine learning com os dados preparados provenientes do Athena, salvando uma nova tabela com os dados treinados.
Criação do Dashboard: Através do QuickSight, conecto-me ao Athena e obtenho os dados para criar as visualizações.
Vamos criar uma visão dessa arquitetura para exemplificar a solução.
Escrito por Odemir Depieri Jr
Fundador Data Viking, Lead Analytics Itaú.
Comments