top of page
Foto do escritorOdemir Depieri Jr

Conhecendo serviços de Analytics na AWS

Conheça os serviços de analytics na AWS: Athena, Glue, Sagemarker e Quicksight


Serviços de analytics na AWS

Os serviços de analytics na AWS são um conjunto de ferramentas que ajudam no entendimento dos seus dados. Eles ajudam os negócios a tomar decisões melhores e a serem mais eficientes. Esses serviços são bem amplos e podem usadas em diversas situações além de projetos de analytics.


Lembrando que se for usar algum exemplo desse artigo, os serviços da AWS são pagos, vale estudar o preço do uso de cada serviço para não ter supressas no cartão de crédito.

Cada serviço tem uma forma de tarifa, como: uso por hora, execução, outros.


Athena

O AWS Athena é um serviço de análise interativa da Amazon Web Services (AWS) que permite consultar e analisar dados armazenados no Amazon S3 (Simple Storage Service) usando SQL padrão. Ele é uma ferramenta poderosa que não requer configuração de infraestrutura ou gerenciamento de servidores, pois funciona em um modelo de "serverless"


Com o Athena, você pode executar consultas SQL diretamente nos dados armazenados no S3, sem a necessidade de carregar ou transformar esses dados em um banco de dados tradicional. Isso significa que você pode analisar grandes volumes de dados de forma rápida e flexível, pagando apenas pelo que é processado nas consultas.


No exemplo abaixo vamos:

  • Vamos criar uma tabela chamada "Tabela_Exemplo_Athena";

  • Indicar que os dados no arquivo CSV são delimitados por vírgulas;

  • Especifica o local do arquivo CSV no seu bucket do Amazon S3;

  • Indicar que a primeira linha do arquivo CSV é um cabeçalho e deve ser ignorada na criação da tabela.

Serviço do AWS Athena

Glue

O AWS Glue é um serviço da Amazon Web Services (AWS) usado principalmente para preparar e transformar dados para análise. Ele simplifica e automatiza muitas das tarefas associadas à criação e gerenciamento de pipelines de dados.


Algumas das funcionalidades do AWS Glue:


Catálogo de Dados: O Glue possui um catálogo de metadados que armazena informações sobre os dados e sua estrutura. Isso permite descobrir, catalogar e mapear automaticamente a estrutura de diferentes fontes de dados.


Estruturação de Dados: Ele ajuda na transformação e limpeza de dados, permitindo que você crie scripts de transformação usando uma interface gráfica ou por meio de código Python.


Job Scheduler: Permite criar e gerenciar jobs (processamentos) para extrair, transformar e carregar (ETL) dados em vários formatos e locais.


Suporte a Diversos Dados: É compatível com uma variedade de fontes de dados, incluindo Amazon S3, bancos de dados relacionais e não relacionais, além de ser integrado com outros serviços AWS como o Amazon Redshift, Amazon RDS, entre outros.


Ambiente Serverless: Funciona em um ambiente "serverless", o que significa que você não precisa se preocupar com a infraestrutura subjacente. O AWS Glue dimensiona automaticamente conforme necessário, cobrando apenas pelos recursos utilizados.


No exemplo abaixo vamos:

  • Criar um ETL usando a interface gráfica do AWS Glue Studio para criar um fluxo de processamento;

  • Importar os dados do S3, utilizado uma função retirar valores nulos e depois um função de agregração;

Serviço do AWS GLUE

SageMarker

O Amazon SageMaker é um serviço voltado para a construção, treinamento e implantação de modelos de machine learning de forma simplificada na nuvem.


Facilita a construção de modelos de machine learning por meio de uma interface integrada que suporta várias bibliotecas populares, como TensorFlow, PyTorch, Pandas, Plolty, além de oferecer suporte a notebooks Jupyter.


Possibilita treinar modelos de machine learning usando recursos escaláveis, permitindo o treinamento distribuído em grandes conjuntos de dados. Esse recurso na minha visão é um diferencial para treinar modelos com alta carga de dados e algoritmos mais complexos como ensembles.


No exemplo abaixo vamos:

  • Criar um ambiente para um notebook Jupyter;

  • Criar um código Python para integrar no s3;

  • Criar um modelo de Machine Learning.

serviço AWS SageMarker

QuickSight

O Amazon QuickSight é um serviço de business intelligence (BI) e visualização de dados da AWS. Ele permite que usuários criem, compartilhem e visualizem insights de dados de maneira rápida e fácil, sem a necessidade de habilidades avançadas em análise de dados ou programação.


Oferece uma ampla variedade de opções de visualização, como gráficos interativos, tabelas, dashboards e widgets, para representar dados de maneira compreensível e informativa.


Integra-se facilmente a diversas fontes de dados, incluindo serviços da AWS (como o Amazon Redshift, Amazon RDS, Amazon S3), bancos de dados relacionais, serviços web, entre outros, para acessar e processar informações.


No exemplo abaixo vamos:

  • Importar uma base de dados via 'csv';

  • Criar um gráfico simples para exemplificar todas as possibilidade.

serviço AWS QuickSight

Caso de uso

O uso do serviço pode dependente bastante do tipo do seu projeto, mas o grande diferencial de utilizar esses serviços é a possibilidade de integração entre eles.

Vamos imaginar uma situação na qual queira criar um Dashboard.

  1. Preparação dos dados: É possível utilizar o AWS Glue para catalogar os dados no Amazon S3, definindo um esquema e aplicando as transformações necessárias para preparar os dados para análise.

  2. Consulta de Dados: O Athena pode ser usado para consultar os dados preparados no S3.

  3. Treinamento de Modelo: Utilizo o SageMaker para treinar um modelo de machine learning com os dados preparados provenientes do Athena, salvando uma nova tabela com os dados treinados.

  4. Criação do Dashboard: Através do QuickSight, conecto-me ao Athena e obtenho os dados para criar as visualizações.

Vamos criar uma visão dessa arquitetura para exemplificar a solução.

Desenho da arquitetura da solução na AWS

Odemir Depieri Jr

Escrito por Odemir Depieri Jr

Fundador Data Viking, Lead Analytics Itaú.



2.053 visualizações0 comentário

Comments


bottom of page