Tipos de Estruturas de Dados: Uma Visão Geral
Quando falamos sobre dados, é essencial compreender como eles são organizados e armazenados. As estruturas de dados referem-se à forma como os dados são organizados para facilitar seu acesso, manipulação e uso. Existem três tipos principais de estruturas de dados: estruturados, semiestruturados e não estruturados. Vamos dar uma olhada em cada um deles:
Dados Estruturados
Os dados estruturados são organizados de uma maneira bem definida e organizada. Eles seguem um formato fixo e consistente, o que facilita muito a manipulação e o armazenamento. Geralmente, esses dados são encontrados em bancos de dados relacionais, onde tabelas são usadas para representar informações. Por exemplo, imagine uma planilha com colunas claramente definidas para nome, idade, e-mail e assim por diante. Cada linha nessa planilha representa um registro único.
Dados Semiestruturados
Já os dados semiestruturados não têm uma estrutura fixa como os dados estruturados. Eles possuem alguma forma de organização, mas não seguem um esquema rigoroso. Um exemplo comum são os documentos XML ou JSON. Nestes casos, embora haja uma certa organização, não há um esquema pré-definido para todos os dados. Por exemplo, um documento JSON pode ter campos comuns, mas também pode incluir campos adicionais dependendo do contexto.
Dados Não Estruturados
Os dados não estruturados não possuem um formato organizado específico. Eles são muitas vezes descritos como dados "brutos" ou não formatados. Um exemplo clássico são os arquivos de texto, áudio, vídeo ou até mesmo informações em redes sociais. Esses dados não seguem uma organização predefinida e podem conter uma grande variedade de informações sem uma estrutura clara.
Manipulando cada tipo de dados
Vamos manipular cada tipo de dados usando a linguagem Python.
Estruturado
Vamos criar um DataFrame para exemplificar como seria trabalhar com esses dados.
No trecho de código abaixo, crio algumas listas em Python, as incluo em um dicionário e depois crio um DataFrame. Assim, os dados estão relacionados e podemos manipulá-los de forma fácil.
# Pacotes necessários import pandas as pd import numpy as np import random # Criar dados aleatórios nomes = ['Maria', 'João', 'Pedro', 'Ana'] idades = [random.randint(18, 25) for _ in range(4)] notas1 = np.random.randint(50, 100, size=4) notas2 = np.random.randint(50, 100, size=4) # Criar o DataFrame dados = { 'Nome': nomes, 'Idade': idades, 'Nota1': notas1, 'Nota2': notas2 } data_frame = pd.DataFrame(dados) data_frame
Semiestruturado
Para ilustrar a manipulação de um dado semiestruturado, vamos fazer o seguinte: criar uma string em Python e incluir um texto no formato JSON (semiestruturado). Em seguida, vamos exibi-lo no terminal.
import pandas as pd import json # Dados no estilo JSON dados_json = ''' { "alunos": [ { "Nome": "Maria", "Idade": 20, "Nota1": 85, "Nota2": 90 }, { "Nome": "João", "Idade": 22, "Nota1": 78, "Nota2": 85 } ] } ''' # Carregar os dados JSON dados = json.loads(dados_json) dados
Não Estruturado
Nesse exemplo vamos contar a quantidade de palavras dentro de uma frase para mostrar como seria manipular esse tipo de informação.
# Texto | Dado não estruturado
texto_nao_estruturado = " 'A vida é aquilo que acontece enquanto você está ocupado fazendo outros planos.' - John Lennon" # Quebrar o texto em palavras palavras = texto_nao_estruturado.split() # Contar o número de palavras contagem_palavras = len(palavras) # Mostrar a contagem no terminal print(f"O texto tem {contagem_palavras} palavras.")
Escrito por Odemir Depieri Jr
Fundador Data Viking, Lead Analytics Itaú.
Comments