7 minutos de leitura

Foco na tela de um computador. Nele, estão datasets de vendas, em gráficos.
Foco na tela de um computador. Nele, estão datasets de vendas, em gráficos.

O uso de dados não é mais exclusividade de grandes corporações. Aqueles que buscam aprofundar os conhecimentos em análise ou simplesmente desejam aprender a interpretar informações podem recorrer a uma infinidade de conjuntos de dados públicos. Isso porque os datasets estão cada vez mais acessíveis.

Seja nas notícias, no trânsito ou no mercado de trabalho, os dados já fazem parte do cotidiano das pessoas. Com o uso de datasets, é possível desenvolver habilidades em análise de dados. Mas suas funcionalidades vão além. É possível utilizar recursos para ajudar desde iniciantes até profissionais experientes, abrangendo a análise inicial dos dados e a criação de visualizações significativas e impactantes.

Ou seja, os datasets servem como uma base sólida para quem busca aprender ou aprimorar suas habilidades na área de análise de dados.

O que são datasets?

Datasets também podem ser chamados de conjuntos de dados. Eles são coleções de informações utilizadas para análise, pesquisa e treinamento de modelos de algoritmos de inteligência artificial. Além disso, eles podem ser usados para diversos tipos de projetos de análise de dados ou ciência de dados.

De uma forma geral, os dados estão em arquivo que pode vir na forma de uma planilha no Excel (XLS), um arquivo CSV, TXT, JSON e até XML. 

Vamos imaginar que temos um conjunto de informações sobre vendas em uma loja. Em cada linha deste conjunto, existem detalhes como quem comprou, o que comprou e quanto gastou. Por exemplo, é possível ter 10 mil linhas, representando diferentes compras, e três categorias de informações. Basicamente, um dataset é como uma tabela organizada em linhas e colunas que nos ajuda a entender e analisar dados.

Descubra como datasets podem ser úteis para o seu projeto

De uma forma geral, datasets são fundamentais para qualquer projeto de análise de dados e existem algumas maneiras em que os conjuntos de dados podem ser úteis. Confira abaixo:

Análise descritiva

Datasets permitem que você entenda melhor o que está acontecendo em seu campo de estudo. Por exemplo, um banco de dados de vendas de uma loja pode revelar quais produtos são mais populares ou em quais horários do dia as vendas são mais altas.

Previsão

O histórico de dados pode ser usado para prever tendências futuras. Por exemplo, um dataset de preços de ações passadas pode apresentar uma previsão para preços futuros.

Detecção de anomalias

Um conjunto de dados pode ajudar a identificar eventos raros ou anômalos. Por exemplo, um dataset de transações de cartão de crédito pode ser usado para identificar atividades fraudulentas.

Teste de hipóteses

Datasets permitem testar hipóteses estatísticas sobre relações entre variáveis. Por exemplo, em um banco de dados de uma pesquisa de satisfação do cliente para um produto, as variáveis podem incluir a idade do cliente, o gênero, a frequência de uso do produto e a classificação de satisfação do cliente. Dessa forma, é possível criar a hipótese de quais clientes estão mais propícios a comprar determinados produtos.

Foco em uma tela de computador. Na imagem, dados de programação. Mãos femininas sobre o teclado.
Datasets são mais acessíveis do que imaginamos.

A melhor parte de criar um projeto com análise de dados é que existem conjuntos públicos que fornecem datasets gratuitos. Confira abaixo uma lista para te ajudar a montar o seu portfólio!

8 locais para encontrar datasets públicos para seus projetos

Dados.gov

O site Dados.gov.br é uma iniciativa para aumentar a transparência das ações governamentais e dos registros públicos no Brasil. Também conhecido como Portal Brasileiro de Dados Abertos, ele serve como um repositório central para dados de diversos interesses. 

O portal oferece acesso a informações específicas, como o censo da população, e os registros de programas sociais, como o Bolsa Família. Os dados estão disponíveis em vários formatos, incluindo PDF e XML, permitindo que os usuários visualizem as informações diretamente no site. Para auxiliar na compreensão, o portal também fornece dicionários de dados que explicam o conteúdo dos arquivos.

Earthdata

O Earthdata é uma plataforma desenvolvida pela NASA que faz parte do seu Programa de Sistemas de Dados Científicos da Terra. O sistema é responsável por processar e distribuir dados científicos sobre a Terra, que são coletados por meio de satélites, aeronaves e medições de campo.

A plataforma permite que qualquer pessoa acesse dados, notícias e informações sobre eventos da NASA. Ela oferece dados sobre diversos aspectos do planeta, incluindo a atmosfera, radiação solar, áreas congeladas (criosfera), oceanos, características da superfície terrestre (como gravidade e geomagnetismo) e até mesmo ambientes humanos.

Google Trends

O Google Trends é uma ferramenta que permite que você descubra o que estão pesquisando no Google. Por exemplo, se você quiser saber quantas pessoas pesquisaram “Champions League” recentemente, o Google Trends pode fornecer essa informação.

A ferramenta é bastante flexível e permite que você refine sua pesquisa de várias maneiras. É possível filtrar os resultados por localização (global ou específica do país), período, categoria e até mesmo tipo de pesquisa (web, imagens ou YouTube). O que pode ser útil para quem está interessado em tendências específicas, como a popularidade de um determinado termo de pesquisa ao longo do tempo.

Além disso, existem outras ferramentas disponíveis. É o caso do Google Finance, que fornece informações financeiras; do Google Public Data, para conjuntos de dados públicos; e do Google Acadêmico, com um conjunto de dados de pesquisas acadêmicas.

Dados do Observatório da Saúde Mundial

A Organização Mundial da Saúde (OMS) disponibiliza uma plataforma chamada Observatório da Saúde Mundial (GHO). Nela, é possível acessar e analisar dados sobre várias condições de saúde ao redor do mundo.

Por exemplo, se você estiver interessado em saber mais sobre o “acesso universal à saúde reprodutiva”, você pode encontrar esses dados no GHO. Os dados são organizados por temas, como mortalidade, sistemas de saúde, doenças transmissíveis e não transmissíveis, medicamentos e vacinas, riscos à saúde, entre outros.

Reddit

O Reddit é uma plataforma que oferece recursos variados. Um deles é o espaço dedicado a cientistas de dados, onde diversas pessoas podem participar de discussões sobre tópicos relevantes para sua área.

Além disso, o Reddit tem uma seção específica para compartilhamento de conjuntos de dados de diferentes categorias. Os usuários podem ler os comentários sobre esses dados para determinar se são adequados para suas necessidades.

Por exemplo, na base do Reddit, é possível encontrar conjuntos de dados importantes sobre diversos tópicos, como a empresa de transporte Uber, a pandemia de Covid-19 e até mesmo sobre notícias falsas (fake news).

Pew Internet

O Pew Research Center é uma organização que tem como objetivo reunir e analisar dados de diversas partes do mundo. Ele explora uma ampla gama de tópicos, incluindo política, redes sociais, jornalismo, economia, privacidade online, religião e tendências demográficas.

Além de conduzir suas próprias pesquisas imparciais, o Pew também disponibiliza seus dados brutos para o público. Para acessar esses dados, é necessário um cadastro rápido no site e o reconhecimento do Pew Research Center como a fonte dos dados. Importante destacar que o Pew não se responsabiliza por interpretações alternativas feitas a partir dos datasets.

A disponibilização desses dados ao público é, de certa forma, outro projeto de pesquisa do Pew. Eles estão interessados em ver como outras pessoas utilizam seus dados em suas próprias pesquisas. A única solicitação do Pew é que eles sejam notificados por e-mail caso os datasets sejam usados em uma publicação. Ou seja, mesmo que eles disponibilizem os dados gratuitamente, eles desejam compreender como serão usados em estudos ou projetos.

Kaggle

O Kaggle é um portal renomado para profissionais de ciência de dados. Ele oferece uma variedade de projetos e competições que você pode participar para ganhar prêmios. Além disso, serve como uma plataforma colaborativa para profissionais da área compartilharem seus projetos.

A plataforma é muito intuitiva, permitindo que você encontre facilmente o que procura através de filtros. Ela ainda oferece documentação detalhada que explica o significado de cada coluna nos conjuntos de dados.

Além de oferecer desafios de Machine Learning e ter uma comunidade ativa, é possível encontrar conjuntos de dados de alta qualidade para realizar análises. 

Portal de Transparência

O Portal da Transparência é outro recurso para quem busca dados brasileiros. Ele é um repositório que registra informações sobre os gastos públicos, investimentos e receitas das instituições.

Este portal é uma ferramenta para entender como os recursos públicos são alocados e utilizados. Ele fornece uma visão clara e transparente das finanças públicas, permitindo que qualquer pessoa acompanhe como o dinheiro público está sendo gasto.

Importante destacar que algumas das plataformas citadas estão disponíveis em inglês, o que pode dificultar o acesso daqueles que não dominam a língua. Porém, com sites de tradução ou mesmo o recurso disponibilizado pelo Google Chrome, é possível traduzir as informações.