Tenho observado que o nosso site vem recebendo mais visitas diariamente e o assunto mais procurado é relacionado a dados abertos, datasets e informações relacionadas à esses assuntos, por isso, resolvi fazer um post rápido para trazer mais algumas opções interessantes para vocês.

Nesse texto, trarei cinco novas opções de datasets para vocês buscarem dados para fazerem seus testes e experimentos. Acredito que aqueles que estão iniciando ou avançando os estudos com machine learning encontram dificuldades para localizar boas fontes de dados.

Datasets de dados abertos na nuvem


Eu os classifiquei de acordo com a minha preferência e por ordem de relevância, mas você poderá ter outra opinião quando olhar todos eles.

1 – Banco Mundial – World Bank

O banco mundial disponibiliza uma área com muitos dados de diversos países, separados por assuntos e também tem uma ferramenta básica de pesquisa para e análise.

Para acessar esses dados é só clicar aqui e aproveitar.
É um site muito bem estruturado, com design intuitivo, separado por assuntos e com todas informações sobre cada dataset, tudo de acordo com o que a Open Knowledge pede e vale pelo menos a visita para ver o conteúdo.

2 – Statista

Esse site foi literalmente um achado. Eles fazem um trabalho excelente de coleta, tratamento e disponibilização de dados.
Nesse caso, disponbilizam muitos datasets tratados para utilização, porém se você desejar ter mais coisas além dos dados puros, basta pagar e baixar muito mais informações, relatórios, gráficos e infográficos interessantes.
Os dados que estão abertos, já tem muita coisa bacana para ser usada.

Para acessar o site, basta clicar aqui e iniciar suas pesquisas e se divertir bastante com tudo que encontrar lá.

3 – Google datasets

O terceiro local para encontrar muitos dados para suas necessidades é do Google. Nem todos sabem, mas eles tem uma área destinada para armazenar e disponibilizar datasets para quem tiver interesse em acessar.

Com a mesma interface de busca já conhecida de todos, basta entrar com o termo de pesquisa e encontrar o que necessita. Para ir até lá basta clicar nesse link e iniciar suas pesquisas da mesma maneira que faz buscas no site principal.
Ele tem a mesma funcionalidade de auto preenchimento quando você for digitando as palavras.

Nesse outro link também do Google, você tem outras opções de datasets, porém já estão organizadas por assuntos e tem um resumo para visualizar, mas não são somente dados estruturados ou texto, há datasets de imagens para você usar e treinar seus algoritmos, caso queira.
Para acessar esse outro repositório, clica nesse link e aproveite tudo que for do seu interesse.

Tem outras opções de datasets por lá, basta você dar uma pesquisada que irá encontrar muita coisa interessante.

4 – Kaggle

O Kaggle é um site do Google destinado a comunidade de cientistas de dados e profissionais focados em machine learning.

Nele você poderá encontrar inúmeros datasets sobre os mais diversos assuntos, baixá-los ou utilizá-los via API. Super interessante a diversidade e a qualidade dos dados, além de ter um design e layout bem intuitivo e bacana.
Nesse site há outros serviços além da disponibilização dos datasets e tenho certeza que vocês irão gostar.

Para acessar diretamente os datasets, basta você clicar nesse link e aproveitar cada um deles.

5 – Amazon

E por fim, a Amazon também tem um bom repositório de dados para serem utilizados.
Eles disponbilizam uma série de datasets com informações e dados relevantes sobre vários assuntos, como clima, genomas, pesquisa sobre câncer, sustentabilidade e outros.

No total são mais de 200 datasets disponíveis para consumo, com uma interface relativamente amigável e simples de usar.

Você pode clicar aqui e se divertir muito com o os dados que lá encontrar.

Conclusões

Espero que esse post ajude vocês a encontrarem dados e datasets interessantes para trabalharem, testarem e colocarem seus projetos em pé.

Se você achou útil e gostou, nos ajude a divulgar e compartilhar para quem fizer sentido.

Até o próximo!