1、Kaggle データセット
リンク:
https://www.kaggle.com/datasets
これは現在のデータサイエンスの分野で最も人気があり、最も人気のあるデータセットの 1 つです。Kaggle では、各データセットがコンテストに対応しており、参加者はこの小さなコミュニティでデータについて議論したり、一般的なコードを見つけたり、カーネルで自分のプロジェクトを作成したりすることができます。 Kaggle には、さまざまなタイプ、サイズ、および形式の実際のデータセットが含まれています。さらに、参加者は各データセットに関連するカーネルを見ることができます。多くのデータサイエンティストがデータセットを分析するために自分のノートブックをアップロードし、特定のデータセットの問題を解決するためのアルゴリズムの実装を見つけることができます。
2、Amazon データセット
リンク:
https://registry.opendata.aws/
Amazon データベースには、公共交通、生態資源、衛星画像など、さまざまな領域のさまざまなデータセットが含まれています。データセットのウェブサイトには、使用者が必要なデータセットを迅速に見つけるのを助ける検索ボックスもあります。各データセットには、対応するデータセットの説明と使用例が含まれており、データ量が豊富で使用しやすいです。
さらに、Amazon Web Services(AWS)プラットフォーム(Amazon S3 など)を利用することで、クラウド上に保存されているこれらのデータセットは非常にスケーラブルなサービスを提供します。これは、機械学習の開発や実験に AWS を使用するユーザーにとって非常に便利です。クラウド上では、データセットの転送が非常に高速になります。
3、UCI 機械学習データセット
リンク:
https://archive.ics.uci.edu/ml/datasets.html
これはカリフォルニア大学アーバイン校(UCI)の情報とコンピュータサイエンス学部の研究者によって作成された、100 以上の異なるタイプのデータセットを含む大規模なデータベースです。このデータベースは、さまざまな機械学習の問題に基づいてデータセットを分類しています。ここでは、単変量、多変量の時系列データセット、分類、回帰、レコメンデーションシステムデータセットなどを見つけることができます。さらに、データベースの一部のデータセットはすでにデータクリーニングが行われており、直接使用することができます。
4、Google データセット検索エンジン
リンク:
https://toolbox.google.com/datasetsearch
2018 年 9 月、Google はこのサービスを開始しました。これは、データセットを名前で検索できるツールボックスであり、数万もの異なるデータセットを統合し、ユーザーに利用を提供することを目指しています。
5、Microsoft データセット
リンク:
2018 年 7 月、Microsoft は外部の研究コミュニティと共同で Microsoft Research Open Data サービスを発表しました。このクラウド上に保存されているデータベースには、公開された研究で使用されたさまざまなデータセットが含まれており、グローバルな研究コミュニティの研究協力を促進することを目指しています。
6、Awesome 公開データセット
リンク:
Awesome は、さまざまなトピックで分類されたデータベースであり、生物学、経済学、教育などさまざまな領域の重要なデータセットが含まれています。リストされているデータセットのほとんどは無料で利用できますが、データセットを使用する前に、ユーザーは使用許可を取得するために認証する必要があります。
7、政府データセット
ここでは、政府に関連するデータセットを見つけることができます。多くの国の機関は、いくつかの領域での国のデータセットを公開して、政府の透明性を示しています。以下はいくつかの例です:
EU オープンデータ:欧州政府データセット
リンク:
https://data.europa.eu/euodp/data/dataset
US Gov Data:米国政府データ(政治問題以外のデータセットですが、トランプ政権の増加以来、このウェブサイトのデータセットは一時的に使用できません)
リンク:
ニュージーランド政府データセット:ニュージーランド政府データセット
リンク:
https://catalogue.data.govt.nz/dataset
インド政府データセット:インド政府データセット
リンク:
8、コンピュータビジョン領域のデータセット
リンク:
画像処理、コンピュータビジョン、または深層学習の分野で作業している場合、このデータセットは最高の実験リソースになるでしょう。Visual Data には、コンピュータビジョン(CV)モデルの構築に使用できる優れたデータセットが含まれています。使用者は特定の CV タスクに基づいて対応するデータセットを見つけることができます。セマンティックセグメンテーション、画像キャプション生成、画像生成、さらには自動運転ソリューションに必要なデータセットなどです。