データセット一覧

無料で使えるアメリカのデータサイト10選 役に立つデータセットやレバレッジインサイトを無料で利用できるサイトを紹介

投稿日:

統計の世界は、インターネットの普及とともに大きく成長を見せてきました。以前であれば、研究に利用するデータ集めには地道な調査やインタビューが必要でしたが、現在ではWeb上に有効なデータがたくさん公開されています。

これから紹介する記事は、インターネット上で無料で(一部有料)利用可能なデータセットについて紹介した、アメリカの記事です。紹介先のサイトでは様々なデータセットを利用することができます。これらのサイトを利用して、更に有意義なデータ体験につなげてみてください。

この記事を読んでいるあなたがもしデータに関して初心者で、ハンドオンのデータサイエンス未経験だとしたら、今の立ち位置である「初心者」から、喉から手が出るほど得たい肩書き、「上級者」へのステップアップの方法はただひとつ、データセットです。

ここで紹介するサイトでは、様々なトピックに関する有用なデータセットを無料で利用することができます。これらのデータをうまく利用することで、スキルを磨き、自分だけの働き方を作り上げることができます。これは、現代社会において大変重要なことです。その結果データサイエンスや分析における素晴らしいCVを作りあげ、憧れの仕事を得て、まるでデータサイエンスの王様(女王様)になったような感覚すら得られることでしょう。素晴らしいと思いませんか?

ボーッとしている暇はありません。さあ、始めましょう!

(1)data.world

「data.world」は一般公開データセットの宝庫ともいうべきサイトです。私がこのサイトに感謝している理由、そして人に勧める理由は、このサイトには大変広範囲にわたるデータセットが用意されているからです。これらのデータは様々なソースから

集められており、目的も様々です。(例えば財務や法律、経済、Twitter、NASAなど)

「data.world」をおすすめする理由はそれだけではありません。このサイトでは、自分の持っているデータをアップロードし、同僚と協働したり、あるいは他のユーザーと価値あるインサイトを共有し合ったりという使い方が可能なのです。SQLやSPARQLのクエリを記述して無数のファイルを一度に検索したり、複数のデータセットに参加することもできます。また、「data.world」ではより簡単にデータのアップロードやエクスポート、処理ができるよう、R言語やPython用のSDKも配布しています。

必要な素材を利用するために必要なことは、アカウントの作成とログインだけ。素晴らしいサイトだと思いませんか。とはいえ、他にも便利なサイトはたくさんあります。利用するサイトをひとつに絞る必要はありません。次に進みましょう。あなたにより適したサイトが見つかるかもしれません。

(2)Kaggle 

Kaggleもまた、無料でデータセットが利用できる素晴らしいサイトです。Kaggleは一言で言うと多機能サイト、あるいは「データサイエンスコミュニティ」と言った方が良いかもしれません。Kaggleでは豊富なデータセットだけでなく、新しい知識の獲得やスキルアップのための素材を得ることもできるのです。ユーザーはKaggle上で自分が作成したコードを共有することができます。そのため、Kaggleを利用すれば、データ空間における最高のトレーニングが可能となります。素晴らしい取り組みと言えます。

サイト内検索も簡単です。ホームページを開いたら、ページ上部にある検索ボックスを見つけるだけ。検索ボックスが見つかったら、「in:datasets」というタグを利用して検索します。例えば、医療(medicine)に関するデータを利用したければ、「medicine in:datasets」と入力するだけです。

もう1点特筆すべきは、Kaggleはコンペティションの開催も行なっているということです。このコンペティションでランキング上位になると、賞金を受け取ることができます。コンペティションに参加するためには、Kaggleに登録し、コンペティションの参加規約に同意する必要があります。

(3)FiveThirthyEight

「FiveThirthyEight」は最もお勧めできるサイトのひとつです。このサイトでは、大変有意義な無料のデータセットと、データサイエンスに関する有益な記事の両方を得ることができます。正直に言えば、今すぐこの記事を読むのをやめて、このサイトだけを利用しても良いくらいです。…それは流石に冗談です。どのサイトにもそのサイトだけの特徴と有益性があります。

「FiveThirthyEight」は熱愛あるデータサイエンティストにとって、大量の興味深い情報や分析の材料を得ることのできるサイトと言えます。これらのハードデータや統計分析をもとに、政治やスポーツ、社会問題など、様々な内容に関するストーリーを描くことができます。

このサイトについてひとつ知っておくべき点として、このサイトのデータセットが、「Github」に掲載されている記事やそのデータポータルに利用されているということがあります。これらのデータは、様々な分野のいずれが経済に対し最も好ましくない影響を与えているかということに左右されます。データはたくさん公開されていますから、これらをダウンロードし、自分でデータソースを扱うことができます。

(4)BuzzFeed

このサイトは、一見するとデータサイエンスに関係がないように見えます。なぜここで紹介されるのかと驚いた方もいるかもしれません。確かに、「BuzzFeed」はニュースやエンターテインメントに関するコンテンツを提供している、デジタルメディアの会社です。しかし同時に、有意義かつ有益な情報を広範囲にわたり提供している多機能サービスでもあります。もちろん、無料のデータセットも例外ではありません。

個人的には、「BuzzFeed」は機械学習やデータサイエンスに関する様々な一般公開データセットのソースとして大変重宝しています。例えばフィットネスの最新トレンドやビールのレシピ、農薬に至るまで、様々な内容がオンラインで手に入ります。これらの素材はすべて「Github」経由で入手可能です。

「BuzzFeed」は他にも分析やライブラリ、ツール、ガイドなど、様々な素材を大量に提供しています。つまり、ほぼ全ての場面において利用することができるサイトであるということができます。

(5)Data.gov

軽くてシンプルなサイトをもうひとつ紹介します。「Data.gov」は、アメリカ政府のオーブンデータに関する巨大なアグリゲーターです。14種類ものトピック(農業や公共の安全、地方自治体など)が用意されていますから、本当に役に立つデータセットに出会える可能性は高いでしょう。加えて、データに基づいたジャーナリズムや物語においても有用なサイトということができます。

検索は至ってシンプルです。登録などは必要なく、直接データセットを検索することができます。詳細検索では、カテゴリや所在地、タグ、ファイルのフォーマット、団体などの情報で絞り込みが可能です。

(6)Socrata OpenData

「Socrata OpenData」は様々なデータセットのポータルサイトで、ブラウザを利用して検索したり、あるいはダウンロードして利用することができます。その範囲は広域に渡っており、興味関心の尽きることない研究者にとって、大変魅力的なリソースとなっています。

ただし、このサイトにおけるデータはしっかりとキュレーションされているとは言い難いため、データを利用するさいにはどのデータが最新でかつ信憑性が高いのか、自分で見極める必要があります。とはいえ、これは大きな欠点というほどでもありません。というのも、このサイトにはビルドインの可視化ツールがいくつか用意されており、またブラウザを利用する場合にも常にテーブルで参照することができるためです。

(7)Quandl

このサイトは、ハンズオンの機械学習プロジェクトに関わる人にとって大変価値あるサイトということができるでしょう。ポイントは、機械学習のプロジェクトにおいては、既存のカラムから次のカラム内容を予測するため、データは常にクリーンアップされていなければいけないということです。これらの作業は、自分で行おうと思うと膨大な時間が必要となります。

ありがたいことに、「Quandl」はすでにクリーンアップされている財務・経済データの宝庫です。しかも、予測のための興味深いターゲットカラムが用意されていたり、ターゲットカラムに対する説明力を有した変数が用意されていたりします。つまり、「Quandl」を利用すれば、機械学習のアルゴリズムをテストする際、データを自分でクリーニングする必要がないため、大変有用であるということができます。

PS. 一部の情報は無料ですが、有料のデータセットも多いためご注意ください。

(8)Reddit or r/datasets

「Reddit」はニュースサイトとして有名ですが、実はデータセット共有のためのセクションも存在しています。これらの掲示板は「subreddits」もしくは「/r/datasets」と呼ばれ、データセットを共有・利用したり、議論したりいった目的で利用されています。これらのデータはユーザーがアップロードしたものであるため、その品質や範囲にはムラがありますが、内容は多彩です。

他にも、次のような「subreddits」があります。

・「r/dataisbeautiful」…サイト名が素敵ですね。このサイトは図表やグラフ、マップなど、データの可視化に関するディスカッションが盛んです。

・「r/learnpython」…学習プロセスに沿って、スキルを獲得するためのサイトです。

・「r/learnmachinelearning」…最新の情報やディスカッションを追うことができるサイトです。

(9)UCI Machine Learning Repository

このサイトは、間違いなく最も有名なデータリポジトリといえるでしょう。機械学習に関するデータセットを探す場合には、おそらくこのサイトを最初に訪れることになります。ここで扱っているデータセットは多岐に渡ります。例えば、アイリスやタイタニックの生存者といった有名なデータセットから、最近の、例えば空気質やGPSに関するものまで利用できます。リポジトリには350以上のデータセットが存在しており、その目的に応じてドメインなどのラベルが付与されているので、それらのフィルターを使って必要なデータセットを見つけることができます。

(10)Academic Torrents

最後に紹介するのは、「Academic Torrents」です。このサイトは主流ではありませんが、データをシェアするプラットフォームとして力のあるサイトです。開発者によると、このサイトは学術データセットと論文をBitTorrent上で利用できるようにするため作られたということです。実際、その目的は大変高いレベルで実現されています。

つまり、このサイトは特に論文に基づいたデータセットを共有することに主眼を置いたアグリゲーターなのです。サイトは、ユーザーがデータセットを探すことができる部分と、BitTorrentのバックボーンを利用してデータを共有している部分のふたつに分けることができます。サイトには特徴的(かつ膨大)なデータセットが多く存在していますが、中には元となる論文を読まないと、あるいは/かつ関連する分野に関する専門性がないと理解するのが難しいようなものもあります。

まとめ:データセットの重要性

データサイエンスのエキスパートになるのは、一朝一夕でできるものではありません。1ヶ月あればできるということもありません。ですが、毎日少しずつ進んでいくこと、それを続ければ、必ず成長は加速していきます。成長を恐れず、努力を続けていくことなのです。

今回紹介したサイトは、いずれもデータ中心のプロジェクトを進める際に頼りになるものばかりです。無料で利用できるものも多くあります。(ずっと無料のものもあれば、トライアル期間があるものもあります)これらのサイトは、経験を積むための一番の近道でもあります。これらの素晴らしく正しい経験を積むのは、今度はあなたの番です。

忘れないでください。データサイエンスを学ぶ最善の方法は、データサイエンスに取り組むことなのです。

学ぶ人に幸あれ!

この記事が少しでも役に立てば嬉しいです。ご意見・ご感想・ご提案お待ちしています。

さらに知りたくなった方は、ぜひ私のブログやInstagramもチェックしてみてください。

(引用元:https://towardsdatascience.com/top-10-great-sites-with-free-data-sets-581ac8f6334)

Toward data science(https://towardsdatascience.com)というサイトより、記事を紹介しました。

今回紹介したサイトは英語のみの対応のものもありますが、いずれも無料で利用できるデータを求める場合、大変有用なサイトばかりです。もちろん、一般公開されているデータには信憑性や網羅性において、その制度にはばらつきがあります。データの性質を見極めながら上手に利用することをおすすめします。

-データセット一覧

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

営業リストとは?駆け出し営業マンでもわかる営業リストの作り方

どのような営業をするにしても、営業リストは必須になることでしょう。 顧客が個人であっても法人であっても、そして業界問わず必要になります。 特に法人の新規開拓をしている営業マンにとって、営業リストの質が …

no image

Numpyモジュールを使った乱数生成

Pythonで乱数を扱うnumpyモジュールでよく利用する乱数生成方法を整理しました。 Contents1 乱数の生成2 ランダム抽出 乱数の生成 用途サンプル概要seedの設定np.random.s …

no image

ユーザー投稿型オープンデータサイト Reddit

世界的に見ると、実に多数のデータ配布サイトが存在しています。 中でも、他のサイトと異なるユニークなサイトとして、Redditがあります。 Redditの特徴は、特に次の3点です。 特徴1:ユーザー投稿 …

no image

営業リストの作り方解説!質の良い営業リストを作るためのポイントとは

テレアポ営業をしていると「電話をかける件数に対して情報収集が間に合わない」「企業の情報を増やすために最低限の情報しか集めることができない」などの悩みにぶつかります。 テレアポ営業でも働いている会社によ …

no image

クリーンアップ済データの宝庫!機械学習ならQuandlがおすすめ

統計や分析、テストデータなど、研究・開発において大量のデータを必要とする場面は多々あります。そのすべての場面でデータを自己調達する必要があるとしたら、それは大変な手間です。 もちろん、過去の研究者たち …