データセット一覧

クリーンアップ済データの宝庫!機械学習ならQuandlがおすすめ

投稿日:

統計や分析、テストデータなど、研究・開発において大量のデータを必要とする場面は多々あります。そのすべての場面でデータを自己調達する必要があるとしたら、それは大変な手間です。

もちろん、過去の研究者たちは、すべてのデータを自分で用意し、活用してきました。しかし、原罪ではインターネットの普及に伴い、膨大なデータを提供するサービスが出現してきました。これらのサービスを利用すれば、自分でデータを用意することなく、分析やテストに活用することができます。

これらのデータの多くは有料で販売されていますが、中には無料で利用できるものもあります。

そのようなデータサイトの中から、今回はアメリカのサイト、「Quandl」を紹介します。

Quandlで扱っているデータの特徴

実は、インターネット上には様々なデータの配布サイトが存在しています。そのため、サイトの特徴や扱っているデータを見極め、自分に合ったサイトはどれか、自分が必要としているデータはどこから手に入るのかを判断する必要があります。

特にQuandlの場合、扱っているデータに他のサイトとは異なる特徴があります。そのようなデータを求めるユーザーにとっては、他では変えがたい強い味方となってくれることでしょう。

Quandlの主な特徴は次の2つです。

整備済みデータの取得が可能

Quandlの最も重要な特徴が、そのデータ処理についてです。

データ配布サイトから生データを取得した場合、そのデータを整備し、不備のあるデータを除外し、クリーンアップの手間をかけた上でやっと利用することができる形になります。

その点、Quandlで配布しているデータは既にクリーンアップ済み。取得後すぐに活用することができます。

例えば、機械学習においてはデータを元に学習させる必要があります。この学習用のデータ量は膨大で、データのクリーンアップだけでも気の遠くなるような手間がかかります。

それが、サイトから取得した時点ですぐに使える形に整えられているとしたら、こんなに嬉しいことはないですよね。

幅広い分野から取得されたデータセット

Quandlで扱っているデータのデータ元は大変多岐に渡ります。一般的にニーズの多い経済活動に関するデータや投資関連のデータだけでなく、これまでのデータ配布サイトでは見つからなかったようなデータが数多く展開されているのも、Quandlの重要な特徴のひとつです。

例えば、世界中の自動車販売数に関するデータや企業の採用情報、あるいは、プライベートジェットの運行に関するデータすら配布されているのです。

Quandlの概要

このように、これまでのデータ配布サイトとは一線を画しているQuandl。そのため、世界中で様々な人材が、様々な用途のために日々サイトを訪問しています。

Quandlの主な利用者

前述したとおり、Quandlで扱っているデータの内容は大変多岐にわたっています。当然の結果として、Quandlのデータを求めてサイトを利用している層も、他のサイトの比べて大変多彩といえるでしょう。

例えば、統計データであれば研究者やリサーチ機関などで活用されていますし、経済データに関しては世界中の金融関係者・アナリストなどから大変注目されています。世界トップクラスのファンドや銀行・投資会社のマネージャーも利用しているということです。

また、前述したとおり、Quandlで扱っているクリーンアップ済みのデータは、多くの機械学習の開発者の支持も集めています。

Quandlの主な利用目的

Quandlのデータの利用目的として最初に思いつくのは、投資や資金運用などに伴い、経済の先行きを見通す材料としての活用です。

実際、世界中の投資家やファンドマネージャーなど金融関係者がQuandlのデータを活用しています。

あるいは、データがクリーンアップ済みであるという特徴から、膨大かつ整理されたデータが必要な分野への利用も多くなされています。特に多いのは、機械学習のベースデータとしての利用でしょう。

しかし、Quandlの多様なデータの活用方法は、それら従来のニーズに止まりません。これまでになかった新しいデータは、活用する人のアイデア次第で無限の可能性を秘めています。

あくまで一例ですが、例えば自動車販売数の分析を行うことで関連商品の開発やPRに利用することも可能です。プライベートジェットのかつように関するデータから、新たな航空関連商品が生まれる可能性もあります。

Quandlのデータの利用目的は、利用する人の数だけ無数に存在して言っても過言ではないでしょう。

まとめ・Quandlの特徴

Quandlがこれまでのデータ配布サイトと一線を画す特徴として、下記の2点がありました。

・整備済みのデータの取得が可能
・幅広い分野から取得されたデータセット

この2点を実現することで、データを扱う業界において、Quandlはなくてはならない存在となっています。

実際、世界中から金融関係者やエンジニア、マーケターなど、様々な分野の専門家がサイトを訪れ、データを利用しています。

これまでにない特徴と魅力を持ったQuandlですが、利用にあたり1点だけ注意しておく必要があるポイントがあります。それは、データ利用にかかる費用についてです。

Quandlのサイト内で配布されているデータには、無料のものと有料のものがあります。必要なデータがあった際には、それが無料で利用できるのか、支払いが発生するのかについてはしっかりと確認する必要があります。

もちろん、無料で配布されているデータも価値ある質の高いデータです。

まずは無料データから利用してみるというのも手でしょう。

今回は、データに関わる人間であればぜひチェックしておいていただきたい、米国のサイトQuandlについて紹介しました。

-データセット一覧

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

アメリカ政府のオープンデータデータを利用可能! Data.govとは?

信頼のおけるデータソースが配布しているデータを探しているのであれば、最初に訪れるべきサイトはData.govです。 このサイトでは、なんとアメリカ政府が公開しているデータを利用することができます。 こ …

no image

Numpyモジュールを使った乱数生成

Pythonで乱数を扱うnumpyモジュールでよく利用する乱数生成方法を整理しました。 Contents1 乱数の生成2 ランダム抽出 乱数の生成 用途サンプル概要seedの設定np.random.s …

no image

営業リストのテンプレート集3選!新人営業マンも質の良い営業リストで売上を!

新人営業マンにとっての初めての仕事は営業リスト作りになるでしょう。 営業マンであれば誰もが通る道です。 しかし、いざ営業リストを作るときにどうやって作れば良いのか迷う人も多いです。 会社から渡されれば …

no image

テレアポ営業に使えるアタックリスト販売サイト比較

新規の営業を行う場合、特にテレアポで営業を行う場合にはまずリスト作りが最初の仕事になるでしょう。 企業によって異なりますが、新規営業の場合はより多く電話をかけることが求められることも多いためリストは常 …

no image

オープンデータまとめ

Contents1 概要2 データ一覧3 データインポート3.1 ニューヨークの大気状態観測値3.2 合州国の州別暴力犯罪率3.3 スポーツテストデータ3.4 好きなアイスクリームアンケート3.5 新 …