データセット一覧

ユーザー投稿型オープンデータサイト Reddit

投稿日:

世界的に見ると、実に多数のデータ配布サイトが存在しています。

中でも、他のサイトと異なるユニークなサイトとして、Redditがあります。

Redditの特徴は、特に次の3点です。

特徴1:ユーザー投稿によるデータ配布
特徴2:スレッド形式でのディスカッション
特徴3:多彩なデータ・多彩な利用者

今回は、Redditの概要、その特徴とユニークさについて紹介します。

Reddit、r/datasetsの概要

Reddit(https://www.reddit.com)はアメリカのサイトで、現在は世界的に人気です。

まずは、サイトの概要について紹介します。

様々な情報・内容についてユーザーが投稿

Redditは投稿型の情報サイトということができます。

ユーザーが自分の興味関心に基づき、様々なデータや情報を投稿しています。

投稿元となる情報は、インターネット上のサイトであることもあれば、自作であることもあります。

投稿に関するコメント・ディスカッションが可能

ユーザーが投稿した情報に対して、他のユーザーは閲覧だけでなく、コメントをつけることができます。

コメント機能を利用して、投稿された情報に関するディスカッションが行われたりします。

情報はsubredditを利用してカテゴライズ可能

Redditに投稿される情報は大変多岐にわたるため、subredditと呼ばれる機能を利用してカテゴライズされています。

Subredditは「r/」から始まる任意の文字列です。

例えば「r/funny」(https://www.reddit.com/r/funny/)はおもしろ情報、「r/mildlyinteresting」(https://www.reddit.com/r/interesting/)は豆知識、「r/politics」(https://www.reddit.com/r/politics/)は政治ニュースに関する投稿で使用されています。

Subreddit「r/datasets」ではデータセットの入手が可能

その中の一つ「r/datasets」(https://www.reddit.com/r/datasets/)は、データに関する投稿用のsubredditです。

このsubredditには、自作のデータセットが配布されていたり、web上で入手可能なデータセットの情報が投稿されていたりします。

特徴1:ユーザー投稿によるデータ配布

データ配布サイトとして捉えた際、Redditの最大の特徴は、配布元がサイトではなくユーザーであるという点です。

Redditは仕組み、データ提供元はユーザー

Reddit上で見つけられるデータはすべて、ユーザーが投稿しているものです。

Redditは情報交換の場を提供しているだけで、実際の提供元は個人なのです。

これは、他のサイトとは異なる特徴です。

例えばこちらの投稿では、都市別の生活費データを配布しています。

必要なデータをリクエストすることも可能

「r/datasets」に投稿可能な内容は、データの配布だけではありません。

逆に、自分が必要としているデータについてリクエストを投稿することも可能です。

運がよければデータの提供を受けたり、配布サイトの情報を得たりといったことが期待できます。

こちらの投稿では、ゲームに関するデータをリクエストしています。

特徴2:スレッド形式でのディスカッション

Redditへの投稿は、すべてスレッド形式で作成されます。

そのため、次のような特徴があります。

データに関するコメント・ディスカッションが可能

Redditにおけるデータの配布はスレッドで行われます。

そのため、他のユーザーはそのデータを利用するだけでなく、データに関するコメントを投稿することができます。

例えば、データに関する評価やコメントを残すことができます。

あるいは、データを利用したユーザー同士で、内容についてディスカッションするという利用方法も想定されます。

リクエストに対するアドバイスなども

データのリクエストも、もちろんスレッド形式で行われます。

リクエストに対するコメントとしては、データの提供の他、近しいデータを配布しているサイトの情報なども寄せられています。

特徴3:多彩なデータ・多彩な利用者

Redditの特徴は、誰でも簡単に情報を発信することができる点です。

そのため、サイト内には大変多彩な情報・利用者が集まっています。

他のサイトでは見つけられないようなデータも

Redditでは、個人が投稿したデータセットも配布されています。

そのため、他のデータ配布サイトとは毛色の異なるデータが見つかることもあります。

運がよければ、他のサイトでは見たことのないようなデータに出会えるかもしれません。

データの精度・信憑性にはばらつきがある

一方、ユーザー投稿型であるが故のデメリットもあります。

それは、情報精度にばらつきがあるという点です。

データの整備度や一貫性、重複の程度など、提供者によっては大きく差がある可能性もあります。

あるいは、データの正確性や信頼性すらも投稿者によるものが大きく、利用する際には注意が必要です。

幅広い分野からの利用者

大変多彩なデータが集まるサイトですので、利用者も幅広い分野から集まっています。

特徴的なデータを求める統計関係者やできるだけ多くのデータを求める開発者なども多く利用しています。

あるいは、個人の興味・関心の範囲での活用も多くなされています。

活用法は無限大

Redditで配布されているデータは、従来の使用方法だけにとどまらず、様々な利用方法が考えられます。

大変多彩なデータの提供があり、リクエストをすることもできるのですから。

自分のアイデア次第で、無限大の利用方法が考えられます。

まとめ

最後に、もう一度Redditの特徴をまとめます。

特徴1:ユーザー投稿によるデータ配布

特徴2:スレッド形式でのディスカッション

特徴3:多彩なデータ・多彩な利用者

また、今回紹介した「r/datasets」以外にも、データを扱っているsubredditはたくさん存在しています。

例えば、次のようなものがあります。

「r/dataisbeautiful」(https://www.reddit.com/r/dataisbeautiful/)…図表やグラフ、マップなど、データの可視化に関するディスカッションが盛んです。

「r/learnmachinelearning」(https://www.reddit.com/r/learnmachinelearning/)…機械学習について、最新の情報やディスカッションを追うことができます。

他にもたくさんのsubredditが存在しています。

自身の興味関心や必要な内容に合ったsubredditや情報に出会えるよう祈っています。

-データセット一覧

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

クリーンアップ済データの宝庫!機械学習ならQuandlがおすすめ

統計や分析、テストデータなど、研究・開発において大量のデータを必要とする場面は多々あります。そのすべての場面でデータを自己調達する必要があるとしたら、それは大変な手間です。 もちろん、過去の研究者たち …

no image

アメリカ政府のオープンデータデータを利用可能! Data.govとは?

信頼のおけるデータソースが配布しているデータを探しているのであれば、最初に訪れるべきサイトはData.govです。 このサイトでは、なんとアメリカ政府が公開しているデータを利用することができます。 こ …

no image

営業リストの作り方解説!質の良い営業リストを作るためのポイントとは

テレアポ営業をしていると「電話をかける件数に対して情報収集が間に合わない」「企業の情報を増やすために最低限の情報しか集めることができない」などの悩みにぶつかります。 テレアポ営業でも働いている会社によ …

no image

Numpyモジュールを使った乱数生成

Pythonで乱数を扱うnumpyモジュールでよく利用する乱数生成方法を整理しました。 Contents1 乱数の生成2 ランダム抽出 乱数の生成 用途サンプル概要seedの設定np.random.s …

no image

テレアポ営業に使えるアタックリスト販売サイト比較

新規の営業を行う場合、特にテレアポで営業を行う場合にはまずリスト作りが最初の仕事になるでしょう。 企業によって異なりますが、新規営業の場合はより多く電話をかけることが求められることも多いためリストは常 …