データセット一覧

オープンデータまとめ

投稿日:

概要

データ分析やプログラミングの勉強ようにデータ一覧とpythonへ取り込むスクリプトも合わせてまとめました。スクリプトをコピーして、そのまま実行すればDataFrame化ができます。
参考URL:https://qiita.com/maskot1977/items/453eddf5aa154c04668c

データ一覧

  • ニューヨークの大気状態観測値
  • 合州国の州別暴力犯罪率
  • スポーツテストデータ
  • 好きなアイスクリームアンケート
  • 新国民生活指標データ
  • 都道府県別アルコール類の消費量
  • スイス銀行紙幣データ
  • ワインの品質
  • あやめのデータ
  • あわびのデータ
  • ピマ・インディアンの糖尿病診断

データインポート

ニューヨークの大気状態観測値

1973 年5月から9月のニューヨーク大気状態の観測データ

  • Ozone: Roosevelt 島における 13時から15時までの平均オゾン量 (parts per billion 単位)
  • Solar: セントラルパークにおける8時から12時の周波数 4000~7700 オングストロームの日射量 (単位 Langleys)
  • Wind: La Guardia 空港における毎日の 7時から10時の平均風速 (単位 マイル)
  • Temp: La Guardia 空港における一日の最大温度 (単位 華氏)
OzoneSolar.RWindTempMonthDay
1411907.46751
2361188.07252
31214912.67453
41831311.56254
7232998.66557

合州国の州別暴力犯罪率

1973 年の合州国の 50 の州毎の、住民10万人あたりの暴行、殺人、そして強姦による 逮捕数を含む。また都市部人口の割合が与えられている

 https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/USArrests.txt

  • Murder: 殺人による逮捕(10万あたり)
  • Assault: 暴行による逮捕(10万あたり)
  • UrbanPop: 都市部人口比率
  • Rape: 強姦による逮捕(10万あたり)
MurderAssaultUrbanPopRape
Alabama13.22365821.2
Alaska10.02634844.5
Arizona8.12948031.0
Arkansas8.81905019.5
California9.02769140.6

スポーツテストデータ

中学生104人の運動能力テスト6種と体力測定5種の計測のデータ https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/sports_dataJt.txt

  • 50mRun 50m走
  • longjump 走り幅跳び
  • handball ハンドボール投げ
  • chinning 懸垂
  • sidestep 反復横跳び
  • vertump 垂直跳び
  • back 背筋力
  • grip 握力(両手平均)
  • backward 上体そらし
  • forward 立位体前屈
  • stepping 踏み台昇降
50mRunlongjumphandballchinningsidestepvertumpbackgripbackwardforwardstepping
Student
18.331515235407915.53912.079.6
27.939320039499019.05011.071.4
310.124012033318821.04511.047.4
49.330511037377423.5505.056.6
58.633017145538922.54512.085.7

好きなアイスクリームアンケート

男性40名、女性40名に、21種類のアイスクリームの好みに応じて点数(嫌い1〜好き9)をつけてもらったアンケート結果。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/icecream_chosa.txt

  • ID
  • gender 性別
  • age 年齢
  • birth_order 兄弟姉妹の中で上から何番目か
  • frequency 来店頻度
  • vanilla バニラ
  • strawberry ストロベリー
  • milk_tea ミルクティー
  • macadamia_nuts マカダミアナッツ
  • cookie クッキー
  • chocolate チョコ
  • melon メロン
  • coffee コーヒー
  • almond アーモンド
  • rum_raisin ラムレーズン
  • mint ミント
  • banana バナナ
  • caramel キャラメル
  • walnut クルミ
  • cassis カシス
  • chocolate_chips チョコチップ
  • orange オレンジ
  • green_tea 抹茶
  • marron マロン
  • chocolate_mint チョコミント
  • adzuki-bean あずき
genderagebirth_orderfrequencyvanillastrawberrymilk_teamacadamia_nutscookiechocolatemeloncoffeealmondrum_raisinmintbananacaramelwalnutcassischocolate_chipsorangegreen_teamarronchocolate_mintadzuki-bean
ID
122025778399683217933978817
222121789999277954789947789
322132743364776334633673733
422143966586896544954891213
522142957568444696665966691

新国民生活指標データ

都道府県の豊かさを表すために,経済企画庁が策定した新国民生活指標の「住む」ことに関する平成11年の発表データ。

  • Pref 都道府県 都道府県
  • NonRep 危険住宅 危険・修理不能住宅比率(%)
  • OverMin 最低居住 最低居住水準以上住宅比率(%)
  • Rent 借家家賃 借家の1畳当たり実質家賃(円)
  • HomeOwn 持家比率 持家比率(%)
  • CompPol 公害苦情 公害苦情受理件数(人口十万人比)[-]
  • NumClime 重要犯罪 重要刑法犯罪認知件数(人口十万人比)[-]
  • NumLarc 重要窃盗 重要窃盗犯認知件数(人口十万人比)[-]
  • TrafAcci 交通事故 交通事故発生件数(人口十万人比)[-]
  • Fire 建物火災 建物火災出火件数(住宅十万戸比)[-]
  • DspRubb ごみ処理率 ごみ衛生処理率(%)
  • Sidewalk 歩道設置率 一般道路歩道設置率(%)
  • MedFacil 医療機関 最寄りの医療機関までの距離500m未満住宅比率(%)
  • OverOrd 居住水準 誘導居住水準以上住宅比率(%)
  • Sunshine 日照時間 日照時間5時間以上住宅比率(%)
  • NumMat 畳数 1人当たり畳数(畳)
  • AreaResi 敷地面積 1住宅当たり敷地面積(m2)
  • Transpt 交通機関 最寄りの交通機関1km未満住宅比率(%)
  • AreaPark 公園面積 1人当たり公園面積(m2)
  • Sewarage 下水普及率 下水道等普及率(%)
  • Recycle リサイクル率 リサイクル率(%)
  • AmtRubb ごみ排出量 1人1日当たりごみ排出量(g)[-]
  • AvgMin 通勤通学時間 通勤・通学平均時間(分)[-]
  • Pavement 道路舗装率 一般道路舗装率(%)
NonRepOverMinRentHomeOwnCompPolNumClimeNumLarcTrafAcciFireDspRubbSidewalkMedFacilOverOrdSunshineNumMatAreaResiTransptAreaParkSewarageRecycleAmtRubbAvgMinPavement
Pref
Hokkaido7.6794.3151054.015.07.6206451.877.344.7821.757.353.7156.1611.830690.925.577.864.91655.02419.9
Aomori7.8095.9148071.632.84.5103558.288.166.2910.930.157.7361.9912.635687.112.936.003.21363.62324.9
Iwate6.9395.0164372.822.06.3115388.965.679.818.334.155.6572.2012.436580.29.635.5011.3940.02414.4
Miyagi7.2693.9225760.734.39.1272471.181.783.9913.849.445.4467.2910.835885.111.740.1016.21102.92926.6
Akita5.9297.1155479.623.19.188364.384.870.438.331.463.8963.5513.338984.915.831.9010.41203.82215.7

都道府県別アルコール類の消費量

沖縄県を除く日本の46都道府県における5種類のアルコール飲料の年間の消費量を調べたデータ。 https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/sake_dataJ.txt

  • Pref 都道府県
  • Sake 清酒
  • Shochu 焼酎
  • Beer ビール
  • Wine 果実酒
  • Whisky ウイスキー
SakeShochuBearWineWhisky
Pref
Hokkaido4647600050642000315300000104880009749000
Aomori17273000115030008316400017740003122000
Iwate17120000102200006780300014580001870000
Miyagi278590001176800010985000028240005049000
Akita2415300062400006789400012420002099000

スイス銀行紙幣データ

本物と偽物の1000スイスフラン紙幣それぞれ100枚の測定値。 https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/sbnote_dataJt.txt

  • length 横幅長 紙幣の横の長さ
  • left 左縦幅長 紙幣の縦の長さ(左側)
  • right 右縦幅長 紙幣の縦の長さ(右側)
  • bottom 下枠内長 紙幣の下端から内側の枠までの長さ
  • top 上枠内長 紙幣の上端から内側の枠までの長さ
  • diagonal 対角長 対角線の長さ
  • class 真偽 札の真偽(0: 真札, 1:偽札)
lengthleftrightbottomtopdiagonalclass
Note
1214.8131.0131.19.09.7141.00
2214.6129.7129.78.19.5141.70
3214.8129.7129.78.79.6142.20
4214.8129.7129.67.510.4142.00
5215.0129.6129.710.47.7141.80

ワインの品質

赤ワイン http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv
白ワイン http://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv
(詳細)

  • fixed acidity
  • volatile acidity
  • citric acid
  • residual sugar
  • chlorides
  • free sulfur dioxide
  • total sulfur dioxide
  • density
  • pH
  • sulphates
  • alcohol
  • Output variable (based on sensory data):
  • quality (score between 0 and 10)
volatile aciditycitric acidresidual sugarchloridesfree sulfur dioxidetotal sulfur dioxidedensitypHsulphatesalcoholquality
fixed acidity
7.40.700.001.90.07611.034.00.99783.510.569.45
7.80.880.002.60.09825.067.00.99683.200.689.85
7.80.760.042.30.09215.054.00.99703.260.659.85
11.20.280.561.90.07517.060.00.99803.160.589.86
7.40.700.001.90.07611.034.00.99783.510.569.45
volatile aciditycitric acidresidual sugarchloridesfree sulfur dioxidetotal sulfur dioxidedensitypHsulphatesalcoholquality
fixed acidity
7.00.270.3620.70.04545.0170.01.00103.000.458.86
6.30.300.341.60.04914.0132.00.99403.300.499.56
8.10.280.406.90.05030.097.00.99513.260.4410.16
7.20.230.328.50.05847.0186.00.99563.190.409.96
7.20.230.328.50.05847.0186.00.99563.190.409.96

あやめのデータ

三種類のあやめの品種のそれぞれからの 50の花の、センチメートル単位の蕚(がく)片の長さと幅、花弁の長さと幅の計測結果を与える。 品種は Iris setosa, versicolor そして virginica である。

  • Sepal.Length 蕚(がく)片の長さ
  • Sepal.Width 蕚(がく)片の幅
  • Petal.Length 花弁の長さ
  • Petal.Width 花弁の幅
  • Species 品種(setosa, versicolor or virginica)
Sepal.LengthSepal.WidthPetal.LengthPetal.WidthSpecies
15.13.51.40.20
24.93.01.40.20
34.73.21.30.20
44.63.11.50.20
55.03.61.40.20

あわびのデータ

http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data

  • Sex 雄か雌か子供か M, F, and I (infant)
  • Length 長さ mm Longest shell measurement
  • Diameter 直径 mm perpendicular to length
  • Height 高さ mm with meat in shell
  • Whole weight 総重量 grams whole abalone
  • Shucked weight 身の重さ grams weight of meat
  • Viscera weight 内臓の重さ grams gut weight (after bleeding)
  • Shell weight 殻の重さ grams after being dried
  • Rings 輪の数(年齢が推定できる) +1.5 gives the age in years
SexLengthDiameterHeightWhole weightShucked weightViscera weightShell weightRings
0M0.4550.3650.0950.51400.22450.10100.15015
1M0.3500.2650.0900.22550.09950.04850.0707
2F0.5300.4200.1350.67700.25650.14150.2109
3M0.4400.3650.1250.51600.21550.11400.15510
4I0.3300.2550.0800.20500.08950.03950.0557

ピマ・インディアンの糖尿病診断

National Institute of Diabetes and Digestive and Kidney Diseases が公表している、糖尿病の人と糖尿病ではない人の測定データ。
https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/pima-indians-diabetes.txt

  • NumTimePreg: Number of times pregnant
  • OralGluTol: Plasma glucose concentration a 2 hours in an oral glucose tolerance test
  • BloodPres: Diastolic blood pressure (mm Hg)
  • SkinThick: Triceps skin fold thickness (mm)
  • SerumInsulin: 2-Hour serum insulin (mu U/ml)
  • BMI: Body mass index (weight in kg/(height in m)^2)
  • PedigreeFunc: Diabetes pedigree function
  • Age: Age (years)
  • Class: Class variable (0 or 1)
NumTimePregOralGluTolBloodPresSkinThickSerumInsulinBMIPedigreeFuncAgeClass
061487235033.60.627501
11856629026.60.351310
28183640023.30.672321
318966239428.10.167210
40137403516843.12.288331

-データセット一覧

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

no image

ユーザー投稿型オープンデータサイト Reddit

世界的に見ると、実に多数のデータ配布サイトが存在しています。 中でも、他のサイトと異なるユニークなサイトとして、Redditがあります。 Redditの特徴は、特に次の3点です。 特徴1:ユーザー投稿 …

no image

アメリカ政府のオープンデータデータを利用可能! Data.govとは?

信頼のおけるデータソースが配布しているデータを探しているのであれば、最初に訪れるべきサイトはData.govです。 このサイトでは、なんとアメリカ政府が公開しているデータを利用することができます。 こ …

no image

Numpyモジュールを使った乱数生成

Pythonで乱数を扱うnumpyモジュールでよく利用する乱数生成方法を整理しました。 Contents1 乱数の生成2 ランダム抽出 乱数の生成 用途サンプル概要seedの設定np.random.s …

no image

営業リストの作り方解説!質の良い営業リストを作るためのポイントとは

テレアポ営業をしていると「電話をかける件数に対して情報収集が間に合わない」「企業の情報を増やすために最低限の情報しか集めることができない」などの悩みにぶつかります。 テレアポ営業でも働いている会社によ …

no image

テレアポ営業に使えるアタックリスト販売サイト比較

新規の営業を行う場合、特にテレアポで営業を行う場合にはまずリスト作りが最初の仕事になるでしょう。 企業によって異なりますが、新規営業の場合はより多く電話をかけることが求められることも多いためリストは常 …