センター通信
産業保健相談員レター 2023年2月 ~健康統計で知っておきたいヒストグラムの基礎知識(産業医学一口メモ)~
2023.02.01
産業保健相談員(産業医学担当) 吉岡 嘉暁
産業保健スタッフの皆さんは従業員の健康データからグラフや図を作成されることも多いと思います。ヒストグラムは度数分布をグラフにしたもので、健康統計ではよく作成される基礎的なグラフです。
データの平均やばらつきの形状が視覚的によく観察できます。
健康診断のデータなどから度数分布表やヒストグラムを作成する際、データを区切る区間の数や間隔に悩まれることも多いと思います。
今回は一般的なヒストグラム作成手順のひとつを紹介します。
最後に統計の入門書も紹介しています。
健康診断のデータなどから度数分布表やヒストグラムを作成する際、データを区切る区間の数や間隔に悩まれることも多いと思います。
今回は一般的なヒストグラム作成手順のひとつを紹介します。
最後に統計の入門書も紹介しています。
1 ヒストグラムとは
データの存在する範囲をいくつかの区間に分けた場合、表形式で集計したものが度数分布表であり、各区間を底辺としその区間に属するデータの度数(個数)に比例する面積を持つ長方形(柱)を 並べた図がヒストグラムです。度数を面積で表現すると、区間の区切り方の分割・結合が自由に変更できるメリットが有ります。
ヒストグラムは、必ず柱の間隔を開けずにグラフを描きます。(棒グラフとの違い)
2 ヒストグラムの作成手順
(1)グラフ化する対象データの確認
データ数は少なくとも50以上、できれば100以上が望ましいです。
データが多いほど全体の傾向が良く反映されたグラフになります。
データの総数をnと記します。
(2)データの中の最大値x(max)と最小値x(min)の確認
データの範囲R=x(max)- x(min)
(3)区間の数(k)の決定
k=√n (小数点以下があるときは整数に丸めます。)
最終的な区間の数の増減調整はあり得ますが、正の整数です。
例えば、123人の体重データがあって、最大体重が84.3kg、最小体重が43.5kgであったとします。
k=√123 =11.09‥‥ → 四捨五入して k=11
(4)区間の幅(h)の決定
h=R/k={x(max)― x(min)}/k
=(84.3―43.5)/11
=3.709‥‥ → 四捨五入して h=3.7
(hを測定のきざみ単位=きざみ幅=0.1kgの整数倍に丸めます。)
(5)区間の境界値の決定
第1区間(最初の区間)の下側境界値=最小値 ―(測定のきざみ単位/2)
=43.5-(0.1/2)=43.45
(データと境界値が同じ値にならないようにする為の処置)
第1区間の上側境界値=第1区間の下側境界値+区間の幅h
=43.45+3.7=47.15
第2区間の下側境界値は第1区間の上側境界値と同じになり、第2区間の上側境界値は第2区間の下側境界値に区間の幅hを加えたものになります。以下、最大値を含む区間ができるまで、
データの存在する範囲をいくつかの区間に分けた場合、表形式で集計したものが度数分布表であり、各区間を底辺としその区間に属するデータの度数(個数)に比例する面積を持つ長方形(柱)を 並べた図がヒストグラムです。度数を面積で表現すると、区間の区切り方の分割・結合が自由に変更できるメリットが有ります。
ヒストグラムは、必ず柱の間隔を開けずにグラフを描きます。(棒グラフとの違い)
2 ヒストグラムの作成手順
(1)グラフ化する対象データの確認
データ数は少なくとも50以上、できれば100以上が望ましいです。
データが多いほど全体の傾向が良く反映されたグラフになります。
データの総数をnと記します。
(2)データの中の最大値x(max)と最小値x(min)の確認
データの範囲R=x(max)- x(min)
(3)区間の数(k)の決定
k=√n (小数点以下があるときは整数に丸めます。)
最終的な区間の数の増減調整はあり得ますが、正の整数です。
例えば、123人の体重データがあって、最大体重が84.3kg、最小体重が43.5kgであったとします。
k=√123 =11.09‥‥ → 四捨五入して k=11
(4)区間の幅(h)の決定
h=R/k={x(max)― x(min)}/k
=(84.3―43.5)/11
=3.709‥‥ → 四捨五入して h=3.7
(hを測定のきざみ単位=きざみ幅=0.1kgの整数倍に丸めます。)
(5)区間の境界値の決定
第1区間(最初の区間)の下側境界値=最小値 ―(測定のきざみ単位/2)
=43.5-(0.1/2)=43.45
(データと境界値が同じ値にならないようにする為の処置)
第1区間の上側境界値=第1区間の下側境界値+区間の幅h
=43.45+3.7=47.15
第2区間の下側境界値は第1区間の上側境界値と同じになり、第2区間の上側境界値は第2区間の下側境界値に区間の幅hを加えたものになります。以下、最大値を含む区間ができるまで、
各区間の境界値を定めます。
(6)区間の中心値(x)の決定
x=(区間の下側境界値+区間の上側境界値)/2
(7)度数表の作成
ヒストグラム作成の対象データから各区間に入るデータ数を数え度数を計算します。
(8)ヒストグラムの作成
ア 横軸・縦軸を引く
イ 横軸は第1区間の下側境界値と最大値を含む最終区間の上側境界値が含まれるように目盛りを入れます。
(6)区間の中心値(x)の決定
x=(区間の下側境界値+区間の上側境界値)/2
(7)度数表の作成
ヒストグラム作成の対象データから各区間に入るデータ数を数え度数を計算します。
(8)ヒストグラムの作成
ア 横軸・縦軸を引く
イ 横軸は第1区間の下側境界値と最大値を含む最終区間の上側境界値が含まれるように目盛りを入れます。
データに正常範囲がある場合には、それも分かるように印を横軸に付加しておくと、データの分布と正常範囲の関係を知ることが出来ます。
ウ 縦軸は、度数の中で最大値が含まれるように目盛りを入れます。
エ 各区間の度数に応じた高さのグラフを作成します。
オ 横軸の目盛りの下に検査値の単位の標題を記入します。(例えば、体重(kg)など)縦軸の目盛りの左側に縦書きで「度数」と記入します。
(9)必要事項の記入
ア 横軸で正常範囲の上限と下限の位置を確認し、その位置に実線で垂直線を入れ、その位置の意味が分かるように明記します。
イ 横軸で平均値の位置を確認し、その位置に破線で垂直線を入れ、その位置が何の位置か分かるように明記します。
ウ グラフの右上の空いた場所に統計量(データの総数、平均値、標準偏差、正常範囲)を記入します。
エ 横軸の標題の下にグラフの表題を記入します。(例えば、「従業員の体重のヒストグラム」など)
3 ヒストグラムの観察のポイント
・平均値やばらつきの形状の把握(健康データの現状把握)
・正常範囲との比較や異常値の割合(大きさ)の確認(健康データの現状把握)
(異常値の割合の大きさの観察によって健康介入の必要性を検討します。)
・健康対策実施後の分布(ヒストグラム)の変化の把握(介入の効果確認)
ウ 縦軸は、度数の中で最大値が含まれるように目盛りを入れます。
エ 各区間の度数に応じた高さのグラフを作成します。
オ 横軸の目盛りの下に検査値の単位の標題を記入します。(例えば、体重(kg)など)縦軸の目盛りの左側に縦書きで「度数」と記入します。
(9)必要事項の記入
ア 横軸で正常範囲の上限と下限の位置を確認し、その位置に実線で垂直線を入れ、その位置の意味が分かるように明記します。
イ 横軸で平均値の位置を確認し、その位置に破線で垂直線を入れ、その位置が何の位置か分かるように明記します。
ウ グラフの右上の空いた場所に統計量(データの総数、平均値、標準偏差、正常範囲)を記入します。
エ 横軸の標題の下にグラフの表題を記入します。(例えば、「従業員の体重のヒストグラム」など)
3 ヒストグラムの観察のポイント
・平均値やばらつきの形状の把握(健康データの現状把握)
・正常範囲との比較や異常値の割合(大きさ)の確認(健康データの現状把握)
(異常値の割合の大きさの観察によって健康介入の必要性を検討します。)
・健康対策実施後の分布(ヒストグラム)の変化の把握(介入の効果確認)
<関係WEBの紹介>
(1)総務省統計局ホームページ
・なるほど統計学園
・データサイエンス・スクール
・統計学習の指導のために など
(2)Bell Curve 統計WEB
<入門書籍の紹介>
(1)親子で学ぶ!統計学はじめて図鑑(渡辺美智子 監修)
日本図書センター ¥2,400
(2)今日から役立つ統計学の教科書(渡辺美智子 監修)
ナツメ社 ¥1,300
(3)こども統計学(渡辺美智子 監修)
(株)カンゼン ¥1,300
(4)社会人1年生のための統計学教科書(浅野晃 著)
SBクリエイティブ ¥1,800
(5)算数だけで統計学!(石井俊全 著)
ベレ出版 ¥1,700