中央調査社のサンプリング | 中央調査報

トップページ > 中央調査報 > 中央調査社のサンプリング

■「中央調査報（No.696)」より

　■　中央調査社のサンプリング

一般社団法人中央調査社
管理部サンプル担当　　種田　啓介

　当社は世論調査・市場調査などの社会調査で国勢調査区を使用するサンプリングを行い、すでに60 年の実績を持つ。このサンプリングには、国勢調査区あるいは基本単位区を第1 次抽出単位とする層化二段無作為抽出を用いている。当社に限らず複雑で変化の激しい現代社会を理解するため、様々な調査設計を元に社会調査が実施されているが、当社では2011 年にIBM のホスティングサービスからサーバー・パソコン系システムへ移行したことにより、サンプリングシステムを改良し、機能の追加等を行い、業務の効率化を行った。今回、改めて当社のサンプリングについて述べてみたい。

1. 標本設計
　調査を行う場合、まず、母集団を定義する必要がある。調査の目的によって、20 歳以上男女個人、18 歳から79 歳までの男女個人、末子が小学生の母親、二人以上普通世帯、従業員規模が5 人以上30 人未満の事業所など様々な母集団が考えられる。
　例えば、国勢調査では地域・対象が「歯舞群島、色丹島、国後島及び択捉島、島根県隠岐郡隠岐の島町にある竹島を除く国内に常住している者」と定義されている。
　世帯については一般世帯と施設等の世帯とに分類されている。一般世帯は親族のみの世帯、非親族を含む世帯、単独世帯に分けられる。調査対象としての「単身者」は一般世帯の単独世帯ということになる。なお、調査においては「二人以上普通世帯」という言い方をするが、普通世帯が一般世帯と同様の意味で使われている。
　事業所については、経済センサスで定義されているが、以下、この文書では事業所を除いて論考を展開する。
　国勢調査は母集団全員を対象とする悉皆調査であるが、通常、社会調査は対象者を母集団から抽出して行われる。この対象者の抽出作業をサンプリング（標本抽出）、対象者をサンプルと呼んでいる。母集団全体に対する調査は多くの労力と時間、経費がかかり非常に難しい。一方、全国2,000 人の20 歳以上男女など、サンプル数（標本数）を限って調査をすることは比較的容易である。統計学上、サンプルの意見を集計すれば、その結果に誤差はあるが母集団の意見とみなして構わないため、社会調査はサンプル数を限って行われる場合が多い。よって設計の段階で最適なサンプル数を決めることが重要になってくる。

2. サンプリング
　母集団が定義されれば、そこからサンプルを抽出する。サンプリングは、一定の規則を守ることが重要である。規則を守らなければサンプルの代表性が確保できない。抽出した対象者に意見を聞いても、それを母集団の意見と見なす科学的根拠が失われてしまう。
　サンプリングで一番わかりやすいのは、単純ランダムサンプリングである。単純ランダムサンプリングの系統抽出の例を見てみよう。平成26 年版住民基本台帳人口要覧によると、全国20 歳以上の人口は103,921,280 である。ここから2,000 人を抽出するため、103,921,280 ÷ 2,000を計算すると、51,960 となる。つまり、任意のスタート番目から51,960 ごとに抽出間隔を数えて、2,000 人を抽出すればよいことになる。ただし、20 歳以上の一人一人に番号がついているわけではないので、この方法は使えない。また、対象者の住んでいる地域も一人一人が非常に離れていることになり、例えばその一人一人に面接調査をすることは難しい。
　母集団が比較的小さい数である○○高校の3年生という形であれば、単純ランダムサンプリングを行うことができるが、全国や市区町村などの大きい数になると困難である。そのため、一般的には多段抽出を行っている。多段抽出では一段目に地域などを決め、二段目以降で対象者を決める。通常、一段目に選んだ地域を地点と呼んでいる。ただし、多段抽出では単純ランダムサンプリングよりも標本誤差が大きくなる。一方、地域区分や市郡規模で分類したのちに抽出すると、その層に入る人の意見のばらつき（標本誤差）は、別の層と混ぜた場合に比べて小さくなると考えられる。このような分類を層化という。当社では、通常、層化二段無作為抽出を行っている。

3. サンプリングに使用するデータ
　層化や地点抽出をするには、層ごとの人口・世帯数、国勢調査区、基本単位区の情報が必要になる。当社のサンプリングには４つの核となるデータを使用している。
・「国勢調査市区町村別各歳人口・世帯種類別数」と「住民基本台帳市区町村別人口・世帯数」
　個人や世帯を対象とする調査のサンプリングを行う場合、母集団や層ごとの人口・世帯数が必要になる。通常これらの数値は国勢調査の集計結果に依るが、同調査は5 年ごとにしか行われないため、その間の人口・世帯の増減や市町村合併等に対応をする必要がある。当社では、各市区町村の人口・世帯数について、国勢調査の集計結果と住民基本台帳人口要覧を元に、毎年推計を行っている。住民基本台帳人口要覧は、各市区町村の1 月1 日時点の人口・世帯数・出生数などが掲載されている。また、市町村合併等については、全国市町村要覧や官報告示に従い、随時推計に反映させている。この推計値を当社では便宜的に「推定母集団」と呼んでおり、市区町村を1 レコードとして、総人口・20 歳以上人口・1 歳刻みの人口・総世帯数・2 人以上普通世帯数などのデータを持たせている。
・「国勢調査調査区一覧表」と「国勢調査標本調査基礎資料」
　調査をする地域（地点）を決める際に使用するのが、国勢調査時の調査区データである。
　「国勢調査調査区一覧表」は、原則1 基本単位区1 行の記載で市区町村コード・調査区番号・基本単位区番号・基本単位区の人口・世帯数・所在地表記などを含んでいる。
　「国勢調査標本調査基礎資料」は、1 国勢調査区単位で市区町村コード・調査区番号・調査区の大分類符号・総人口・15 歳以上人口・20歳以上人口・65 歳以上人口・世帯総数・2 人以上の普通世帯数・1 人の普通世帯数・準世帯数・換算世帯数などを含んでいる。
　当社ではこれらの情報を組み合わせて作成したデータを「番目マスタ」と呼んでおり、基本単位区を1 レコードとして、総人口・15 歳以上人口・20 歳以上人口・65 歳以上人口・世帯総数・2 人以上の普通世帯数・1 人の普通世帯数・準世帯数・換算世帯数などのデータを持たせている。

4. サンプリングの流れ
　まず層化にあたって、①母集団、②サンプル数、③ 1 地点当たりのサンプル数、④層化の基準（地域・都市規模）を決める。例えば、母集団を20 歳以上男女個人、サンプル数2,000、1地点当たりのサンプル数を15 前後とする。層化の基準は、地域は北海道・東北・関東・中部・近畿・中国・四国・九州の8 区分とし、都市規模は21 大市（政令指定都市、東京都区部）・その他の市・町村の3 区分とする。8 × 3 ＝ 24 であるが、四国に21 大市はないので、計23 の層（セル）ができる。ここからサンプリングを始める。

図表２　地域・市郡規模別20 歳以上人口・標本数および地点数（例）

　全国の20 歳以上の母集団数は平成26 年住民基本台帳人口から103,921,280 である。23 の層の1 つである北海道の21 大市（札幌市）の20歳以上の母集団数は1,610,971 である。2,000 サンプルを比例配分すると札幌市のサンプル数ｘは、103,921,280：2,000 ＝ 1,610,971：ｘであるから、ｘ＝ 1,610,971 × 2,000 ／ 103,921,280、ｘ≒ 31 となる。31 サンプルを1 地点15 前後とすると、16 対象の地点と15 対象の地点、2地点が札幌市で立つことになる。なお、計算上は小数点以下が出るが、一人の対象者を分けることはできないので、整数でまるめることになる。同様に計算すると、北海道のその他の市の層では40 対象、3 地点。北海道の町村の層については17 対象、2 地点となる。このようにして2000 サンプルを、各層に配分していくと、137地点が設定される。この23 層の表を層化表と呼んでいる。
　各層の母集団に応じた対象数、地点数が配分された後、一段目となる地点の抽出を行う。地点抽出にあたり、当社では国勢調査の基本単位区または調査区を使用しているが以後は基本単位区の利用を前提として述べる。1 つの層で複数地点を選ぶ場合、その層の国勢調査時の20歳以上人口を地点数で割り、それを抽出間隔（インターバル）とする。ここで、前項で述べた「番目マスタ」を使用し、スタートNo. をランダムに決め、該当番目の人を含む基本単位区を1 地点目とし、その次から計算した抽出間隔を数え、該当番目の人を含む基本単位区を2 地点目とする。このように地点を選び、二段目の抽出の起点とする。例えば、2 地点が当たっている北海道の21 大市、つまり札幌市は、平成22 年国勢調査時の20 歳以上の人口が1,591,212 なので、地点の抽出間隔は1,591,212 ／ 2 ＝ 795,606 である。乱数によるスタートNo. が120,000ならば、1 地点目が120,000 番目の人を含む基本単位区となり、2 地点目が120,000+795,606 ＝ 915,606番目の人を含む基本単位区となる。次に、1 つの層で1 地点を選ぶ場合、例えば、東北の21大市、つまり仙台市では16 対象１地点なので、ランダムな数字を発生させ、該当番目の人を含む基本単位区を地点として決める。
　次に、二段目で対象者を選ぶことになる。各地点でスタートNo. をランダムに決め、調査ごとに適宜決めている一定の抽出間隔で対象者を抽出していく。抽出間隔番目の人が対象適格でない場合（19 歳以下）は、再度間隔を数え直して、対象適格者（20 歳以上）であれば、対象者として抽出する。
　当社では、主に住民基本台帳（リスト）や選挙人名簿抄本（「政治・選挙に関する調査」に限られる）を台帳としている。住民基本台帳（リスト）や選挙人名簿抄本は、原則非公開であるが公益性が高いと認められた調査の場合（住民基本台帳法第十一条の二、公職選挙法第二十八条の三）、その調査以外の目的では使用しないという誓約書を添えて閲覧申請をし、自治体や選挙管理委員会の許可が得られた場合には閲覧が可能である。
　以上、20 歳以上の男女を例として、サンプリングの説明を進めた。母集団は様々考えられるが、推定母集団では各歳の人口もデータとしてあるので、例えば18 歳から79 歳の男女個人を母集団とすることなどもできる。また、二人以上普通世帯や単身世帯などを母集団とし、サンプリングを進めることもできる。

図表３　サンプリングのフローチャート

5. 国勢調査区利用上の注意
　サンプリングに使用するデータ「国勢調査調査区一覧表」における基本単位区の表記の関係で、調査地点として選ばれた国勢調査区や基本単位区が実際の住所のどこを指しているか、わかりにくい場合がある。例えば、「○○町の南部」「□□丁目の一部」、現在使われていない住所表記等、表現は多種多様である。住民基本台帳（リスト）や、選挙人名簿上でその地域を特定しにくい場合は、これらの表記を事前に国土行政区画総覧や地図等を参照して、地域を特定している。
　当社のサンプリングでは、層化二段無作為抽出法を用い、一段目で国勢調査区や基本単位区を地点として選ぶ話をしてきたが、国勢調査区や基本単位区を用いないサンプリングに対応する関連システムの開発が現在進行中である。また、二段目の抽出の際に使用する、各自治体で管理されている住民基本台帳（リスト）は、現在並び順や整理の仕方が多種多様である。その他に2012 年7 月より外国籍住民がリストに含まれるようになり、抽出方法の特定が難しくなってきている。当社では、正確な抽出が行えるように、事前に並び順や整理の仕方を各自治体に確認し、抽出方法を特定している。また、抽出員への指示を適宜行い、抽出の正確さを強化している。今後、無作為抽出をする上で、代表性が損なわれないように更なる注意とレベルアップが望まれる。