" 社会科学データを共有する制度基盤 | 中央調査報 | 中央調査社

中央調査報

トップページ  >  中央調査報   >  社会科学データを共有する制度基盤
■「中央調査報(No.740)」より

 ■ 社会科学データを共有する制度基盤


前田 幸男
日本学術振興会
人文学・社会科学データインフラストラクチャー構築推進センター・研究員
(東京大学大学院情報学環・教授)


 日本学術振興会では2018年度から人文学・社会科学データインフラストラクチャー構築推進事業 を開始した。その背景には様々な要因があるが、研究者の世代交代とともに貴重な調査データが失わ れつつあるのではないかという懸念、諸外国で一般的に利用可能なデータが日本については利用でき ない、あるいはデータが日本語のみで提供されることで、日本を事例とした、あるいは日本が含まれ る国際比較研究が減少するのではないかという危機感があった。
 上述の危機感や懸念は、データの保存と共有を促進する制度基盤を整備する契機の説明としては十 分である。しかし、何故、データを保存・共有するための制度基盤を構築する事業が必要なのかにつ いては、より構造的な説明が必要であるように思われる。本稿では、日本学術振興会が推進している 事業の具体的内容ではなく、このようなプログラムが必要とされる学術的・政策的背景について、諸 外国の事例も参照しつつ論ずる。なお、政策的背景を論じた本稿は、あくまで前田個人の見解である ことをお断りしておく。日本学術振興会の人文学・社会科学データインフラストラクチャー構築推進 事業の具体的内容については、改めて次号で解説する予定である。

公共財としてのデータ共有基盤
 データ共有基盤は学術的コミュニティーに とって公共財である。ここで公共財という用語 は、単に公共の利益に資する財という意味では なく、社会科学の理論における私的財と公共財 との対比で使っている。公共財は一旦提供され ると、費用を負担しない者による消費を排除で きないが故に、フリーライダーが発生し、十分 な量の財が供給されないというのが一般的説明 である。この考え方を社会科学データの共有に 関わる仕組みに適用するならば、コミュニティー 全体の最適解と個々の研究者の(利己的)行動に 基づく集合的結果とが乖離し、極めて不十分な レベルでしかデータの保存と共有が行われない 状況に陥ることを意味する。本稿が関心を寄せ るのは、この状況を打開するための政策的対応 策である。
 社会科学データと言ってもその範囲は広い が、ここでは、標本調査に基づくミクロデータ を中心に議論を進めたい。以下では、まず、社 会調査の標本データを保存・共有する理由につ いて簡単に説明する。次に、社会調査データの 保存と共有とが進まない理由を検討し、最後に、 対応策について筆者なりの考えを述べる。

社会調査データを保存・共有する理由
 社会調査データを広く共有するべきとい う命題自体を否定することは今日では難しい であろう。経済協力開発機構(OECD)の方 針にもあるように、とりわけ公的資金で得ら れたデータは、広く共有されるべきだとされ ている(Organisation for Economic Co-operation and Development 2007)。では、 なぜ共有するべきなのであろうか。最初に確認 されるべきは、社会調査データの資料的価値で ある。公文書や書簡が重要な歴史的な資料であ るように、確率抽出された標本調査個票データ は、その時代の社会の姿を記録する重要な資料 である。政治学ならば無党派層の増加、人口学 であれば晩婚化など、歴史的趨勢を検討する場 合は、長期的なデータの蓄積があって初めて分 析が可能になる。
 次に、大規模標本調査には費用がかかること も重要な点である。筆者自身の経験では、計画 標本3000人、回収率50%、回答者数1500人 程度の選挙調査で最低2000万円程度の予算が 必要となる。これだけの規模になると、ある程 度の実績を持つ複数の研究者を集めて研究プ ロジェクトを組織しなければ調査の遂行は難し い。調査に必要な資源が容易に得られる訳では ない以上、希少な資源を効率的に利用するため に、1つの調査から得られたデータを研究者間 で共有する方が賢明である。
 また、学術調査の場合1回の訪問面接の聞き 取りに要する時間は、30分から60分程度だと 思われるが、調査票の分量によっては90分近く になることもある。回答者の時間的負担を考え ると、既存データで分析可能ならば、新しくデー タを収集することは控えるのが良策であろう。
 聞き取り調査に要する時間が長いことは、調 査票が相当数の設問を搭載していることを意味 する。特に継続調査の場合は、過去に利用され た設問を繰り返すと同時に、時宜に応じた設問 を加えるために、どうしても質問の数が多くな る。搭載された質問には様々な組み合わせがあ り得るので、データを収集した研究者が想定し なかった観点からの分析は十分に可能である。 その意味では、調査を実施した研究者以外が データを分析する意義は大きい。
 以上は、従前から言われてきたことの確認で ある(例えば、佐藤・石田・池田 2000)。その 一方、近年では研究の透明性を高めるという観 点からもデータの保存と共有の必要性が強調さ れるようになっている。筆者が専門とする政治 学では、2015年に当時カリフォルニア大学ロサ ンゼルス校の大学院生と著名な政治学者による 共著論文が、ねつ造されたデータに基づいたも のであったことが大きな問題となった(Noorden 2015)。それ以前から、政治学分野における統 計分析の再現性を高める必要があることは指摘 されていたが(King 1995)、近年では論文に利 用した研究データの共有と研究の透明性を一体 として理解することが強調されるようになった (Lupia and Elmanr 2014; Lupia and Alter 2014)。査読誌の掲載要件として、再現性を担 保するデータとプログラム・ファイルの提出と 公開を義務づけるべきであるという議論もなさ れている(Dafoe 2014)。

データの保存・共有が進まない理由
 理屈の上では、多くの研究者がデータを共有 することの意義は理解しているはずである。で は、なぜデータの保存と共有が理想よりも進ま ないのであろうか。ここでは、10年程前にデー タインフラストラクチャーの問題を検討した フィンランド(Kuula and Borg 2008)とスウェー デン(Carlhed and Alfredsson 2009)の報告 書を参照しつつ、筆者なりに問題点を整理した い。筆者が理解する限り、この二つの報告書で 検討されている内容は今日の日本の状況との共 通するところが多い。
 1つ目は、研究者文化の問題である。データ の共有が進まない原因の一つには、研究者に よっては、努力の結晶とも言うべきデータへの 所有権意識(あるいは愛着)が強く、外部の研究 者とデータを共有したがらないことがあるよう に思われる。外部の研究者とデータの共有が進 まないことは、長期的にはデータが散逸する危 険性を高めるように思われる。
 2つ目は、データの所有権・著作権について の考え方である。データの所有権や著作権につ いての考え方を議論することは筆者の能力を超 えた問題であるが、権利関係についての理解が 確定しないことは、どのような手続きを経るこ とでデータを当初の研究チームの範囲を超えて 共有できるのかを不明瞭にする。結果としてデ ータを共有することのハードルを高くしている ように思われる。また、著作権の考え方を援用 すると、一次データ収集者が他界している場合、 遺族に対して許可を求める必要が生ずる。複数 の著作権者が他界している場合、許諾を得るた めに必要な労力は決して小さなものではない。
 3つ目は誘因の欠如である。研究者の評価は 刊行された研究業績で定まると考えることが従 来の一般的考え方である。ならば、データの共 有に要する手間と暇を研究者が自発的にかける と考えることは、あまりにも楽観的に過ぎるで あろう。第三者がデータを正しく利用するため に必要な記録を適切に残す作業には相当の手間 と暇がかかる。無論、本人にとっても、長期的 には記録を残すことは重要なはずであるが、少 なくとも短期的には不要な作業である。記録を きちんと残す誘因を提供するか、あるいは、記 録を残さざるを得ない制度的な工夫が必要にな るであろう。
 4つ目は技術的な問題である。長期的なデー タ共有のためにはデータが適切に保存されてい ることが重要である。研究者個人がデータを保 存している場合、長期的には、磁気媒体の劣化 や、機械的な事故でデータファイルが失われる 可能性がある。また、データが特定の商用ソフ トウェアに依存しないことも重要である。広く 使われているソフトウェアが10年後にも利用可 能であるという保証はない。また、ロングセー ラのソフトウェアでも、30年以上前のヴァージョ ンで作成されたファイルを、現在のヴァージョ ンで読めるかは相当疑問である。
 5つ目は、プライバシーを保護するための匿 名化の問題である。調査に協力してくださっ た方々のプライバシーを守るのは当然である が、具体的にどのようにデータを加工すれば十 分な匿名化と言えるのかは必ずしも自明ではな く、専門家でも判断に迷うことがある。例えば、 2000年代前半の段階では、社会調査データに 都道府県程度の地理的範囲の情報を残してお くことは一般的であった。しかしながら、情報 技術の発達、および、様々な種類のデータの入 手が容易になったことから、複数のデータの組 み合わせによって個人が特定される危険性が高 まったことが指摘されている。今日では、二次 分析用のデータファイルには都道府県単位の情 報をデータファイルに残さずに共有することが 増えている。技術的変化に応じて、匿名化に必 要な処理方法が変化するのである。都道府県変 数の削除はかなり簡単な例であるが、秘匿処理 に必要な技術的変化を個々の研究者が理解し、 作業を行うことは必ずしも容易ではない。

政策的に何が必要とされるか
 以上、データの保存と共有が進まない理由に ついて整理して論じてきが、裏を返すと、これ らの理由に対する対応がある程度できれば、状 況は改善するのではないかと思われる。
 上述した1つ目の研究者文化については、長 い時間をかけて変えていくしかない。しかし、 筆者の個人的印象では、共有されている大規模 データを分析して学位論文を執筆した若い研究 者はデータの保存と共有に前向きであるように 思われる。その意味では、適切な政策的対応が なされれば、研究者の意識も少しずつ変化する であろう。
 2つ目のデータの所有権・著作権については、 少なくとも事前にデータを共有する方針及びその 方法について研究チーム内で合意形成がなされて いれば、問題を回避できるはずである。また、順 番は前後するが4番目の技術的問題、5番目の秘 匿処理の問題についても、事前に十分な計画が練 られていれば、費用や人員の問題を除くと、対応 はそれほど難しいものではないと考えられる。
 以上述べてきたことはどちらかと言えば、技 術的問題であるが、三つ目の研究者の誘因に ついては、いかなる対応が可能なのであろう か。その方法の一つとして、社会科学分野にお いても、各国と同様にデータ管理計画(Data Management Plan)を研究助成申請段階で義 務づけ、データの適切な保存・管理を促すこと が挙げられる。これは研究者側から見ると誘因 というよりは規制であるが、データのライフサ イクルの各段階における作業について周到に計 画を立てておけば、研究データの保存と共有を より効率的に実現できるはずである(Cortiet al. 2014)。また、費用面では、データの加工や、 メタデータの準備に関わる費用を研究費から支 出できるようにすることで、研究者をデータの 保存と共有へと促すこと出来ると思われる。
 一方、研究コミュニティーにおける評価に関 連して、研究成果だけではなく、データを他の 研究者と共有すること自体を評価する仕組み の整備も必要であろう。最近では、データの 適切な引用を促すと同時に、データの引用を論 文の引用と同様に評価するべきと言う議論もな されている(Altmanand Merce 2014)。ま た、データの内容そのものを紹介する論文を 掲載するResearch Data Journal for the Humanities and Social Sciencesのような 専門査読誌も発行されるようになっている。
 以上、研究者にデータの保存と共有を促すた めの政策的対応について簡単に論じた。データ を共有するための予算を準備することで、ある いはデータの共有を評価する誘因を提供するこ とで、一定程度研究者個々人の行動に影響を与 えることができるものと思われる。ただし、デー タの長期的保存や、広範な提供は、個々の研究 者や研究室が良くなし得るものではない。デー タの保存と共有は、研究者側の誘因の問題だけ ではなく、広くデータの保存と共有を支えるイ ンフラストラクチャーの整備と表裏一体に考え る必要があるだろう。
 欧米諸国おいては、政府機関あるいは助成 機関が、データの保存と共有を担う組織を設置 している、あるいは財政的に支援していること が珍しくない。例えば、イギリスのUKDS、 スウェーデンのSND、そしてノルウェーの NSDのウェブサイトを見ると、学術データ の保存と共有を支援するだけではなく、デー タの保存・共有の実践への助言、ガイドラ インの提示、データの共有を促進するための 研究活動などが組織の目的として例示してある。 日本においても、データの保存と共有を橋渡し する組織、そしてデータの保存と共有について 適切な助言を与えることのできる専門的人材の 育成が必要であるように思われる。

参考文献リスト
○ Altman, Micah, and Crosas Merce. 2014. "The Evolution of Data Citation: From Principles to Implementation." IASSIST QUARTERLY 37:62-70.
○ Carlhed, Carina, and Iris Alfredsson. 2009. "Swedish National Data Service's Strategy for Sharing and Mediating Data." IASSIST QUARTERLY 32:30-39.
○ Corti, Louise, Veerle van den Eynden, Libby Bishop, and Matthew Woollard. 2014. Managing and Sharing Research Data: A Guide to Good Practice. SAGE.
○ Dafoe, Allan. 2014. "Science Deserves Better: The Imperative to Share Complete Replication Files." PS: Political Science and Politics 47(1):60-66.
○ King, Gary. 1995. "Replication, Replication." PS: Political Science and Politics 28(3):444-52.
○ Kuula, Arja, and Sami Borg. 2008. Open Access to and Reuse of Research Data - The State of the Art in Finland. Tampere: Finnish Social Science Data Archive( FSD).
○ Lupia, Arthur, and George Alter. 2014. "Data Access and Research Transparency in the Quantitative Tradition." PS: Political Science and Politics 47(1):54-59.
○ Lupia, Arthur, and Colin Elman. 2014. "Introduction." PS: Political Science and Politics 47(1):19-42.
○ Noorden, Richard Van. 2015. "Retracted Gay-Marriage Study Debated at Misconduct Meet-up." Nature 522(June):14-15.
○ Organisation for Economic Co-operation and Development. 2007. OECD Principles and Guidelines for Access to Research Data from Public Funding. OECD Publishing.
○佐藤博樹・石田浩・池田謙一. 2000.『 社会調査の公開データ : 2次分析への招待』東京大学出版会.

―――――――――――
 日本でも科学技術振興機構や日本医療研究開発機構はデータ管理計画を義務づけている。
 https://www.ukdataservice.ac.uk/about-us.aspx
 https://snd.gu.se/en/about-us
 https://nsd.no/nsd/english/index.html