研究者や第三者が関心を持つ可能性のある公開情報は、Facebook、Instagram、Twitter、LinkedInなどのソーシャルメディアプラットフォームで入手可能です。これらはAPIやウェブスクレイピングなどの手法を通じて体系的に収集できます。

アプリケーションプログラミングインターフェース(API)は、ソフトウェア開発者向けのライブラリまたは構造化されたツールセットであり、ソーシャルネットワークなどのバックエンドソフトウェアへのインターフェースを提供します。APIはプラットフォームのソースコードへの直接アクセスを提供しません。
APIは短期間で大量のデータを収集するのに非常に役立ちます。

私たちは個人情報を尊重し、ソーシャルネットワークプラットフォームから公開されているデータのみを抽出します。高度に機密性の高い個人情報をスクレイピングすることはありません。
ユーザーに関して合法的に収集できる公開情報はどのようなものですか?
APIを使用することで、独立した研究者や第三者は、ユーザーのプロフィールに関する公開情報や、公開投稿に対するコメントや反応を簡単にダウンロードし、ソーシャルメディアが社会に与える影響を研究することができます。

APIから以前に収集されたソーシャルメディアデータは、結局のところ、Facebookのウェブページや他のソーシャルネットワークのウェブページを訪れるユーザーに対して公開され、見えるものです。

私たちのAPIを使用することで、ユーザーデータから派生した情報を抽出できます。そのようなデータは、特定の個人やユーザーの識別を合理的に回避するために集約されます。

私たちは以下のルールに従います:
  • ユーザー名とパスコードを必要とするプライベートデータはスクレイピングできません。
  • ウェブスクレイピング行為を明示的に禁止するToS(利用規約)を遵守します。
  • 著作権で保護されたデータをコピーしないでください。
  • 機密情報はスクレイピングできません。
なぜ私たちのソーシャルメディアAPIを通じてデータを抽出することが合法なのですか?
私たちは、私たちのAPIが個人情報に関する主要な法的文書に基づいて合法と見なされるべき理由を説明します:
  • CFAA(コンピュータ詐欺および濫用防止法)
  • TOS(利用規約)
  • GDPR(一般データ保護規則)
9月9日、アメリカ合衆国第9巡回控訴裁判所は、カリフォルニア州北部地区連邦地方裁判所からの控訴において、公共サイトからのウェブスクレイピングはCFAA(コンピュータ詐欺及び濫用法)に違反しないと判決を下しました。

裁判所はこの行為を合法化するだけでなく、公共サイトであれば競合他社が自動的にあなたのサイトから情報を削除することを禁止しました。裁判所は、ウェブスクレイパーボットのアクセスはブラウザのアクセスと法的に異ならないという明確な論理を確認しました。いずれの場合も、「ユーザー」はオープンデータを要求し、それを自分の側で利用します。

最も重要なことは、控訴裁判所が下級裁判所の判決を支持し、LinkedInがhiQのウェブスクレイピングに干渉することを禁止したことです。

最近では、HiQ Labs対LinkedInのケースにおいて、第9巡回控訴裁判所は公開されているデータのスクレイピングは「無許可」のコンピュータアクセスには該当しないと判決を下しました。たとえその所有者(この場合、データが保存されているサーバーの所有者)がウェブサイトの訪問者に対して停止命令を送ったとしてもです。ここでも、公共の場で利用可能な情報をスクレイピングすることはCFAAに違反しないという主張がなされています。

ソーシャルメディアプラットフォームから公共情報をスクレイピングするためにサービス利用規約(TOS)に違反することは、研究者にとって合法である可能性があります。一部の研究者が指摘しているように、Bruns, 2018, 2019; Halavais, 2019ソーシャルメディアに関する研究は公共の利益に資するものであり、学者やジャーナリストが研究目的でFacebookから公共情報を収集することを防ぐためにCFAAを適用しようとすることは、第一修正に違反する (コロンビア大学のナイト第一修正研究所, 2018; Sandvig, 2017) および自由な研究の人権に対する侵害 (国連, 1976)。

このような主張が法的決定に影響を与えている証拠があります。顕著な例はSandvig対Sessionsのケースで、ワシントンD.C.の裁判所は公開されている情報のスクレイピングはコンピュータ犯罪ではないと判断しました。たとえTOSが明示的に禁止していてもです (Williams, 2018)。重要な点は、研究者がスクレイピングしたい情報の公共性です。裁判所は次のように述べました。
スクレイピングは単なる技術の進歩であり、情報収集を容易にするものである;これは、手書きのメモを取る代わりにテープレコーダーを使用することや、異なる位置から一連の写真を撮る代わりにスマートフォンのパノラマ機能を使用することと本質的に異なるものではありません。(Sandvig対Sessions, 2018, p. 15)
公開されたデータは、プライバシー規制(GDPRなど)に準拠するためにどのように見えるべきですか?

GDPRの第4条「個人データ保護」によれば、
個人データとは、特定の自然人(「データ主体」)に関連する情報を指します。特定可能な自然人とは、名前、識別番号、位置データ、オンライン識別子、またはその自然人の身体的、身体的、遺伝的、精神的、経済的、文化的、または社会的アイデンティティに特有の1つまたは複数の要因を参照して、直接または間接的に特定できる人を指します。

処理とは、個人データまたは個人データのセットに対して行われる任意の操作または操作のセットを指し、自動手段によるかどうかにかかわらず、収集、記録、整理、構造化、保存、適応または変更、取得、相談、使用、伝達による開示、配布またはその他の利用可能にすること、整列または結合、制限、消去または破壊を含みます。

学術研究の目的のために、規制に準拠した方法でデータを処理する最も簡単な方法は、被験者のインフォームドコンセントを取得することです(第6条第1項(a))。しかし、規制はまた、データ処理が「管理者または第三者が追求する正当な利益の目的に必要である場合」には合法である可能性があることを定めています(第6条第1項(f))。この条項はさらに、「正当な利益」とは、データ処理が「公共の利益のために実施される業務の遂行に必要である」ことを意味すると明記しています。したがって、学術研究が公共の利益に関連することを一般的に簡単に擁護できるため、科学的目的のためのデータ収集、分析、及び公表はGDPRによって保護されるべきです。

さらに、規制は、研究者がセンシティブデータを扱う場合には特に注意を払うことを要求しています。一般的に、GDPRは
人種または民族的出自、政治的意見、宗教的または哲学的信念、または労働組合のメンバーシップを明らかにする個人データ、遺伝子データ、自然人を一意に特定するための生体認証データ、健康に関するデータ、または自然人の性生活または性的指向に関するデータの処理を禁じています。(第9条第1項)
個人データは、人種または民族的出自、政治的意見、宗教的または哲学的信念、または労働組合のメンバーシップを明らかにするものであり、遺伝子データ、自然人を一意に特定するための生体認証データ、健康に関するデータ、または自然人の性生活または性的指向に関するデータの処理を禁じています。(第9条第1項)
私たちはユーザーのプライバシーとセキュリティを尊重し、集計された匿名データのみを提供します。Data365.coはGDPRに準拠しており、EU加盟国内で発生する取引においてEU市民の個人データとプライバシーを保護します。