当我们惊叹于大数据的魅力时是否应该考虑数据伦理？_理论基础

　　编者按：数据开放和数据获取渠道开放，是否与隐私保护、伦理道德间存在矛盾，如何处理几者间的关系？作者分别访问了盖茨基金会、斯坦福大学、印第安纳大学，对研究之前是否需要进行伦理审查进行咨询，但均未给出正面回应或者直接拒绝回答此类问题，说明在数据开放下，隐私保护和伦理道德现状堪忧。在大数据时代，只注重大数据开放发展，不注重大数据安全保护，将会给世界带来一场灾难；数据开放与保护，就像是处在天平的两端，两者同等重要、缺一不可，必须辩证看待，在开放中保护，在保护中开放。

　　在这星期内，我的收件箱并没有充斥着来自出版商、大学、基金会和非盈利组织发布的最新数据开放和数据获取渠道规划的大量公告。这一发现很奇妙，世界上的研究成果可以开放阅读、重复使用和复制，但到目前为止研究的焦点几乎都在研究的最终结果上，而应该首先进行什么研究的初步伦理审查仍然是保密的。这是否意味着我们在“开放数据”和“数据获取渠道”的同时应该增加“伦理开放”？

　　当谈到“大数据”研究时，很多人认为同行评审流程和机构伦理审查流程（伦理委员会或学术用语“IRB”）确保了创新与伦理道德之间的适当平衡，但正如我去年发现的一样，即使在受人瞩目的道德讨论后，例如在脸谱网和和康奈尔大学以及美国国家学术出版社一起合作的情绪研究中，脸谱网几乎没有做出任何改变，而后两者也没有做出任何改变或仅在事后做出的微小改变。

　　我们所生活的世界很多“大数据”研究都是秘密进行的，直到它们发布或泄露那一刻，导致泄露的主要原因是由于技术团队以意想不到的方式使用数据，频繁地突破隐私和伦理的界限。许多人来自没有任何伦理研究历史的领域，这些领域的期刊或者资助者，包括联邦资助机构大部分都采取不干预政策，让研究人员自己检查或直接免除对整个领域的伦理审查，因为隐私和伦理研究不是该领域以前研究的重点，或因关注伦理研究对“拒绝扩展他们的(伦理)范围，以涵盖社会和行为科学”的研究人员来说是不公平的。

　　一名心理学家管理着一批自愿参加测试的人，他们都参与了研究报告，心理学家通过一系列的协议来评估他们的各种心理特征和缺陷，他们的名字和特点以及照片可能永远无法出现在文学作品上，不能让世人都看到。然而,计算机科学家收集了数以百万计的不知情的人的Facebook资料(包括儿童)，并通过一套情感挖掘算法来分析，以估计高度敏感的情绪状态，如抑郁症会怎么做，并将结果作为公共数据发布，其中包括每个人的真实姓名、他们大致的家庭住址和模糊的照片，以上这些他们都没有与伦理审查者进行交流，并且这些数据在全世界已共享数百万次了。数据集只有受到媒体和知名度高的伦理学家的关注才有公开讨论的可能（即使最终被取消了），可能导致有无数的备份并在镜像网站上出现，让这些数据最终产生更多的数据集和出版物。

　　这就是今天我们生活的研究伦理的世界：对结果的不懈关注和我们可以做些什么，这些决定都是秘密进行的，而不是公开坦率的讨论作为一个社会的人应该做些什么。也许是社会管理者下意识地决定将伦理和隐私排除在研究要考虑的因素之外，但这些决定应该在公开场合进行，并成为公开记录的一部分，而不是秘密进行只有少数人知道。

　　去年12月份，盖茨基金会给我发送了一封电子邮件，庆祝他们开放获取内容政策的全面启动，“要求所有已发表的基金资助的研究都是免费的、立即可获取的，基础数据有权重复使用——没有例外”，一个月后，“所有由基金会资助的研究包括基础数据都必须完全开放，并可自由、立即访问。”

　　盖茨基金履行了开放获取渠道的承诺，特别是它要求数据集可以公开使用，这些行为都值得赞扬。然而当问道基金会是否会有类似的要求，即公开其项目的伦理研究审查或者是否会考虑这一要求时，基金会回答说“其为开放获取渠道的努力，不是为了解决这些问题”，而是“为一个普遍的问题，我们的资助人要对他们的项目负责。”他们有望根据所有适用的法律和道德标准来管理他们的项目，包括获得适用于该项目的同意和批准。

　　简而言之，盖茨基金会对开放性研究的重心停留在研究资金的输出上，而这项研究的伦理和理由被排在首位，在此过程中提出的任何问题仍然是研究人员自己的责任，基金会没有兴趣使该过程更加透明或开放。一个给定的项目是否接受过任何伦理道德审查？由于使用公共数据，无需对其方法或问题进行进一步审查，因此也可以正式免除其伦理审查？这个项目是否已审查过，得到一致的支持，没有任何顾虑?或者这个项目经历了一年多的辩论，有相当多的异议，或者研究人员是否去向他们大学法律系的求助，免去进一步审查的办法？在我探究伦理学研究的过程中，我发现在这几种情形下有相对应的几个例子。然而，公众和其他研究人员永远不会知道一项研究是如何进行的——他们只会在杂志上看到一篇文章，和一篇新闻稿，用以宣传这项研究的惊人之处。关于这项研究是否应该发生的争论几乎完全是秘密进行的，甚至连学者们都无法知晓。

　　接触了研究“大数据”相关的几所主要大学，产生了一种大体一致的观点，都一致认为伦理研究不应该公开。我向哥伦比亚大学询问：是否要求教师和工作人员在开展研究伦理审查之前提交大量使用过的在线数据集如社交媒体、浏览的网页，尤其是对那些从事在社交媒体中收集用户个人信息的工作，为了研究工作是否允许其研究人员蓄意违反服务条款或者从盗窃的犯罪数据中获得所需数据，如使用偷来的医疗记录。一位发言人向我介绍了他们的IRB网站，但是当被问到这些具体问题时，该大学表示，他们正式拒绝回答任何问题。当像哥伦比亚一样享有声誉的机构，在“大数据”研究中投入近1亿美元时，决定正式拒绝发表看法，而不是讨论如何确保其研究中的道德行为，它充分说明了当今“大数据”中伦理研究的现状。

　　同样的问题斯坦福大学给了一个相对详细的回答，提及了人类学研究政策，并指出“包含个人身份信息”的“公开可使用”数据需要IRB审查，但事实上可能并不总是如此。一位发言人指出“对于来自如社交媒体的外部大数据的研究，学校可能需要先与提供原始数据的机构达成协议。”执行协议的过程将包括隐私审查，以确定该大学是否能够接受数据的所有权，在数据移交给大学进行研究之前，这些数据必须符合所有的隐私法和其要求。为了做研究大学将“拥有”这些数据，但如果无法核实数据的来源，他们将不会接受这些数据。当我问道有教员用网络爬虫程序收集自己的数据档案,而不是获取现有商业数据集这种情况时，大学发言人说道：我们无法做出评论，因为这类研究是否批准将取决于具体情况,需要进一步评估。当问道某个教师违反商业网站使用条款的具体案例时，她说“我们有政策规定，禁止教师如你所述那样进行研究”，并指着他们的研究手册给我看。然而，我还问到，斯坦福大学教员在被雇佣前就已经出版了的文章，是否同样适用斯坦福大学的研究方面规定，她回答我说，如果教师没有提交包括研究细节的审查，学校是无法对此作出回应的，但上述提到的政策仍将保持不变。

　　尽管学校对伦理细节很关注，但当问及某个已通过伦理审查的项目，斯坦福大学是否允许公众和其他研究人员对此进行再次审核，看研究员是如何对他们的项目进行伦理论证，发言人说“我们不支持公共访问。”在许多情况下，发布某项研究草案还为时过早，因为研究的目标是确定一个研究是否有效。我们也对赞助的研究进行调查，但赞助商通常需要保密。如果涉及到关于伦理道德的问题，那么伦理审查可以由 IRB提出、或审查人员或专家小组提出。

　　像大多数大型研究机构一样，斯坦福大学进行了大量外部资助的研究，但值得注意的是，斯坦福大学的立场是，这种伦理研究必须远离公众视野，就像资助机构在内部进行研究一样。简而言之，像脸谱网这样的公司不管用自己的研究人员进行研究或者否雇用斯坦福大学进行研究，在这两种情况下伦理研究都是秘密进行的。学术界的透明似乎暂时阻止了道德透明化。

　　对印第安那大学的采访在该问题上没有多大帮助。我向项目负责人问及美国国家科学基金会资助的近一百万美元的“揭示真相”项目，以及关于他批准的 IRB 关于该项目的伦理提案副本，和他如何处理他的社交媒体分析平台的一些伦理问题时，他表示他的项目已获得IRB批准，但他拒绝提供IRB的批准或与此项目有关的任何细节的副本，相反，他把我介绍给了印第安纳大学研究院的副院长，后者又把我介绍给了传播系的副主任，但最终我的问题也没有得到回应。一份看似是NSF提案的副本被发布到了学校其中的一个教职工网站，全文都没有提到“伦理”这个词，“隐私”只提到过一次，在涉及隐私问题的背景下，让伦理研究进展变得更加困难，“在收集数据和大量相关数据的问题上，与隐私有关的困难阻碍了更快的进展。”由于“揭示真相”项目是由美国国家科学基金会用纳税人的钱资助的，我向NSF咨询是否可以提供一份NSF批准这一项目的副本。一位发言人回应说，国家科学基金会只有在《信息自由法案》要求之后才会提供这些文件，并且它保留对此类访问收取费用的权利。

　　当有人要求审查网上的隐私和个人信息是如何通过联邦政府资助的一个公立大学的项目来处理的，负责监督这个项目的教员拒绝提供这些资料的获取渠道，学校也没有对我提出的多个请求做出回应，用纳税人资金支持该项目的联邦资助机构说允许审查这些材料的唯一方法是通过《自由信息法案》的要求，它保留对此类访问收取费用的权利。同样，我向获得美国国际开发署奖项（这一奖项涉及大量在外网下载资料的资料，这些资料可能会违反其使用条款，和公布个人资料的可能性）的两个纽约大学的研究员咨询，想要看IRB 提案的副本，以便了解 IRB 是如何审查这类项目的，对此他们也没有做过多的回应，纽约大学公共事务系副主任对重复的请求也没有做出回应。

　　总之，研究员们似乎非常不愿意分享他们工作中关于伦理考虑的任何信息，他们把伦理道德看做是需要克服的一部分障碍，而不是必须遵守的道德准则。

　　去年六月我第一篇关于数字伦理的文章想要从哈佛大学获得相关的意见，但多次尝试均以失败告终，而这一次学校响应速度如此之快。一位发言人澄清说，对于某些研究，除IRB批准外，还需要院长对此审核。该大学最初指出，对于特别敏感的研究，比如使用被盗数据，“我们不太可能批准这样的使用，特别是如果数据是非法获得的可能会导致个人身份泄露。”然而，当被要求对最近一份出版物中使用非法数据进行评论时，发言人说，这项研究已获得哈佛IRB和“院长审查（Provostial Review）”程序的批准，在使用非法发布的数据(如盗窃数据)的情况下，将会受到严格的审查，数据的来源也会受到严格的审查，怎样获得和从哪里获得这些数据都是它是否被批准的主要因素。我们一般认为公共领域的信息公众是可以使用的（例如通过媒体，公共网站，报纸等）。

　　然而，与其他大学一样，当被问及公众或相关的学术研究员需要一份哈佛大学关于伦理道德审查的副本需要的流程时，该发言人回应说她不记得有这样的请求，但是“如果收到这样的请求我们当然会做出回应。”然后，她又对IRB的提议进行了阐述，其中包括了调查人员试图证明的假说、实验过程/方法、用于保护私人信息的过程(例如，他们在发表前如何去除可识别的信息);以及数据安全措施。这些信息的披露对研究人员（例如，其未公开的方法被公开后，会有潜在的知识产权损失）或研究对象（例如，公开去除身份识别的方法和数据安全措施将会增加未经授权的访问或识别的可能性）都是有害的。这就是为什么在《信息自由法案》下发布的文件被大量修改的原因之一。她还指出，“IRB的批准包括IRB和研究人员之间的、对批准内容的澄清或细节的多次交流”，并且发布这样的批准信息需要相当大的努力来掩盖IRB审查者的身份。

　　因此，与斯坦福大学相似，哈佛大学引用了对其研究中伦理审查秘密进行的必要性，以保护研究人员不受外部影响。从这个观点来看，研究人员在他们发表内容前会害怕别人“剽窃”或窃取他们的想法，目前尚不清楚为什么在研究发表后不少评论仍然不能公开发布，特别是IRB认为是伦理和隐私的部分。

　　更让人觉得苦恼的是，发表的文献通常强调的是成功的研究，而学术研究的本质意味着，对于给定的数据集，许多问题可能无法达到可发表的要求。这意味着，每一天，学术研究人员都会问一些我们永远不会听到的数据问题，因为他们没有得到研究人员认为可以发表的东西或者是没有期刊接受并出版。

　　更重要的是，研究受到道德上的困扰，期刊拒绝发表认为这种研究是不道德的，它可能永远不会被发表，这意味着更广泛的研究团体和公众将永远不会知道这一点。

　　然而，也许在“大数据”研究中免于伦理审查最常见的方法是“公共数据”豁免，对于“公共数据”很多大学不需要IRB审查或利用快速审查的方法，如果研究中利用了公众普遍可用的数据集，则可以在第一阶段对伦理审查进行豁免。在这种情况下，如果工作完全依赖于可以在网上找到的已有数据，IRB通常会免除其余的研究，包括方法和隐私问题。

　　最近，我偶然发现了梅隆基金会向滑铁卢大学提供资金的新闻稿，以资助对网络档案的大规模研究，其中至少有两个一起合作的研究机构有使用大型网络档案的研究历史。在电子邮件中，研究人员强调了他们为研究收集的网络档案资料的数量，并且他们对拥有大量网络档案数据的组织感兴趣，以使用他们正在开发的新平台。

　　当被问及他们开发的软件工具是否有助于分析网络档案时，是否包含了任何隐私或其他伦理方面的考虑，例如，允许禁止对某些隐私进行查询，或使用人口特征的数据集进行警告或禁用可能引起隐私问题的查询，研究人员回答说，他们的工具只是传统的分析工具，专注于尽可能多的提出问题，而不是回避询问是否有的问题不应该问（事实上，印第安纳大学的NSF-funded Twitter 分析平台的确如此）。

　　最近，我偶然发现了梅隆基金会向滑铁卢大学提供资金的新闻稿，以资助对网络档案的大规模研究，其中至少有两个一起合作的研究机构有使用大型网络档案内容的研究历史。在电子邮件中，研究人员强调了他们为研究收集的网络档案数量，并且他们对拥有大量网络档案数据的组织感兴趣，以使用他们正在开发的新平台。

　　尽管多次向研究员询问，是否梅隆基金资助的项目或其他网络档案研究员已经进行了正式的机构伦理审查，如对于IRB审查，项目负责人拒绝回答，而只表示他们的工作是“完全符合滑铁卢大学的所有道德准则和政策”。一位大学发言人随后澄清说，“是否需要道德审查取决于项目”，“总的来说，我知道公众可以合法获取的信息，受到法律保护的信息，如果隐私需求不合理，就不需要道德审查。”

　　鉴于大学发言人的澄清,网络档案研究可能并不需要伦理审查 ,加上研究人员坚决拒绝确认他的工作是否曾经过伦理审查，目前尚不清楚是否真的有独立的伦理审查。特别是研究人员先前的工作已经详细分析了GeoCities 网站的历史档案，包括对社区领袖等这样特定的个人进行分析。这项工作还涉及检查网站的视觉内容。由于GeoCities网站可以并且确实包含了相当多的个人识别信息，包括个人全名、照片和许多其他细节，目前尚不清楚这种研究多大程度上受同行伦理审查的影响，以及用于证明其合理性的具体论证，以确保此类研究不会造成不必要的隐私担忧。研究人员拒绝回答他们的GeoCities工作是否受到了IRB或其他伦理机构的审查，只说明他们原来的工作申明内容，即他们的工作是与大学政策相结合的。

　　梅隆大学拨款的让感兴趣的研究人员聚集在一起，共同创建工具并对大型网络档案进行分析。他们最近的一次活动是上个月在大英图书馆举办的，其中包括了两个与英国相关的数据集:“UK Government Web Archive ——2010英国大选数据收集”，以及“UK Government Web Archive ——公众调查、皇家委员会、审查和调查数据。”当我向大英图书馆询问如何处理其网络档案内容研究的伦理审查时，一位发言人向我介绍了他们的研究政策，尤其是他们的良好实践规范指南。这些指导方针规定：“图书馆应承担主要责任，确保在其作为牵头研究组织的项目和合作中保持道德操守”。由其他研究组织牵头的合作项目主要由该组织的伦理研究政策和程序来监管。然而，大英图书馆的工作人员必须确保这些程序涵盖项目涉及到的各方面伦理道德。该政策还要求“在许多类似的情况下，该项目将由合作伙伴组织牵头，此时该项目主要通过牵头组织的公司治理和伦理研究流程进行管理。图书馆不希望做重复工作。在一些研究合作中，相关的伦理研究问题可能由牵头研究机构和/或参与该项目的其他机构或赞助商来解决。不过，在这种情况下，参与该项目的大英图书馆工作人员继续参考这一实践守则是非常必要的。特别是对于由外部合作伙伴的政策和程序管理的项目，大英图书馆的工作人员必须确保这些程序涵盖项目涉及到的所有伦理道德。”“此外，根据这些伦理审查的项目的一般清单，“研究是否涉及与直接可识别的与人类主题相关的数据的使用或创建?”以及“研究是否需要特别关注知识产权或版权方面的问题?”

　　当问及这些伦理审查是否适用于档案馆中提供的两份英国数据集时，该图书馆的发言人表示，图书馆无法对此发表评论。滑铁卢大学也组织了这次活动，我向他们咨询，是否要求参加者事先提交他们拟议的项目以进行伦理审查，特别是涉及英国的两个数据集的项目是否要提交给大英图书馆进行审查，研究人员最初答复说，大英图书馆没有提供任何可供获取的数据。当我指出一条信息与此说法似乎相矛盾，该条信息表明可用的英国数据集中至少有一个属于“大英图书馆”，对此研究人员拒绝进一步发表评论，而是将我带回了大英图书馆和国家档案馆。他们也没有对使用其他数据集的项目是否受到任何形式的道德审查或对或者对他们提出的问题的限制进行发表任何看法。

　　当我再次询问时，大英图书馆表示对此他们无法发表任何看法，这意味着他们完全不清楚在这个数据集中图书馆的数据是否可用，项目涉及到的数据是否会受到图书馆理论的审查，如果受到伦理审查，那么数据集要如何应对这些要求，或是否任何形式的道德审查都适用于在该事件中执行的项目。

　　梅隆基金会作为数字人文社会科学研究的首要资助机构，在与其他基金机构的反应保持一致的同时，梅隆基金未能在道德和隐私领域发挥领导作用，而它却为这类数据挖掘项目提供了一个独特而有力的声音。

　　事实上，在我与之交谈过的机构和研究人员中，只有一名就职于一所重点大学商学院的研究人员向我提供了他的IRB提案，并第一时间回复了我的电子邮件。他的文章被大量引用，他非常渴望尽量多的讨论伦理，并且形成了最终形式，很明显，虽然他和他的IRB提案在伦理和隐私考虑中放弃了一些思想，但他们为重视伦理道德感到自豪。奇怪的是，他的回应是独立的，因为与我互动过的其他研究人员一直是回避、敌对的，或者根本没有回应多次有关其工作的伦理考虑的更多信息的请求，或者根本没有回答我对他们工作中的伦理审查问题的反复请求，而另外一个实际上并没有提供他们的IRB提案的副本，虽然迄今为止我没有说过的大学对其伦理审查有一个开放的政策，但资助机构似乎对这个话题和主要期刊都没有兴趣，或将其留给研究人员自己审查，或者由于他们领域有历史要求，有明确的反对伦理审查的政策。

　　把这些结合在一起，所有这一切都强调开放数据和获取渠道是使公民和研究人员更容易获得学术界成果和实现数据反复使用的新时代，是实现时代转型的巨大进步，但是，当讨论伦理研究和隐私方面的问题时，这种透明度和开放性的渴望似乎突然终结了。大学和研究员个人要自己决定什么是道德的，或者他们甚至相信道德或隐私考量应该在他们的工作中占有一席之地，大学根本不想谈道德或坚定地认为道德审查必须以秘密的方式进行，而资助机构和出版商寻找其他途径或对此根本没有兴趣。研究内容、出版物和数据集的最终输出，是学术成功的指标，它确定了其创造者的任期、晋升、名誉和声望，而大学和资助者则获得了他们所支持的所有工作带来的回报。一个到处是发表的文章和创新的新数据集是大学实验室研究非常成功的标志，而一份填满IRB伦理审查批准和IRB关于伦理审查提案的详细页面以及每个出版物或数据集如何保护隐私和遵守普遍接受的道德考虑的详细理由，远远不太可能吸引名利和财富，更有可能出现法律，道德或其他麻烦和负面新闻，正如其他研究人员和公众对该机构道德观念的质疑。总而言之，从研究人员到大学到出版商再到资助者的学术生态系统都宁可以另一种方式来关注可以做的事情，而不是应该做什么。如果，作为一个社会成员我们聚在一起，认为伦理道德和隐私在现代大数据研究中没有地位可言，是过时概念，那么这是一个大家一起研究讨论后的民主决定，而不是少数几个对他们正在进行的研究或伦理审查、隐私知之甚少的人秘密决定的。

　　最后，学术界必须决定，是否“开放性”和“透明性”仅适用于学术机构的最终研究结果、研究员个人，很多领域没有进行伦理审查的历史，完全有权决定什么是伦理和道德行为和在数字社会允许有多少隐私保留，或者，如果我们把“伦理开放”加在开放数据和获取渠道上，开放大学公开讨论“大数据”研究的未来应该是什么样的。

　　译自：Kalev Leetaru《Should Open Access And Open Data Come With Open Ethics?》

责任编辑：lihui

关注国脉电子政务网，政府CIO的思想阵地与交流平台，5000位政府CIO在这里读懂“互联网+政务”