印度将建造最大的生物识别数据库

印度唯一身份识别局(UIDAI)早在这家创业公司从In-Q-Tel获得投资之前就开始使用MongoDB的开源软件技术。Crunchbase的数据显示,MongoDB仅仅在2012年从红帽(Red Hat)、英特尔资本(Intel Capital)和In-Q-Tel三方募集了总共770万美元。

  印度实施的唯一身份识别(Unique Identification)项目(也被称作Aadhar计划),本周早些时候完成了人口统计和生物识别数据的收集,总量超过5亿印度居民――是目前全球同类生物识别项目规模最大的一个。


  该项目实施的几年来一直伴随着来自隐私和安全以及其他方面的争议声音。Aadhar项目最新的进展又引来了有关其捕获、存储以及管理数据方法的担忧,特别是一家美国创业公司MongoDB在其中所扮演的角色。


  MongoDB是一家非关系型数据库(NoSQLdatabase)创业公司,去年从美国中情局资助的In-Q-Tel机构中募集了资金。In-Q-Tel是一家独立的非盈利资本机构,由CIA和一些美国其他的情报机构在背后支持。


  过去几天,几家印度媒体的报道引述了该国政党和活动人士们的意见,怀疑Aadhar项目的隐私数据被盗用,直指该项目的负责人Infosys的联合创始人NandanNilekani。


  也有一些报道文章将MongoDB列入批评对象当中。


  全球各国政府都在日益警惕美国国家安全局(NSA)的窃听行动,任何与美国政府情报机构有丝毫联系的事情都会闹得沸沸扬扬。不仅如此,因为印度明年普选在即,该国政治意见的发声更是达到前所未有的程度。


  诸如此类指控的时机不能来得再糟糕了,至少对于这个野心庞大的身份识别项目来说是如此,Aadhar正在等待国会法案的通过,要在今年完全成为宪法承认的机构。


  笔者访问了位于班加罗尔(Bangalore)的Aadhar项目办公地点,说实话,按照向我介绍信息的工作人员的说法,虽然有人指摘大额合同中包含与MongoDB分享数据的内容,其实Aadhar使用的是MongoDB的开源代码,并不会触及敏感数据。这次会面同样有机会了解到目前地球上最大的生物识别数据库如何运作,如何处理安全和隐私方面的隐患。


  不仅如此,印度唯一身份识别局(theUnique Identification Authorityof India)反驳了与任何美方机构分享印度国民数据信息的指控。


  Aadhar对于印度来说,意味着什么?


  首先要理清谈论Aadhar的语境,这个项目对于印度这样的国家来说意味着什么?该国有超过5亿人口没有任何正式的身份证明(ID)或诸如此类的凭证,这就导致了许多其他问题,比如没办法领取政府补贴、注册银行账户、申请贷款、考取驾照等等。Aadhar数据库项目,目前以每天新增100万印度国民的速度在记录,预计于明年底注册完成大约12亿人口,介时将成为地球上最大的生物识别数据库。


  获得12位数字长度Aadhar编码的最大优势是该国政府能够将银行账户与贫困人口联系起来,直接现金权益和其他补贴做银行转账。目前,印度已经有将近4000万个银行账户与Aadhar数据建立了匹配。


  市场研究机构CLSA的报告显示,印度政府总值2500亿美元的补贴和其他国民待遇中有超过40%是针对该国贫困人口的,但是却将在未来几年浪费在政府腐败当中。Aadhar计划能够把过程的中间环节去掉,向需要政府补贴的人直接现金转账,用这种方式抑制腐败。


  但也有包括位于班加罗尔的互联网和社会中心(Centre for Internet&Society)在内的智库和活动家对于隐私方面的问题始终持怀疑态度,甚至质疑整个项目能够发挥多大的效果。


  深入全球最大的生物识别数据库


  笔者多方尝试与Aadhar项目官员进行会面,了解安全方面的问题,目前的进展,以及他们对于批评使用MongoDB技术的反应。


  周五Aadhar终于同意在班加罗尔南部郊区的总部与我见面,英特尔和思科在印度的总部也位于该地区。从外表来看,存储了全体印度国民数据(目前数据总量5Petabytes)的Aadhar技术中心一点也不像是个政府建筑――很容易让人以为是附近的英特尔或者思科公司办公楼中的一个。


  走进内部,我来到了一间中央位置有十几个电视屏幕的房间,几位二十多岁的年轻工程师兴奋地坐在前面,在各自的电脑键盘上敲击,查询数据包裹传输的存储信息,整个场面很像一个先进的控制中心。他们盯着的电视屏幕显示了这些数据包裹(每个5MB左右)的记录,从全国30000个录入中心进入开始,经过至少三次信息核实过程。核实过程包裹为每一份档案进行重复性检验,确保同一个人不会被生成两次Aadhar号码。


  也就是说,每建立一个新数据档,就要针对所有现存的档案运行一次“去重复性”检验,目前这个数字已经超过了5亿。


  前英特尔工程师Srikanth Nadhamuni于2010年9月帮助设计了Aadhar的技术平台,该平台目前在班加罗尔的Khosla实验室运行。他告诉我,这些数据包都经过2048-bit加密存储处理,一旦有未授权的调用尝试即触发自我销毁(self-destruction)功能。


  有关针对MongoDB的批评


  那么为什么Aadhar一开始要与MongoDB合作?这种合作关系是否会继续下去呢?


  Aadhar技术中心的助理总干事Sudhir Narayana表示,MongoDB只是最初为数据检索所选择的几种产品之一,其他还包括MySQL、Hadoop和HBase。与只能够存储人口数据的MySQL不同,MongoDB还能够存储图像。


  但是后来Aadhar逐渐将大部分数据库方面的工作转移到MySQL平台上,因为他们意识到MongoDB无法处理大规模的数据,也就是上百万的数据包裹。


  目前他们已经在使用“数据库分片(databasesharding)”技术:将数据包裹存储在不同的机器上,确保系统不会在数据量增加时崩溃。


  这种做法帮助Aadhar减少了对于MongoDB的依赖,而改用MySQL存储大部分数据。


  Aadhar技术中心的副总干事AshokDalwai告诉我,MongoDB无法调用任何生物识别数据。


  “我们认为使用开源技术可以避免过分依赖某一供应商的情况,但是这不代表我们以任何方式在安全方面做出妥协。”AshokDalwai这样说道。


  MongoDB方面的一位发言人在我们联系采访时,建议我们到该公司网站上阅读有关In-Q-Tel投资的声明文件。


  更重要的是,印度唯一身份识别局(UIDAI)早在这家创业公司从In-Q-Tel获得投资之前就开始使用MongoDB的开源软件技术。Crunchbase的数据显示,MongoDB仅仅在2012年从红帽(Red Hat)、英特尔资本(Intel Capital)和In-Q-Tel三方募集了总共770万美元。


  Aadhar前景如何?


  抛开所有的争议不谈,Aadhar将于2014年完成录入超过12亿印度国民数据的目标,数据库总量将达到15petabytes。目前项目的进展速度是每天100万人,从明年开始将会实现每天大约200万人的速度,将剩下的7亿人纳入此数据库系统当中。

印度将建造最大的生物识别数据库

该文观点仅代表作者,本站仅提供信息存储空间服务,转载请注明出处。若需了解详细的安防行业方案,或有其它建议反馈,欢迎联系我们

(0)
小安小安

相关推荐

  • 交通部就《自动驾驶汽车运输安全服务指南(试行)》公开征求意见

    8月8日,交通部就《自动驾驶汽车运输安全服务指南(试行)》(征求意见稿)公开征求意见,鼓励和规范自动驾驶汽车在运输服务领域应用,保障运输安全。

    2026年1月1日
  • 从医疗到超算希捷Exos CORVAULT赋能各行业海量数据存储需求

    和如今大多数行业一样,医疗行业也正处于数字化转型的高速发展期。随着医疗技术进步和存储需求提升,医学影像数据量飞速增长,数据安全、备份、数据保护等工作得到了医疗机构与医疗信息化从业者的密切关注。与此同时,医学影像的移动化应用成为常态,基于医学影像的人工智能辅助诊断也在逐渐兴起。如何用更佳的方式存储数据,如何搭建高速度、高容量、高可靠性的存储方案,适应不断涌现的数据使用需求,是医疗机构的核心关注点。

    2026年1月1日 资讯
  • “看不见”已成数字时代最大安全隐患

    “数字安全新一轮的转型升级已经迫在眉睫。”中国工程院院士邬贺铨强调,这不是单纯的技术问题,是涉及业务、管理、流程、团队等多方面的系统工程;数字安全需要国际合作,但基础是建立我国可控的数字安全技术、产品和服务的完整体系。

    2025年12月31日
  • ISC2022第十届互联网安全大会在京举行

    今年,迎来十周年的ISC大会充分利用首都国际资源、科技资源,打造引领全球数字经济安全发展的国际合作交流新平台,向世界发出中国声音。大会以“护航数字文明,开创数字安全新时代”为主题,呼吁行业凝聚力量,为国家筑牢数字安全屏障,为数字经济发展保驾护航。

    2025年12月31日
  • 5G、安全和物联网2.0的融合将释放更大价值

    现在,随着5G的加入,设备之间的连接比其前身更快、更安全、更稳定,使物联网设备能够比以往更快地共享数据和通信。

    2025年12月31日
  • 提高数据存储能力 筑牢数字经济基石

    近期,中央全面深化改革委员会第二十六次会议审议通过《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《意见》),对数据确权、流通、交易、安全等方面做出部署。

    2025年12月31日