来源:新浪财经
文/周诚君(中国人民银行金融研究所所长)
征信市场呈现多元化趋势
征信业是通过收集、加工信用信息以防范信息主体信用风险的行业。根据法律规定,人民银行履行征信业监督管理职能,由下设部门征信管理局负责征信业管理。为防范金融风险、促进金融业发展提供相关信息服务,国家设立金融信用信息基础数据库(即征信系统),由中国人民银行征信中心负责建设、运行和维护。征信中心通过采集、整理、保存和加工信息主体的基本信息、信用信息和反映其信用状况的其他信息,为金融机构、信息主体、政府等对象提供征信服务。绝大多数信息主体,不管是企事业单位还是个人,原则上只要有银行账户、跟银行打过交道,就都可以通过自助查询机、手机银行等多种查询渠道了解其信用记录。应该说,这个系统以及由此形成的信用记录目前已经得到了社会的广泛认可,在经济社会运行中发挥着非常重要也非常基础的作用。
在社会各界的共同关心和支持下,人民银行建立了覆盖全国的企业和个人征信系统,采集了企业和个人的相关信用信息,并按法定程序为全社会提供征信服务,特别是为金融机构的信贷审批、贷后管理和其他投融资活动提供金融信用信息支持。这是目前我国征信市场的主流模式,人民银行征信中心是目前征信市场上最重要的征信服务供应主体。随着市场发展、技术进步,以及金融业自身的快速变革,征信市场也开始呈现出越来越多元化的趋势。比如,年互联网金融协会联合八家机构发起组建了百行征信,该机构先后获得了个人征信和企业征信业务资质;年底,朴道征信有限公司获得人民银行颁发的第二张个人征信牌照。同时,一些互联网平台公司也通过运用大数据对企业和个人信用状况进行刻画,给出客户画像和评分,进行所谓的“助贷”,为金融机构信贷或其他信用活动决策提供参考。总体来看,大数据征信服务在一定范围内和一定程度上得到了市场,特别是部分金融机构的认可,部分金融机构甚至对这些评价形成了一定的依赖性。由此我们看到,在以政府为主导建设的社会征信体系基础上,通过社会资本特别是私人部门的参与,征信体系开始多元化,并可能逐步形成多层次、竞争性的征信市场体系。
征信市场的三个层级结构
多层次征信体系有利于为市场提供多样化的征信服务,增加市场的竞争性和可选择性,从而提高征信市场效率,这也是成熟市场国家的普遍经验。按照国际经验和目前我国发展状况,征信市场总体上可形成以下三个层级。
第一个层级:主流征信服务
主流征信服务是由以国家行为主导为特征的全国征信系统进行提供的,由官方运行,国家统一采集、管理和运用数据。在中国,主流征信服务由人民银行管理运行、人民银行征信中心具体负责。该系统负责采集所有信息主体在与金融机构打交道的过程中形成的相关信用记录,如企业贷款有没有及时归还,个人信用卡或消费贷款以及住房抵押贷款按揭月供等有没有及时足额归还,等等。这个系统具有以下几个重要特征。
第一,这是政府行为或准政府行为,由国家兴建系统和数据库,由国家强制性地采集数据,而且面向所有的金融机构采集规定数据。这个规定表现为按同一个范围、内容、格式采集数据,换句话说,国家征信系统采集的数据是标准化的。对于企业,不管是对于国有企业还是民营企业,采集数据的标准是统一的。对于个人,不管是谁,采集数据的标准都是统一的。标准化还意味着数据的通用性,不仅数据本身是通用的,而且数据统计口径、报送模版等也是通用的。数据及其采集的标准化和通用性为采集相关信息时获得被采集对象的许可和授权提供了方便,为金融机构按照统一标准接入系统并上传数据提供了便利。正因如此,这个系统广泛连接各类金融机构,服务大多数市场主体,得到了全社会的广泛信任和支持。
第二,这个系统采集和处理的是结构化数据。结构化数据意味着可以用二维表格来表述和实现,用数据库来存储和管理。这些数据具有高度的组织性和整齐的格式化,数据信息可通过表格形式准确反映,严格地遵循数据格式与长度规范。一方面,标准化与结构化是有内在联系的,只有标准化了,有明确的格式、规范、处理标准,才能实现结构化展现和管理,以及在此基础上的分析;另一方面,标准化、格式化的数据更容易被搜索、访问和使用。我国现在已经形成了比较成熟的结构化数据分析、处理、加工和运用能力。
第三,强调数据采集相关性原则。在确定采集数据的范围时,要非常清晰地体现目标导向,即所采集的数据与所反映的信息主体信用状况高度相关,这些数据的采集、处理结果与对象信用状况具有相对比较直接的因果关系。或者更准确地说,可以在某个置信区间内,按多大概率来评价该信息主体的信用状况,从而可供金融机构或其他信用评价结果用户参考。
第四,强调真实性和准确性原则。这也是相关性原则发挥作用的前提,即这些数据都是真实、准确反映被采集对象的行为及其结果的。比如,某个信息主体在什么领域、哪笔业务上有违约行为,违约了多长时间、多少金额,系统都会准确记录和反映,都可以让该信息主体进行复核查证。如果记录有误,在该信息主体有充分的证据和理由的情况下,则可按法定程序进行修改、调整。
第五,“最少、必要”原则。高质量的数据意味着数据真实准确、精度高,与刻画对象信用状况高度相关,这要求数据的采集、加工和管理要有较高的资源投入和成本,而且也涉及信息主体的个人隐私或商业秘密,因此需要强调数据采集的“最少、必要”原则。要保证征信系统所采集数据的标准是清晰透明的,其内容范围是最少且必要的,对所有对象是一视同仁、非歧视的,相应的数据库是简单、规则统一、结构上干净利落的。首先不采集不相关数据,其次即使采集相关数据,也不采集不必要的数据,或者过多的冗余数据。从国际范围来看,凡是具有类似法律授权的征信机构,其采集的数据也都是严格受限的,多数情况下,用以描述和刻画每一个被采集对象的数据一般不超过项。
第二个层级:替代数据征信服务
替代数据征信服务是基于采集和使用替代数据进行提供的。现实中,并不是所有的信息主体都与银行等金融机构发生业务联系。有些人从来不使用信用卡,有些企业也从来没有获得过银行贷款,或者很少跟金融机构有类似的信用服务业务。这意味着这些信息主体是缺乏传统信用信息的,按照统一标准、以“必要、最少”原则采集数据的征信系统无法采集这些信息主体的信用记录,也难以通过对标准化、结构化数据的管理和运用来准确刻画信息主体的信用状况。一个结果是,这些信息主体在经济活动中很难获得金融支持和相关金融服务,比如无法获得贷款、不能签发信用票据,甚至有些保险产品都不能购买。
为此,市场试图寻找一些解决方案,一个途径是采集替代数据,并通过使用替代数据给出信用评价。替代数据(AlternativeData)是相对于现有征信体系中普遍采集和运用的标准化数据而言的,是传统信用数据之外同样有周期性信用支付特征的账户及相关信息,一般也是采取先服务后付费的模式,或者在一定程度上可以赊销,由对方定期或不定期付款结清等。比如,个人或小微企业的房租及缴付信息,通信和宽带上网支付信息,一些水、电、气等市政公用设施支付信息等,车险等周期性缴费保险支付信息,甚至包括账户、资金流水、税收和社保缴纳,以及与工资支付相关的“五险一金”信息等。虽然这些信息主体没有跟银行等金融机构发生直接的信用业务往来,金融机构无法通过主流征信服务判断其信用状况,但仍然可以通过替代数据征信服务对相关信息主体的信用状况作出判断。
目前一些基层地方政府正在积极推动类似的工作,其出发点是推动普惠金融发展,更好支持当地小微企业、个体工商户获得金融支持。在实践中,替代数据征信服务也确实发挥了一定效果,增加了金融的可获得性和覆盖面,同时有助于金融机构对这类信息主体提供金融支持时进行合理的定价和风险控制。一些地方(如浙江台州、福建泉州等)探索出了各具特色的替代数据征信服务模式。基层地方人民政府参与或积极推动相关工作的另外一个重要原因是,地方政府及其部门比较全面地掌握了替代数据源,特别是与基础设施和公共设施服务及收费相关的信息。另外,一些科技企业也积极与地方政府及其部门合作,为其提供算法、模型和相关服务,自身也获得增值收益。
但也要看到,替代数据的采集和使用仍然具有很大的局限性。一方面,从理论上说,即使是替代数据,其采集和管理的一个重要原则是仍然要强调其背后的信用相关性特征,用以刻画对象的信用状况。而我国相当一部分公用设施服务是先付费后消费的,不太具有明显的信用服务特征。另一方面,替代数据与传统征信系统采集的数据相比是非标准化的,不同地区、不同信息主体,用以分析和刻画其信用状况的替代数据可能不尽相同,甚至在不同的时期也会有所不同。比如,对于东部地区的小微企业、个体工商户与西部地区的小微企业和个体工商户,其替代数据的采集范围、具体内容、评价方法等可能就有比较大的差异。
即便如此,替代数据仍然是结构化数据,仍然是真实准确、具有相关性的数据,因而也要强调“最少、必要”原则,仍然需要强调其合理的边界。这些替代数据在可追溯、可核查和可纠正方面与传统数据类似,但不像主流征信数据那样具有全国一致的标准和通用性,针对不同的评价对象而有所不同(如针对不同地区、不同类型的小微企业和个体工商户),相应地,其相关数据库结构、相应的算法模型和评价方法等也会有差异。显然,这样的工作交给地方或者行业协会更为合适,但解决数据采集、使用以及增值服务的法律授权和合规问题也显得非常重要。一方面,地方政府及其部门(包括一些基础设施、公共设施的营运机构)所掌握的涉及信息主体的各类相关信息,在多大程度上可被用作信用评价的替代数据并获得采集对象的授权?在考虑尊重和保护信息主体个人隐私或商业秘密方面,是否也存在必要的边界和明确的界定?另一方面,相关利益主体除了地方政府外,还涉及提供模型、算法的科技公司或第三方咨询组织,从事系统开发、运维和增值服务的相关机构等,究竟由谁来提供最终的征信服务,进行信用评价和出具信用报告,其运行和业务模式具体怎么开展,如何确保其公信力,如何获得数据使用的授权,是否需要必要的准入和持牌管理?等等。这些问题需要管理部门尽早着手研究,明确监督管理规则,解决好基于征信目的的数据采集和使用的合法性问题。
第三个层级:大数据征信服务
一些互联网平台公司通过运用基于一定场景的“大数据”,对相关信息主体进行“精准画像”,作出信用评价。这个“大数据”包括该信息主体平时的上网浏览和搜索记录、网上消费和相关网络支付数据、工作场所和经常光顾的商业场所轨迹以及根据网络数据推测出的收入、财产支出等数据。在这方面,我们并不陌生,像京东白条、美团生意贷等都与此有关。总体看,这也是一种信用评价模式,是传统征信业的有益补充。而且,与主流征信和替代征信主要采集使用信用强相关的信息相比,大数据征信的信息采集和使用具有截然不同的特征。
第一,在形态上多数不属于结构化数据。基于互联网、被广泛采集用以“客户画像”的大数据往往基于各种互联网生态和场景,如消费记录、浏览痕迹、交通行程、社交轨迹、心理测量和相关行为选择等,个体差异非常大,相当部分属于文本数据、图像数据、传感数据、卫星定位数据等非结构化数据。这些信息不像结构化数据那样,可以用简单清晰、标准化的二维数据表格来体现和存储,且其数据量级要远远超过传统信用信息和替代信用信息,是真正意义上的“大数据”,相应地其采集、处理、算法和模型上与传统数据和替代数据相比也有非常大的差别。
第二,没有那么强的相关性和可解释性。上述大数据信息中包含大量的过程记录,更多属于过程数据而非结果数据,还包含大量相关分析、推测和评价类信息,很难说这些信息具有充分的客观性、真实性和准确性。因此,一方面,确认这些信息、数据与被采集对象的信用状况存在理论上的严格相关性比较困难,其关系往往并不是我们熟悉的大数定律、正态分布所能解释的,可能在统计上相关性并不显著,也不能给出明确的置信区间,但它仍然可以做到“精准画像”,并通过实践发现其在很大程度上是可信的。另一方面,在信息和数据的呈现方面,大数据分析及其结果很难像主流征信和替代数据征信那样简洁地向用户作出展示并进行解释。对于有些数据及其运用,用户可能难以理解,也不一定认可系统作出的部分推测、评估信息,甚至无法对他不认可或认为有误的信息及数据提出申辩、复核和更正要求。
第三,不太容易有效提升标准化和透明度。既然大数据采集的信息主要基于互联网生态和场景,大部分属于非结构化数据,与采集对象信用状况的直接相关性和可解释性不是那么强,所以实践中很难对这些数据的范围、采集乃至处理进行标准化规范。对采集对象的信用评价往往基于海量数据的综合运用、运算,这些数据的采集并非基于传统的相关性关系,因此很难说必须遵循“最少、必要”原则,在有些领域,甚至是相关非结构化数据越多越好。此外,对采集对象作出相对准确的信用评价,除了数据本身,还在很大程度上取决于数据治理、算法和模型。由于数据本身的非结构化、非标准化和弱相关性,不同互联网生态和场景的数据采集、存储、治理以及算法和模型可能都有非常大的差异。这种情况下,很难要求这些互联网平台完全公开其数据治理、算法和模型,并保持其透明度,一是没有标准;二是差异太大,缺乏可比性;三是相关性和可解释性不足、边界不清晰、界定困难;四是涉及用户隐私和企业核心竞争力有关的商业秘密。
有效监管大数据征信业务的基本原则
大数据征信以及相关平台的积极作用
首先,大数据征信是多层次征信市场体系的有益补充,可以竞争性地为市场主体提供信用评价服务,特别是针对缺乏传统信用数据或替代数据的长尾客户和小额高频场景。
其次,要明确和规范互联网平台采集和使用互联网场景大数据并进行信用评价的合法合规问题。一方面,要明确采集客户数据的规程、原则和运用范围;另一方面,要认可和尊重法律授权范围内的大数据采集和运用。总体而言,这些大数据是互联网平台公司基于一定商业模式、从特定商业场景中采集并进行加工处理的,互联网平台公司投入了大量资源,进行了深度的数据处理,构建了自己的算法、模型,最终为客户“画像”、提供信用评价,并在一定范围内为服务对象所认可。为此,还是要尊重这些企业投入的资源、付出的劳动、作出的贡献,特别是其中的数据治理、算法和模型等。数据治理、算法和模型很大程度上是互联网平台作为数据采集和加工机构为客户进行精准画像的“看家本领”,甚至可能是核心竞争力。同样的一堆大数据,即使是针对同一个信息主体,如果是产生于不同的互联网生态和场景,其数据含义、生命力和市场价值也可能大相径庭,不同的互联网平台根据其自身的数据治理和算法模型形成的信用评价结果往往也不尽一致。因此,单纯地要求进行数据共享或增加透明度,可能并没有那么突出的实际意义。
对大数据征信业务要强化监管
正确理解互联网大数据使用的合法性。总体看,大多数互联网平台基于一定的场景采集用户信息,在此过程中,通常通过与客户签订格式合同或相关协议的方式,获得客户的同意和授权。从这个意思上说,其数据采集乃至使用是有其合法性基础的,至少在采集和使用上获得了客户的授权。需要强调的是,单笔数据采集的授权和合法性并不能解释或推导出整体数据运用的合法性。经济学有个基本原理,叫“合成谬误(FallacyofComposition)”,每一个局部都是合理、理性和有效的,但加起来却成为谬误。简单来说,就是不能用局部的合理性解释整体的合理性。比如,金融市场由很多金融机构组成,单个金融机构的财务健康性不等于整个金融体系的健康性,即使每个金融机构的资产负债表都不错,都符合风控和监管要求,但并不能保证整个金融系统没有风险。因为金融市场、金融机构广泛连接,部分经营活动及资产估值等具有显著相关性和顺周期性,其行为往往具有非常强的相互传染性,因此在某个金融机构受到某种突发风险事件影响或者外部冲击时,有可能迅速扩展到整个金融系统从而引发系统性金融危机。同样,在互联网平台大数据采集和运用过程中,也存在类似的问题。在采集用户数据的过程中,即使逐笔获得了用户授权,具有合法性,但是当这些数据汇总起来,成为包含数千万、数亿甚至数十亿信息主体相关信息的超大型数据库时,就不能用单笔的合法性解决整体合法性问题。“合成谬误”这一基本原理告诉我们,逐笔合法采集的数据,当它汇总成超大型数据库时,单笔的合法性并不足以解释和推导出整体数据库使用的合法性。因为当这些逐笔采集的数据汇集成超大型数据库时,它在性质上就越来越具有公共品或准公共品属性了,不再仅仅呈现为私人财产权特征了,也不能再按照私人财产权属性的商品对它进行监督管理了。公共品或准公共品往往具有典型的外部性,这种外部性具有非排他性和非竞争性,不容易有效界定产权,容易产生搭便车和道德风险问题。因此公共品或准公共品一般无法由私人部门提供,而通常由政府或其他公共部门提供。
大数据的采集和处理在逻辑上恰恰和上述过程相反。一方面,互联网平台收集了信息主体的各类相关信息,具有越来越显著的公共社会性和系统重要性,其管理和应用可能具有广泛的社会影响,这意味着该超大型数据库本身就是一个公共品;另一方面,海量数据的采集、融合和大数据处理使得数据管理、运用产生了广泛的协同效应和网络外部性,产生了公共品所具有的典型正外部性,这种正外部性是附属于公共品的,应该为全体社会成员或者至少是所有被采集对象所共有。但技术发展特别是大数据、人工智能等技术的发展,传统上不太容易界定产权的公共品及其外部性已经越来越容易被清晰地界定产权。互联网平台正是通过巨量数据采集、处理,以及相关算法、算力和模型,将上述公共品私人部门化了,将上述正外部性内部化了,而且内部化为互联网平台公司的高额利润。
回到基本的经济学原理,解决这个问题的思路有两条。一条思路是不让它成为公共品,对数据采集规模和范围进行限制,这显然不现实;另一条思路是,承认其公共品属性,并按照公共品的基本原理和规则来管理。对于公共品,不太容易界定其外部性产权,因而一般由政府或其他公共部门提供。随着技术进步,有效界定公共品外部性产权的能力已越来越强,因此一些公共品由私人部门通过价格机制来提供也行得通。但同时也必须认识到,公共品一定有外部性,尤其是如果有显著的正外部性,这种正外部性应该是全社会的,不应该因为其是由私人部门提供的,就把这种属于全社会的正外部性内部化为私人部门的营收和利润。因此,如果允许私人部门提供公共品及其服务,必须要解决好私人部门提供公共品或准公共品的机制问题,并予以特殊管理。
第一,特许经营、持牌管理。因为大数据征信是公共品行业,具有较强的公共和社会属性,因此需要制定严格的准入条件,按特许行业要求企业持牌经营。对准入、业务开展、合规、风控等都有严格的监督管理要求,尤其要重点