近期,中国资本市场50人论坛推出大型抗疫系列公益直播。
第四十五期嘉宾:董常凌,毕马威中国信息技术风险和鉴证服务主管合伙人、毕马威北方区IT咨询主管合伙人。
Version:1.0 StartHTML:000000380 EndHTML:000722573 StartFragment:000654958 EndFragment:000722495 StartSelection:000655077 EndSelection:000722485 SourceURL:https://mp.weixin.qq.com/s?__biz=MzIwMjkzNDQwMw==&mid=2247484786&idx=1&sn=0a3be78bfe9c52ebbc601b67afd064e6&chksm=96d6549ea1a1dd881b191ad69701f87ced1c06e120490018926760d13edf98c7196cc653de1f&token=1154278986&lang=zh_CN
以下内容节选自直播实录:
本文内容主要分为三部分:
1、互联网业绩造假演变的两大阶段
2、如何有针对性的开展互联网企业IT尽职调查?
3、五大平台的系统IT尽调和IT核查关注的重点
互联网业绩造假演变的两大阶段
第一个阶段,后台直接修改数据。
初级阶段,直接修改后台的数据库。直接在后台编造、伪造系统数据或者系统日志,快速提升核心业务指标数据。其特点是完全没有业务支撑,在没有任何实际业务开展的情况下,完全通过IT手段在数据库中虚构交易数据。在过去遇到过一些连锁餐饮企业,通过直接在后台修改每一家门店的下单量,修改翻台率,修改单个菜品的价格来满足投资人的估值要求。这就是在后台直接伪造数据,特点就是完全没有业务的支撑,只要我们进行一些相关维度的关联分析,都能够有希望把这些问题识别出来。
第二个阶段,线上、线下相结合的全链条伪造数据。
随着数据造假“产业链”的逐步成熟及舞弊行为反排查手段的“日臻完美”,互联网企业逐渐开始通过人工或及其模拟用户行为的方式,在业绩端进行业绩“注水”,就是从交易的发起端开始业绩的“注水”。这些伪造的交易从前端发起,真实存在,只是这些交易并非来自真正客户的需求。这就是互联网刷单造假的第二个阶段。
将第一阶段和第二阶段整合在一起,我们把它分成了6种常见的造假手段。很多企业都是将多种造假模式和方式同步在一起使用,使得我们在反舞弊、反造假的情况下遇到的困难越来越大。
1
第一种,后台直接伪造数据。
在后台数据库伪造用户的账号,伪造交易数据,达到虚增营业目标的目的。
2
第二种,机器模拟用户行为。
通常使用机器人伪造正常用户进行用户的登陆、或购买订单,冲高活跃路、GMV等数据,形成虚假繁荣。在直播业态和游戏业态里最为常见。因为这两种业态都需要维护日活、月活,用户数活跃度,同时还要维护它的充值、留存率等相关指标的活跃度。因此在这样的平台上就会出现所谓用机器人模拟用户行为刷单或者造假。
以视频直播平台为例,一个直播间有上万个人同时在线。到底有多少真实的用户呢?至少要除以100,如果有1万个人的视频直播间,可能真实用户只有100个。如果你进入一个直播间,在线用户显示只有100人或者几百人的情况,我们恭喜你,你就是这个直播间里面VIP,这个主播正在给你提供1对1的VIP服务。随着这个行业的不断规范,以及监管力度加强,视频直播公司上市之后,再去看同样一个直播平台,大部分聊天室在线用户只有几十人或者一百人,这种在线人数是比较真实的。
再就是游戏,里面会有机器人模拟游戏的充值,甚至模拟道具的消耗。为什么呢?因为在游戏里面一个很重要的环节就是充值,充值之后要在财务表确认收入,还需要消耗道具。
3
第三种,雇佣水军批量刷单。
工会里面或者QQ群里面有一些职业刷单。在出租屋里面,一个人可以同时操纵50台甚至100台iPhone进行职业刷单。职业刷单相对来说在我们核查过程中难度更大一些,因为刷单整个过程链条都是比较完整的。
4
第四种,利用爬虫技术。
利用爬虫技术或者互联网抄袭技术直接去竞争对手抄袭文章,抄袭评论,抄袭留言,从而引导用户发生购买行为。这种事件可能在去年、前年都在市场上爆出过,不同的O2O平台之间互相抄袭评论,抄袭文章。
5
第五种,线上线下的造假结合。
这里面主要是通过电商平台和物流公司合作,生成假的物流单据完成整个线上交易链条的虚假交易。如果平台化在后台直接生成假的交易订单,我们只要核实每个交易订单的物流确认信息,很容易把这个系统自动生成交易生态、系统伪造的订单识别出来。
后面针对核查手段,市场上就应运而生了这种空包裹公司。他们可以提供什么服务呢?假的物流单据编号,空包裹公司提供的网站,都可以查到详尽物流的流动信息,收单、入库、转运、收货各个流程。假的空包裹公司都能查到相应的信息,对我们数据核查带来新的挑战。
6
第六种,“羊毛党”造假。
“羊毛党”造假是最难被识别的,而且它在真实用户需求和虚假用户需求之间还是一个灰色地带,不容易判别。平台对“羊毛党”以获取优惠券或者积分目的进行的刷单行为,放松管制,甚至鼓励引导,来虚增平台的流量和订单数据。这种平台化的“羊毛党”造假属于相对比较灰色地带。这些刷单属于真实的用户需求吗?这就要区分不同的情况。
如何有针对性的开展互联网企业IT尽职调查呢?
第一个步骤,要了解目标公司的运营特点,根据它的运营特点设计验证方案。
第二个步骤,了解运营公司的业务模式、系统和数据架构。
第三个步骤,检查基础数据的可用性。
第四个步骤,进行基础数据清洗。
这样使得在做数据尽调和IT核查过程当中,不再依赖于管理层提供的加工之后的财务和业绩数据,而是独立访问目标公司的系统、数据库底层数据,自己进行数据系统的清洗、加工和汇总。通过这个步骤,基本上可以把大量系统后台直接刷单和人为数据造假的模式全部识别出来。
在进行数据加工和清洗的基础之上,完成核心指标的反舞弊场景分析,反舞弊场景分析。我们会利用大数据建模、客户画像等非传统的尽调手段,实现反舞弊场景的设计和反舞弊场景的识别。
什么叫以大数据分析和客户画像实现所谓的反舞弊识别呢?也就是说,在大数据、客户画像情况下建模的时候,不预先设参数,而是通过数据建模,先把所有交易订单、所有用户行为放在数据建模模型里进行模型自动识别,模型会把具有相同消费行为、相同订单特定的订单和用户,自动进行画像和数据集群。通过系统模型建模的方式,把这些客户自动分群和画像,可以抽象出不同交易的特点,以及抽象出不同人群的特点。
通过这些建模和画像,就会把一些有共同行为模式、共同交易特征的用户和订单聚类在一起。如果某一类用户聚集以后,这个用户群的用户数量特别少,但是跟这个用户群所关联的交易订单的数量却特别大,那么这个用户群就会是一个高风险的用户群。这个用户群下一步就会分析,它的行为模式有可能是机器人的行为模式,有可能是刷单工会的行为模式,有可能“羊毛党”行为模式,但是都不符合正常的、一般普通用户的行为模式。
五大平台的系统IT尽调和IT核查关注的重点
互联网电商平台
互联网电商平台通过运营模式分为综合类平台(像淘宝、天猫);自产自销类平台(自有品牌,自有工厂、电商网站);自采自销(小红书、京东,自己采购产品在平台上销售)。影响这些电商平台的核心指标有三个:GMV、MAU、DAU。这三个核心指标是它的估值影响最大的指标,同时也是互联网平台业绩造假核心操纵的三个指标。
针对操纵这三件事情,常见的方式就是雇佣水军刷单,各种工会、QQ群、微信群。每个工会少则操纵几千个线下刷手,多则操纵数十万线下的刷手。刷单,刷评论、刷评价、刷热点,都是雇佣水军刷手。再就是线上线下结合造假,配合空包裹物流公司,甚至还发展到不是空包裹,而是真实包裹的发送,同时还会有线下真实包裹集中回收服务。再就是机器人模拟刷单、机器人模拟评论,引导客户购买的行为。
针对刚才说的互联网电商刷单的风险,我们怎么样通过IT尽调和数据核查的方式识别呢?我们给大家介绍一个最核心的观念,就是你可以操纵一个指标,但是你不能操纵这个企业所有的指标。你可以操纵这个指标一时,但你不能永久的操纵一个指标。为什么呢?因为在互联网电商平台上,你造假的时候,想把每个指标调整成天衣无缝,导致造假成本越来越高,最后会超出你所能承受的水平。这里我们把电商平台核查数据类型分成8大类12小类。
8大类数据
1、用户数据,用户注册登陆、用户年龄、性别,购买习惯等用户数据。
2、商家数据,在平台上开了多少商户,每个商户卖什么产品,平均每个商户的销售额、回款情况。
3、商品数据,平台上销售哪些商品,这些商品大概多少钱,平均商品周转周期是什么,这些商品销售到什么样的地区,都是什么人来的商品数据。
4、订单数据,每一笔订单数据又会把前面的用户数据、商家数据、商品数据都关联起来就是订单数据,订单数据肯定要包括用户、商家商品的信息。
5、支付数据,支付数据和订单数据完成一一对应,每笔订单都要有支付数据。
6、浏览数据,就是用户在登陆商家的时候,不同的商品之间浏览的数据。
7、活动数据,平台上一些推广活动、折扣活动、营销活动的数据。
8、公共数据,包括评论、论坛公共数据,以及我们平台的互联网耗费流量,平台租用的服务器数,后台监控CPU的流量。
整个IT尽调和数据核查都围绕8大类数据的相互关联反舞弊、反侦查。
大量的电商平台刷单的时候都是刷订单,我们做核查的时候如果发现在某一个平台,它的订单量在短时期内有一个激增,而用户注册数、活跃用户数有没有相应的增加,它的用户数据和订单交易数据匹配不上,就是因为它通过线下的工会组织刷手,操纵有限的账户情况下大量下订单。
正常来说,如果一个平台交易量发生了50%到70%的增长,平台上开商店的商户数也会增加。订单量的增加和商户数的增加是什么关系呢?在过去历史数据里面,可以通过建模计算出他们的相关系数。这个时候就会发现,大量的造假现象是用户数造上去了,订单数造上去了,但是平台商户并没有增加。
结合我们的特点,8大类数据,我们逐一进行核查分析、相关分析,基本上能把大量的舞弊行为识别出来。
我们做了8大类指标,多维度交叉分析之后,还可以做反舞弊场景的测试。反舞弊场景就包括交易时间的合理性,交易金额的合理性,买家、卖家产品集中度测试,物流地址和区域集中度合理性分析。每一个订单都有真实的物流,都能查到。这时候他们怎么造假呢?假设空包裹物流地址都是通过机器自动生成的物流地址,它写的物流地址的模式通过数据建模很容易识别出来。
同时,对于电商平台,我们还可以进行进销存一致性分析。在网上搞了一系列造假,实际物流库存变化,进项、进货、原材料进项变化是不是和你的销项变化能够保持一致。这些也是在我们反舞弊场景里面可以进行分析的。
O2O平台
O2O平台就是共享经济,包括平台类的单车,打车。影响这类企业估值的是GMV、MAU、DAU和获客成本,或用户留存率。O2O平台跟电商平台最大的区别或者特点就是O2O平台会有GPS信息,这是相对于一般的电商平台的一个特点。
我们过去在做某个单车核查的时候,怎么去核实这几百万辆单车是真实投放到城市的呢?我们不可能一个一个单车去数,而且当时这家单车的电子锁和车是分开的。如何保证100万辆自行车的同时,真的有100万个锁。或者即使有100万辆车和100万锁,这些车和锁是否真实的投放到地铁口和小区口呢?在这种O2O平台里面,我们重要的核查手段相对电商平台,就是要核查它的GPS信息,分析这些自行车骑行轨迹的时间、聚集度和骑行的分杈,来确保这些骑行数据的真实性。
总体来讲,O2O平台和电商大体是类似的。
游戏和娱乐行业
游戏和娱乐行业,包括直播,很重要的就是自充行为,这是我们整个核查的核心。到底有多少真实的用户,有多少是重客,有多少是普通用户?用户的真实性是我们整个游戏娱乐行业里面核查的一个非常重要的重点。
跟电商类似,我们把游戏和娱乐行业的数据也分成了几大类,这几类数据之间相互是有关联的。第一是注册用户数;第二是活跃用户数;第三是付费用户数;第四是付费渗透率。然后是ARPU值,充值流水,虚拟货币的消耗,虚拟货币的获得,这些指标相互之间也是相互影响、相互联系的。
举一个例子。游戏里面活跃用户,在后台直接通过机器人注册,生成很多注册用户,这个没问题。但是机器人注册这些用户怎么能成为活跃用户呢?机器人可以在系统里面玩游戏,但是机器人怎么付费充值呢?你的付费充值流水怎么办?这一条就走不动了。走不动以后,我们说通过找工会,找职业刷手,让他们去注册。他们注册完以后,让他们去充值。
这样造假也是层层递进的,刚开始就是机器人注册,在直播间里面刷,基本上就是一些程序没什么成本。但是这样跟交易流水、充值流水对不上,很容易就识别出来。下一步增加的造假成本就是找工会的人注册,注册完以后,我们分析工会的人注册IP地址,手机SDK都很集中,发现好像也不太行。然后再多找几个大工会,操纵十万以上的大工会注册,每个刷手掌握100台iPhone,他们怎么去付费呢?光是注册用户不是付费用户,就会下一步延伸有些大量的所谓刷手在里面进行小额充值。小额充值之后,因为他是刷手,不光在游戏里面刷,还去电商里面刷,他们职业是刷,不是玩游戏。他们刷了付费以后并不会去玩,不会消耗道具,又会被我们识别出来。下一步他们就要求这些人去消耗道具,之后我们又进行模式识别。这些人从充值到消耗道具花了多长时间,这个就不一样了,如果他是完成任务,充值之后立刻就把道具消耗完。正常的人充值之后,道具消耗是有一个时间点,按照不同的年龄段,不同游戏类型的消耗是不同模式的。
同时,我们还可以分析,充值消耗道具之后,是不是真的有在线玩这个游戏呢?真实用户,平均消费多少,消耗多少道具,在线玩多长时间,这都可以通过系统建模分析出来的。但是这些刷手完成任务注册、充值、消耗道具之后,他并不会真正花时间去玩儿,这个就会在我们多维度指标分析里面识别出来。
除了这种刷手之外,还有一些重客。就是说有些单个用户较短时间集中消耗虚拟货币,而且在游戏内活跃度较低,这种情况就是游戏公司内部员工进行刷单。也会有一些用户短期内大量充值,但同时不去消耗的,这些都是我们在游戏核查里面比较容易识别出来的问题。同时结合游戏的一个特点,即游戏的受众区别很大,成长养成类游戏、司机类游戏,或者王者荣耀的游戏,不同的年龄段在游戏里边消费特性是不一样的。包括充值的行为,消耗道具的行为,在线时间,这些都是不一样的。我们可以通过游戏的特点,对游戏进行模式的分析,同时把游戏里面充值人通过数据建模画像。如果通过数据建模画像出来游戏里面充值用户的特点,跟这个游戏的特点不匹配,我们也会觉得这样游戏的充值行为是有风险的。
大家可能会问自充的钱怎么出去的?其中一种方式,通过广告费、营销费用的支出,体外循环进入收入端。这个相对来说是比较容易被发现的方式。因为这种方式特别常见,大家核查的时候,都对手续费、佣金包括广告费支出特别关注。现在很多公司都发展到通过投资并购的方式把钱体外循环,这使得我们看到很多公司可能规模不是很大,也不是多元化经营发展的思路,但是他们作为小股东去投资很多企业。为什么呢?他们通过这种投资行为把这些钱转到体外去,再通过各种各样的形式再刷回收入端。
互金行业
互金行业主要的造假就是两个方向,一是资产端和负债端造假。也就是说它围绕支撑这个平台的活跃度吸引用户,在平台上没有这么多人出去借钱给别人时,平台就自己把钱伪装成普通用户,借给别人。或者平台上有很多人想借钱,但是没有这么多人来借,平台自己就伪装成用户把这些钱借下来。这就是平台自己充当资产端和负债端同时,把这个平台的借据量冲上去。
二是影响平台的风控能力,怎么样反映这个平台的风控能力呢?就是它的不良率。平台也可以通过后台数据的操纵和方式方法,去影响操纵它的不良率。第一是展期,本来是3个月到期,系统后台自动批量把3个月转成6个月展期,或者批准后台直接删除欠款记录。这种模式通过全量数据核查也是比较容易被发现,因为它在后台有操作日志。
第二是平台批量造假和催收公司合作,影响不良率。和催收公司合作,他们和银行卡中心也很类似,银行卡中心也有降低不良率的要求,清收指标,这样他们会有一笔所谓的清收费用给到清收公司帮你清收。清收完了以后要达到不良率的降低或者不良借据回收率指标,有些清收公司为了节省时间,根本不去催收,直接从催收费用里面拿出一部分钱直接把小金额的欠款帮你还了,就把不良率降下来了。
教育行业
第一个操纵的数据就是真实的注册充值的用户。到底有多少个真正充值在线教学的学生?第二个是消课率,充值只是应收账款,并不能产生收入,它必须由学生在线平台上消课以后才能确认收入。整个平台都是围绕充值用户数和消课记录两个指标进行操纵的。
我们分析它到底有哪些数据,几类数据相互之间关联关系,进行多维度的交叉分析,都能够很好的识别出来。我们把教育行业主要的指标可以进行关联分析,包括在线课程数,新增用户数,活跃用户数,付费用户数,用户听课时长,用户点击课程次数,付费金额,直播讲师在线时长。这几类数据同时操纵几乎是不可能的。同时再配合我们反舞弊场景测试,单个用户短时间内重复购买相同的课程,单个用户大额购买课程,单个设备识别和关联多个用户ID,用户购买课程度使用率很低,这些都是做互联网在线教育里面核查里面反舞弊的场景。
同时,我们还要结合目标公司推广的时间轴,叠加因素进行模式的分析。最关键的点还是他们的消课。我们在过去帮投资人看过很多互联网企业,他们都是在消课这一点上做文章。他们大量消课记录是虚假的,有时候他们系统里面后台直接模拟生成很多用户登录听课记录,他以虚拟用户登录和消课记录作为确认收入的证据,大量确认收入。为什么他们有这个动能呢?或者动力呢?他们为了充实IPO,对它的收入有要求,如果长期充值只是挂在预收账款上,这些人迟迟不去把课程听了,没办法转成收入,它就需要冲消课。