如何应用大数据技术对上市企业进行审计
——以康美药业案例为例 陶盛皿 上海对外经贸大学 摘要:本论文针对社会热点康美药业财报造假事件后续,利用大数据分析和数据可视化技术对康美药业进行审计案例分析。从“存贷双高”的疑点出发,进行解构,从财务报表分析、A股股市分析、A股收益率量化分析,验证了康美药业审计怀疑的合理性,并建立重大审计风险的原假设。进而,提出两种利用大数据技术的审计新思路,分别对财务报表所得税部分进行机器学习算法建模和对康美股市进行时间序列分析。综上,得出在重大方面合理性保证的审计准则的逻辑下,认为大数据技术对上市企业审计具有指导意义,能为审计人员提供新思路。 关键词:康美药业;大数据审计;数据可视化;财务报表数据挖掘;A股时间序列分析 一、引言 (一)研究缘起、综述与本文创新 2021年11月,康美药业财报造假一案迎来后续,从2018年立案到一审宣判整个过程经历了近三年,终于于2021年10月至11月间尘埃落定,广东省佛山市中级人民法院对康美药业原董事长、总经理马兴田等12人操纵证券市场案公开宣判。 针对此事件的研究,本人首先爬取了在此事件后续三个月内的微博指数进行爬虫,并对数据进行可视化。从以上可视化后的数据可以明显看出,社会对于该案件的关注度高,故认为该案件具有时效性和研究价值。 图 1 康美药业后续三个月内微博指数爬虫 此外,基于对审计工作开展的了解,审计人员在开展审计工作是需要审计海量的、公开披露的财务数据和外部数据,并通过一定内部和外部性证据分别对审计考量因素,即完整性、存在性、准确性、估值合理性、权重正确性、表达披露进行审计举证,根据审计证据和结果提出舞弊风险的评估和判定。审计人员需要在被审计单位重大方面,即包括“关联方交易“、“业务质量控制“、“分析程序“、”财务报表“、“资产评估“等方面,提出合理性保证。 通过文献阅读,学者李莫愁对审计失败和审计准则的关系提供了理论性研究,得出:“审计证据”和“函证”两个审计准则在审计失败案例中触犯的频率大于其他审计准则[1]。吴勇等学者提出将数据挖掘技术应用于财务报表舞弊审计,以便指导审计人员面对海量财务数据、更加高效地开展审计活动[2]。本人继承上述指导性思路,结合自身数据科学与大数据技术的专业性知识和商科背景,应用爬虫技术、数据挖掘与机器学习算法建模对康美药业公开披露的财务数据进行分析,并通过时间序列数据分析康美药业A股股市数据,利用大数据技术为审计人员的审计工作提出新的视角,具有一定指导意义。 (二)康美药业背景介绍 康美药业股份有限公司(A股股票代码:600518)于1997年成立,于2001年3月在上海证券交易所上市。康美药业正赶上并得益于我国振兴中医药事业战略,是我国中药产业链龙头企业,主要生产和销售中医药产品。康美药业综合了“大健康+大平台+大数据+大服务”, 是一家现代化的中医药企业。并且,其全国市场规模超过60%,根据企业官网简介,其企业文化是“经营有界、突出主业”,自身定位为具有完备中医药产业链、高规范、高经营能力的标杆龙头企业。 (三)财报造假一案背景介绍 2018年金融市场风云,A股投资者经历了熊市,并且此次熊市下跌程度使得投资者始料不及,因而损失异常惨重。于2019年1月至3月,A股股票市场却迎来了一波强势反弹,市场向好趋势使得大多数投资者认为即将迎来牛市。然而,于2019年4月29日,康美药业披露年报显示,公司2018年营收193.56亿元,同比增长10.11%;实现净利润11.35亿,同比下滑47.20%,并且发布了更正公告,称有299亿的审计错报。2019年4月30日,康美药业开盘后跌停,市值475亿元,较其最高市值跌去了62%,“15康美债”临停,并且“康美债”信用等级由AAA下调至AA+,并被证监会列入信用评级观察名单。2019年5月17日,证监会公布了康美药业调查进展,并通报了康美药业财务重大造假的事实,即康美药业披露的2016至2018年财务年报存在重大虚假:一是康美药业使用虚假银行单据为自身虚增银行存款;二是康美药业通过使用虚假业务凭证为自身虚增主营业务收入;三是康美药业通过关联方交易,即将部分资金转入关联方账户交易康美药业自身股票,从而操纵股价。 二、案例分析 (一)审计风险:股债融资存贷双高 1.案例财务报表分析 康美药业财务数据最具质疑的地方就是其财务报表“存贷双高”的突出性问题,即存款余额、贷款余额双高。截止2018年,康美药业公开的财务半年报显示,货币资金余额为399亿元,同时有息负债(包括短期借款、长期借款、应付债券、其他负债等)高达347亿元,占净资产的比例分别为119%和104%。形成这种现象的原因是股债双融资[3]。根据康美药业IPO公开数据显示,首发融资为2.26亿元(数据来源Wind)。康美药业存贷双高的情况下,该企业仅仅依靠货币资金的存款就能徒增可观的利润。 2.案例A股股市分析 股票市场的经验累积普遍规律是:受投资者心理因素影响,即若存在上涨趋势,成交量与成交价呈现正向变动关系,因而随着股价上升,成交量亦上升。当成交价出现新高时,当前成交量会趋向大于上期成交量的峰值,并且当前期成交量迎来高点会迅速回落形成一个低点,但形成的成交量地点仍然会大于上期成交量低点。以上股票市场的经验规律已有相关学者利用机器学习技术对其进行挖掘,验证了其存在性和合理性[4]。 本人利用爬虫技术,爬取康美药业上市20年来的股票市场的时间序列数据,并且对时间序列数据进行数据预处理和数据清洗,并对数据的归一化和可视化消除了交易量和收盘价量纲和单位差异,可以通过数据可视化面板直接观察康美哟啊也收盘价和交易量时间序列数据的各自数据变化趋势以及两变量的相对变化趋势,并得出对于康美药业股票市场变化趋势的初步性、观察性结论,由此,审计人员可将康美药业列入可疑列表,为后续进一步提出审计风险做铺垫性程序。 图 2 *康美SH(600518) - 上市20年以来 - 归一化收盘价和成交量 首先,从成交量变化趋势观之。康美药业自上市以来成交量持续呈现下坡趋势,随后在2008年至2018年重大错报披露前后,成交量迎来明显波动性上升,此后康美药业A股成交量明显曲折下降,尤其是邻近2018年重大财务错报开始,成交量大幅跳水。其次,从康美药业收盘价观之。自康美药业上市以来至2008年前后,康美药业收盘价一路平稳,并始终保持在较低水平,在2008年前后和2018年重大错报前后迎来持续性波动性上升之后,并在2018年重大错报附近剧烈波动。最后,从成交量和收盘价相对变化趋势观之。2018年重大错报前后,康美药业股市成交量与收盘价的变化趋势与前述股票市场普遍规律明显相悖,加上时间序列数据可视化观察到的显著性波动的初步结论,由此,审计人员可以提出对康美药业具有重大审计风险的怀疑。 3.A股收益率分析 利用收益率基本计算公式: 对时间序列数据利用Python代码进行简单矩阵运算,代码如下: Import pandas as pd Import numpy as np Km = pd.read_csv(‘600518.csv’, index_col =0, parse_date=True) Km = Km.resample(‘y’).mean() Km.drop(column_names, axis = 1, inplace = True) Rv=pd.DataFrame((Km.iloc[:-1].values-Km.iloc[1:].values)/Km.iloc[:-1].values) 并且对运算后的结果,即康美药业上市20年来A股市场收益率和平均收盘价进行初步可视化。可以观察出康美药业股市年末收益率和年末平均收盘价之间存在异常:康美药业自2001年上市三年,平均收盘价突出,并且2001年年末平均收盘价位于峰值水平,此后平均收盘价下滑,但2001年年末收益率却一般,并不是收益率峰值。2005年年末至2016年年末处于平均收盘价相对低谷期,并且期间年末收益率多数为负,年末平均收盘价和年末收益率双低,符合基本趋势认知逻辑。而2018年重大错报前后,年末收益率虽然处于上涨状态,但远远不及上市三年的年末平均收盘价峰值,却在年末收益率上迎来显著峰值,两变量趋势相反违背基本认知逻辑。由此,A股收益率分析可以指导审计人员对康美药业收益方面提出具有合理性的审计怀疑。 表1 康美药业年末平均收益率 图3 康美药业年末平均收益率瀑布图 将上述图3中年末收益率进一步用瀑布图形式可视化,从中观察得知:康美药业公开披露财报造假之时,即2018年前后,康美药业年末收益率变化率为71.80%和51.79%显著为正,甚至高于首次公开募股上市三年内的收益率高峰44.61%的峰值。而在2004年至2017年年间,康美药业年末收益率持续显著下降使得收益率的变化率显著为负,而康美药业却于2018年年末迎来71.8%异常收益反弹,令人匪夷所思。 综合前述康美药业财务报表中“存贷双高”的疑点和康美药业A股股市数据量化分析,验证了审计人员能对康美药业提出重大审计风险的怀疑的合理性,并由此建立康美药业具有重大审计风险的原假设。 (二)审计创新:财务数据错报 1.康美药业财务报表“所得税”科目计算 建模思路来源于,王加灿学者通过以2010—2012年沪深主板A股3894家上市公司数据作为样本数据集,运用OLS与分位数回归对上市企业内部控制审计与其年报及时性进行实证研究[5]。故本人继承其利用回归模型建模的思路,利用爬虫技术,爬取东方财富网沪深A股2400家上市企业三大财务报表,即资产负债表、利润表和现金流量表,经过数据整合、数据清洗、数据预处理、特征筛选等步骤,并且框定对应康美药业财报造假时间范围的数据,即2016年年末至2018年年末的财务报表数据,将3大财务报表中总计342个变量,剔除多重共线性,故选取与为“所得税(万元)”相关系数排列前20个的变量,作为模型特征,即变量。建立了决策树回归模型、梯度提升回归模型、适应提升回归模型、人工神经网络回归,共计4个回归模型,并对回归算法模型准确率和性能进行对比,得到人工神经网络回归算法准确性最高为98.40%。故本文选取人工神经网络回归模型进行以下财报数据分析。 表2 算法建模准确率与性能对比 表3 预测数据与公开披露数据对比 “少缴税倍率”均在90%以上,故根据此数据结论,审计人员可以对康美药业“所得税”科目提出审计风险怀疑,即康美药业少缴税的审计风险存在的合理性。故可首先将康美药业列入具有“所得税”疑点企业范围,康美药业是否真实存在偷漏所得税的问题,还需专业审计人员根据其他内部、外部证据进一步分析和查证,本方法只是为审计人员从“所得税”角度,提供一种通过大数据技术和算法建模辅助提出康美药业的财务报表重大错报审计怀疑的指导性思路。 (三)审计创新:康美药业A股时间序列波动性验证 通过加权移动平均时间序列数据方法,并将加权移动平均后的数据进行可视化(变量数据均已进行归一化处理,目的在于消除各变量间量纲和单位的差异性),并且对差分后的时间序列数据进行了单位根检验。加权平均移动时间序列数据后,从可视化结果直接观察,可以直观得出此时的时间序列数据经过加权平均移动之后依旧非稳定序列,并在2018年重大错报前后尤其显著。 图4 20年加权移动平均时序图 进而继续进行一阶差分单位根检验(ADF)[6]。该检验的原假设为:序列数据具有单位根,即序列数据非平稳的前提下,时间序列数据会存在伪回归现象。对于平稳且不存在单位根的经济面板数据,需要在给定的单位根检验的置信水平上显著,从而拒绝原假设,认为此时的序列数据不存在单位根。以下为检验结果表明,单位根检验p值等于0.18,说明不能拒绝单位根的原假设。 表4 单位根检验 预测经济系统(或其相关变量)的走势的核心逻辑是:根据随机变量的历史截面数据和时效性数据来预测未来走势[7]。能够进行预测的前提假设是:假设随机变量时间序列数据是具有代表性或具有可延续性,(显然自康美药业上市20年内,总计5000多条的有效数据是对于每天(每个时间点)的代表性数据,并且是离散型数据,随机变量独立性亦成立),因而能否预测的关键在于时间序列数据是否具有能够可延续的惯性(即可延续性)[8]。否则,预测结果无效。若时间序列数据自身具有平稳性,则可以推广到未来,即预判其均值、方差、协方差必定与当前的样本时间序列等同,使得预测有效。 货币资金亦是审计风险控制至关重要的板块,而货币资金在筹资与投资循环方面有密不可分关系[9]。因此,在本案例提出从一家上市企业的股票市场的时间序列数据的数据分析,从侧面为该企业货币资金是否正常循环提供间接证明。由此可以指导审计人员提出货币资金重大风险的存在的合理性。此外,当从被审计单位内部、被审计单位外部获得到审计证据不足以验证审计重大风险怀疑时,或是被审计单位对子公司或者关联方发询证函后,函证得到的结果依旧无法获得相应审计证据举证时,又或是对企业背景调查、股权变更等方面也无法获得相应审计证据时,上市公司的股市情况能为审计工作提供一定支撑(根据注册会计师准则,审计工作是在重大方面提供合理性保证)[10]。 三、结论 康美药业案例的出发点在于其公开披露的财务报表存在“存贷双高”的突出性问题,该问题能够使得该企业在具有巨大有息负债的前提下,通过货币资金的存款利息来获取可观利润,故由此亦能提出对货币资金方面的审计风险怀疑。接着,通过康美药业自上市二十年的成交量和收盘价(已归一化,目的在于消除量纲和单位的差异)的时间序列数据可视化,观察得出:2017年至2019年成交量与收盘价变化趋势与一般经验相悖。进而,就该疑点对康美药业20年年终平均收益率的计算,并进而利用瀑布图可视化,得出:在2014年至2017年收益率是持续下降,2018年收益率增加率激增形成异常峰值。即审计人员可以初步判定该上市企业A股股票市场数据波动存在异常。结合康美药业“存贷双高”的存在性和认为康美药业股票市场数据波动存在异常的合理性,建立原假设:康美药业存在重大审计风险。在此原假设建立的前提下,需要对该原假设进行验证。本文为审计人员提供两种创新性思路,一是利用爬虫技术爬取上市企业三大财务报表(资产负债表、利润表、现金流量表)和利用机器学习算法建模来计算分析企业“所得税“”科目,通过设计“少缴税率”指标来评估康美药业财报风险;二是对康美药业A股时间序列数据波动性的验证,利用时间序列分析方法进行加权平均移动并计算单位根的P值,来判定康美药业股票市场是否存在异常波动,从康美药业股票市场波动间接为货币资金风险怀疑提供支撑。因此,在审计准则指导的逻辑下,即注册会计师的准则是在被审计单位重大方面提供合理性保证,本文认为大数据技术对上市企业3大财务报表(资产负债表、利润表、现金流量表)和上市企业股票市场方面的时间序列数据分析具有指导意义,能为审计人员提出审计新思路,并且提供额外的审计怀疑间接性证据。 参考文献: [1]李莫愁.审计准则与审计失败——基于中国证监会历年行政处罚公告的分析[J].审计与经济研究,2017,32(02):56-65. [2]吴勇,何长添,方君,张超.基于大数据挖掘分析的财务报表舞弊审计[J].财会月刊,2021(03):90-98. [3]王峥钰,曾天羿.上市公司财务造假浅析——基于康美药业财务造假案的思考[J].现代营销(经营版),2019(09):178-179. [4]张杨,宋恒.基于聚类技术的股市基本趋势规律挖掘[J].数理统计与管理,2006(04):469-475. [5]王加灿.上市公司内部控制审计与年报及时性——基于OLS与分位数回归的证据[J].审计与经济研究,2015,30(03):58-68. [6]张雯雯.货币政策对我国居民消费的影响研究——基于2001—2018年的时间序列数据[J].哈尔滨学院学报,2021,42(11):27-30. [7]贾澎涛,何华灿,刘丽,孙涛.时间序列数据挖掘综述[J].计算机应用研究,2007(11):15-18+29. [8]慕春棣,tsinghua.edu.cn,戴剑彬,叶俊.用于数据挖掘的贝叶斯网络[J].软件学报,2000(05):660-666. [9]王金龙.货币资金审计风险关键控制点分析[J].财会通讯,2013(07):79-81. [10]李红英.注册会计师审计失败的审计责任界定分析[J].财会通讯,2021(07):122-125. |