TAG标签 | 网站地图 现代商业杂志社-国内统一刊号:CN11-5392/F,国际标准刊号:ISSN1673-5889,全国中文流通经济类核心期刊
热门搜索:目录 小微企业 发展现状 影响因素 发展路径 上市公司 创新 商业银行 应用 国有企业

全国流通经济

当前位置:主页 > 全国流通经济 >

基于特征组合的快消品销量环境因素的研究

2025-07-01 16:43 来源:www.xdsyzzs.com 发布:全国流通经济 阅读:

覃宜霜  陶雯  贾建双  陈杰  覃琼慧

(广西中烟工业有限责任公司广西 南宁 530000)

摘要:沃顿商学院·大卫贝尔教授的核心观点——“消费者行为与其消费环境息息相关”。本文基于外部兴趣点(Point of InterestPOI)数据和城市路网数据划定的商圈,研究了快速消费品产品在商圈中的销量与商圈内兴趣点环境特征之间的关系,挖掘出目标产品的优势商圈环境,结论可应用于快消品市场投放策略的精准优化、零售终端运维对象智能筛选等方面。本研究创新性探索了高稀疏度特征矩阵在非线性模型中特征重要度的指标和在线性模型中处理多重共线性的方法,对其他应用的归因分析也具有借鉴意义。

关键词: 商圈环境画像;稀疏特征;LightGBM;特征重要度;多重共线性;线性回归  

一、引言

随着消费行业的快速发展,关于快速消费产品销量影响因素的研究受到高度重视[1],主要基于快消品行业内数据进行研究,赵传良[2]等以湖北省宜昌市某一快消品销售量为研究对象,利用2010年至2011年的月度时序数据建立了快消品销量影响因素关系的结构向量自回归(Structural Vector AutoregressionSVAR)模型,利用脉冲响应函数和方差分解技术分析因素的影响大小与销量的变化规律。

近年来,越来越多学者研究时尝试引入宏观经济变量、人均GDP、年龄结构等行业外因素,但这些研究对象集中在产品整体销量的影响因素。刘忠华等[3]以云南省某一快消品商业系统销量为研究对象,利用2008年至2018年的数据,构建基于主成分分析(Principal Components AnalysisPCA)和多元线性回归(Multivariable Linear RegressionMLR)的统计模型,定量分析云南省地区生产总值、社会消费品零售总额、居民可支配收入、人口、单箱销售收入和税利等因素对快消品销量的影响,为云南省快消品经济调控提供决策依据。石涛等[4]基于2006年至2015年中国31个地区的省级面板数据,利用空间面板模型分析了经济环境、消费者特征、政策等某一快消品消费环境因素对该快消品的销量影响。

在快速消费品行业理性消费、增长低迷的背景下,如何做好重点产品的培育至关重要[5],而挖掘出影响产品销量的外部环境因素可以实现以需求拉动销售,为培育好产品赋能。

为解决上述问题,本研究在外部兴趣点(Point of InterestPOI)数据和城市路网数据划定商圈的基础上,构建基于行业内外部数据的算法模型,首先通过非线性方法寻找有效环境特征,再通过特征拆分、组合等方式找到与销量相关的线性特征,并利用线性回归模型进行有效性验证,挖掘出与目标产品销售线性相关性强的环境因素,进而实现数据驱动产品销售。

综上所述,本研究的主要贡献如下:

1.首次提出研究快消品产品销量与商圈环境之间的关系;

2.本研究创新性探索了高稀疏度特征矩阵在非线性模型中特征重要度的指标和在线性模型中处理多重共线性的方法,对其他应用的归因分析也具有借鉴意义。

二、所提方法

1.数据来源

本文数据主要分为三个部分:外部环境数据、产品销量数据以及商圈数据。具体如下:

1外部环境数据

①兴趣点(POI)数据

兴趣点(POI),共有⼤类、中类、⼩类三级分类,其中⼀级分类有23个,⼆级分类有267个,三级分类有869个。一级分类包括:购物服务、餐饮服务、公司企业、体育休闲服务、科教文化服务、医疗保健服务、风景名胜、商务住宅、交通设施服务、地名地址信息、公共设施等23个大类。二级、三级分类则是将一级分类中的类别进行更加详细地划分。

②消费能力数据

反映消费者消费能力的餐饮服务类客单价、商务住宅类的房屋价格、租房价格、写字楼租赁价格、购物服务类的人均消费等数据。

2产品销量数据

某产品一段时间内的总销量根据某市的快消品产品销售数据,计算各零售店一段时间内订购某产品的总量数据。

3商圈数据

   商圈描述基于高德地图的POI集中度、相似度数据和城市路网图层数据划定的商圈,可以有效地将每个生活消费区域进行划分。从划分结果看,商圈的平均面积为0.97km2,标准差为0.62km2,市区区域商圈的平均面积为0.71km2。本文以商圈为单位,挖掘商圈内POI的种类、数量、密度、价格等因素与商圈内某产品的销量之间的关系。

2.有效环境特征

1环境特征数据

计算每个商圈内各级POI(⼤类、中类、⼩类)的个数、占比、密度。

2特征重要度指标

集成梯度提升树模型可以有效找到线性特征及高阶非线性特征组合与目标变量的关系,因此可以用来对特征进行筛选[6]。本文使用LightGBM集成模型[7]进行特征筛选,由于大部分特征的稀疏度很高,因此在计算特征重要性时,本文采用特征分裂平均信息增益Gain和特征分裂次数Cover标准化后加权求和作为重要性的判断标准,计算流程如下,其中sum()为求和函数,std()为标准化函数,TopN()是选择排名前N的函数:

特征重要度指标

这种方法筛选的top10top20top30个特征训练的模型的均方根误差(Root Mean Square ErrorRMSE)的结果如图1所示,由图可知:Gain的权重(Weight)在[0.4, 0.6]Cover的权重在[0.6, 0.4]区间时,二者加权作为特征重要性指标筛选的特征,回归指标RMSE表现更好。在非稀疏特征矩阵的情况下,GainCover指标大致呈现正比关系,两者区别不明显,但是稀疏特征矩阵中少数相对稠密特征的存在就会使得两个指标出现严重的偏离。因此,使用加权的方式既可以避免少量相对稠密特征由于分裂次数多导致的排名靠前,又能避免某些相对稀疏特征由于分裂次数少导致的排名靠后。

图1  不同权重筛选的特征与评价指标RMSE的关系

1  不同权重筛选的特征与评价指标RMSE的关系 

本文使用加权指标从3477个特征中筛选出300个供后续使用,稀疏度从0.91下降到0.62

3特征组合

由于集成梯度提升树模型筛选出的特征与目标变量之间可能存在线性或非线性关系,因此可以对特征进行分解再组合,以寻找具有线性可解释性的特征[8]。本文结合现有特征维度多、稀疏性高的特点,以具有良好解释性为前提,手动对稠密连续特征(房屋单价)进行了特征分箱操作,对稀疏特征进行了随机组合求和操作(线性组合),并对分箱特征与随机组合求和特征进行特征交叉,得到特征集合[9]

3.线性回归方程拟合及检验

1特征集合的筛选

首先,用皮尔逊相关系数对特征集合进行初步筛选,选出线性相关性较高的Top200个组合特征,使用的线性相关系数阈值为0.148。然后,用Lasso回归模型[10]对数据进行初步拟合,逐渐增大值进行正则系数调参。由于特征间线性相关性较高,标准化回归系数趋于稳定的过程较慢,波动较大,最终选取=0.09作为正则系数。Lasso回归具有很好地筛选线性可解释特征的能力[11],尤其是在特征维度很大时,可以得到优良解,此过程筛选出137个特征,部分结果如表1所示。在这137个特征中方差膨胀因子(Variance Inflation FactorVIF)值大于10的有2个,VIF值大于5的有8个,原因是Lasso回归会大幅降低多重共线性,但没有进行严格的多重共线性指标限制。因此,接下来利用逐步回归法继续处理多重共线性问题,以寻找具有高置信度的线性可解释特征。

1  某产品部分有效的特征及组合特征

表1  某产品部分有效的特征及组合特征

2逐步回归

将选择出的137个特征进行逐步回归,设定自变量可以引入的回归方程F统计量检验阈值ain=0.05,自变量需要剔除的回归方程F统计量检验阈值aout=0.1

逐步回归法[12]的每一步都需要考虑以下4种情况,直到没有符合条件的变量加入模型为止。

如果某个变量不在模型中的变量加入模型后F统计量有最小的P值且P<=ain,并且满足容差准则,则将该变量加入模型中。

如果某个变量不在模型中的变量加入模型后F统计量的P>=aout,则此变量需要剔除。

如果模型中有2个及以上变量,则当消去某个变量后得到的R2值比先前同样数目的变量得到的R2要大的时候,具有最小t统计量值的变量将被消去。

如果模型中有2个及以上变量,其中1个与不在模型中的某变量交换,如果R2增大,则进行交换操作。

需要说明的是,回归方程在增加自变量时,模型调整的R2的增加与模型F统计量对应P值的减小是等价的,模型调整的R2的减少与其中某自变量的t统计量的减小是等价的[13]

逐步回归其中一步的中间结果如表2所示,非标准化系数BetaB)是特征未进行标准化时的回归系数,标准系数是特征数据标准化后回归的结果,t代表特征显著性统计量,Sig.代表t统计量的P值。

2  某产品逐步回归的中间结果示例

表2  某产品逐步回归的中间结果示例

3多重共线性检验

逐步回归的结果,保证了自变量的显著性,也严格降低了自变量之间的多重共线性[14]。由于数据本身具有较高的稀疏度,这会导致特征之间的线性相关性偏大,因此为了保证回归系数的可靠解释性,应该对多重共线性的容差指标做相应调整。

本文通过筛选数据集,得到不同稀疏度的子数据集,分别进行逐步回归,每个子数据集选出标准化系数绝对值的前10个特征,并记录每个特征的容差值,稀疏度与容差值均值的关系如图2所示。

图2  特征矩阵稀疏度与逐步回归模型特征容差均值的关系

2  特征矩阵稀疏度与逐步回归模型特征容差均值的关系

2中的3条曲线的趋势显示了稀疏度较高的数据集得到的回归模型容差值较小,即特征的VIF值较大,因此要得到可靠解释性的特征权重,应使容差阈值提高。一般认为容差值小于0.1时存在严重多重共线性谱[15],更严格的标准是0.2,本文为了在稀疏数据集上得到可靠的可解释权重,结合逐步回归的结果,将此标准提高到0.35,最终得到线性回归的结果,如表3所示。

3  线性回归的部分结果

表3  线性回归的部分结果

上述回归结果显示,某500元零售价位产品的销量与餐饮相关场所、医疗服务、便利店、地市级政府及事业单位等具有显著的线性正相关关系,与咖啡厅、一般景点、学校有显著的线性负相关关系。

三、研究结论

1.稀疏特征矩阵的特征重要度判断

本文通过改进标准化加权求和方法,优化了集成梯度提升树模型中特征重要度的评估指标。该改进后的指标更适用于稀疏特征的特征重要性判定。

2.稀疏特征矩阵的多重共线性指标

本文验证了特征矩阵的稀疏度与回归模型自变量容差值之间存在负相关关系。因此,为了从稀疏特征中选出具有高可信度的可解释线性特征,需要提高线性回归方程中容差值的标准。为此,本文将容差阈值提高至0.35,从而获得了具有可靠解释性的特征权重。

3.线性可解释特征,形成产品消费环境画像

线性可解释特征有助于直观地理解自变量与因变量的变化关系,本研究找出产品销量与商圈环境的关系,挖掘出目标产品的强势环境因子,形成精准的消费环境画像(表4),这些结论可以应用于产品市场投放策略的精准优化、市场营销活动精准投放、零售终端运维对象智能筛选等方面。

4   某产品消费环境画像

表4   某产品消费环境画像

四、总结

本研究基于外部兴趣点(POI)数据和城市路网数据,探讨了商圈环境特征与快消品产品销量之间的关系,提出了基于环境因素精准优化市场投放策略的可能性。通过采用LightGBM集成模型[4]和线性回归方法,深入分析了不同商圈内的POI种类、数量、密度等特征,以及消费者的消费能力与产品销量之间的相关性。研究结果表明,商圈的环境特征,尤其是餐饮服务、便利店、超市等商圈内的服务设施,与目标产品的销量呈现显著的正相关关系,而咖啡厅、学校等某些特征则显示出负相关性。

本文的创新之处在于提出了一种改进的特征重要度评估方法,能够有效处理高稀疏度特征矩阵中的特征重要性判断问题。此外,针对特征之间的多重共线性问题,研究通过逐步回归法对特征进行筛选,并调整了容差值标准,以确保回归结果的可靠性和解释性。通过这种方法,研究成功地挖掘出具有高可解释性的环境特征,并形成了具体的产品消费环境画像。

最后,本研究为快消品行业提供了一种数据驱动的销售优化方案,能够帮助企业通过精准识别与产品销量高度相关的商圈环境特征,制定更具针对性的市场投放策略,提升市场营销活动的效果,并支持零售终端的智能运维决策。这一研究方法和结果不仅在快消品行业具有重要应用价值,也为其他行业的销售预测和市场分析提供了有益的借鉴。

参考文献:

[1]张龙.快消品行业营销策略的思考[J].投资与合作,2024(5):178-180.

[2]赵传良,李亮.基于SVAR模型的卷烟销量影响因素分析——以湖北省宜昌市为例[J].全国流通经济,2016(17):6-9.

[3]刘忠华.云南省烟草商业系统卷烟销量影响因素分析[J].统计学与应用,2021,10(5):779-781.

[4]石涛,肖洪.基于空间面板模型的卷烟销量影响因素分析[J].中国烟草学报, 2017,23(6):8.

[5]李子晨.中国快消品市场适应温和增长新态势[N].国际商报,2024-07-02(002).

[6]H. Liu, H. sand Motoda. Feature extraction, construction and selection: A data mining perspective. Springer Science & Business Media[J].Vol. 453

[7]刘禹含,曹萃文.基于LightGBM的催化重整装置产品预测及操作优化相关性分析[J].石油学报(石油加工),2020,36(4):756-766.

[8]魏宗舒,施锡铨,林举干译.统计学[[M]].北京:中国统计出版社,1997.

[9]兰美辉,范全润,高炜.本体稀疏矩阵学习以及在相似度计算中的应用[J].西南大学学报(自然科学版),2020,42(1):118-123.

[10]L. Meier, S. Van De Geer, and P. Bühlmann. The group lasso for logistic regression. Journal of the Royal Statistical Society[J]: Series B (Statistical Methodology) 70, 1 (2008), 53–71.

[11]Yuanfei Luo, Mengshuo Wang, etc.AutoCross: Automatic Feature Crossing for Tabular Data in Real-World Applications.[KDD’19][C], August 4–8,2019,Anchorage,AK,USA.

[12]王静龙,梁小筠,李宝慧译,应用线性回归[M].北京:中国统计出版社,1998.

[13]郑华,罗亮.“数值分析”课程中稀疏矩阵理论的教学策略[J].韶关学院学报,2020,41(6):90-93.

[14]叶博嘉,鲍序,刘博,等.基于机器学习的航空器进近飞行时间预测[J].航空学报,2020,41(10):359-370.

[15]Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., ... & Liu, T. Y. Lightgbm: A highly efficient gradient boosting decision tree, In Advances in neural information processing systems[J].2017,pp. 3146-3154.

栏目设置
推荐内容
相关内容
发表评论