新媒体营销赋能的文旅热度实证分析 —— 以哈尔滨市为例 摘要 新媒体营销通过其互动性、 定向性和传播性, 为城市文旅营销提供了新平台, 扩大了信息传播的深度和广度 。 本文以哈尔滨为例,通过 搜索指数时序预测 和 微 博评论文本挖掘 来评估新媒体营销策略对文旅热度的驱动作用, 为其他城市提供 营销建议。 第一部分,首先通过网络爬虫获取了哈尔滨搜索指数数据,并进行包括异常 值处理、重采样和对数变换等 数据预处理 ;接着,通过 ACF 函数 挖掘数据的季节 性特点,采用 乘法时间序列分解 方法对其进行分解;然后,结合分解后的趋势曲 线和新媒体营销背景,利用新媒体营销前的 季节性和非季节性数据 训练 SARIMAX 模型, 得到模型参数 (p,d,q )=(2,0,2) , (P,D,Q,S)=(3,0,1,52) ,进而预测未受 新媒体营销影响的搜索指数;最后,通过 假设检验 分析新媒体营销对城市文旅热 度发展的效用, 得出新媒体营销 显著 驱动城市文旅热度发展的结论 。 第二部分, 首先获取了微博话题评论和情感三分类数据集, 并对其进行分词、 去除停用词等 文本预处理; 接着,使用 TF - IDF 模型 提取关键主题词,并通过 词 共现网络 进行 主题分析 , 挖掘出了使得哈尔滨文旅热度提升的因素 , 如服务态度 等 ; 然 后 , 对 情 感 分 类 数 据 集 进 行 了 重 采 样 确 保 样 本 均 衡 , 并 构 建 基 于 Attention - BiLSTM 的情感分析模型 ,将该情感分析模型应用到爬取的评论数据 集中得到积极、消极和中立的占比为 0.5867:0.2583:0.155 , 侧面证实新媒体文 旅营销能增加正面口碑的积极作用 ;最后,分析了“积极”和“消极”两类情感 的评论内容,得出 新媒体文旅营销存在热度持续时间短等问题。 基于以上工作, 本文 总结了哈尔滨火爆出圈的原因: 合理运用新媒体营销策 略、市场定位精准 ,并为 其他城市文旅 . . . . . . 提出了三点建议:充分利用新媒体营销技 术、营销策略应精准且多样化、文旅应以游客体验为中心 ,旨在促进城市合理运 用新媒体营销, 推动文旅产业的长期可持续发展, 实现地方文旅经济的持续增长。 关键词:新媒体营销;城市文旅热度; SARIMAX 预测;文本分析 目录 摘要 ................................ .......................... I 表格与插图清单 ................................ ............... IV 一、 引言 ................................ ..................... 1 (一) 研究背景与意义 ................................ ........ 1 (二) 国内外研究现状 ................................ ........ 1 (三) 报告内容与组织结构 ................................ .... 3 二、 思路分析与数据来源 ................................ ....... 4 (一) 思路分析 ................................ .............. 4 (二) 数据来源与数据展示 ................................ .... 5 三、 基于 SARIMAX 模型的 “ 新媒体营销 ” 效用分析 .................. 6 (一) 搜索指数数据预处理 ................................ .... 6 (二) SARIMAX 模型的建立与求解 .............................. 8 1. 基于 ACF 的时间序列分解与数据集划分 ....................... 8 2. 基于 SARIMAX 模型的搜索指数预测 .......................... 10 (三) 模型的结果分析与检验 ................................ 15 1. 描述性结果分析 ................................ .......... 15 2. 基于假设检验的结论分析验证 .............................. 15 四、 针对 “ 哈尔滨文旅回应火爆出圈 ” 话题的文本评价分析 ......... 16 (一) 文本数据清洗与可视化展示 ............................. 16 (二) 基于词共现网络的评论主题分析 ......................... 17 1. TF - IDF 词权重计算模型的建立与求解 ........................ 18 2. 词共现网络的构建与主题分析 .............................. 19 (三) 基于 Attention - BiLSTM 的情感分析模型 .................. 21 1. 基于中文预训练模型的分词处理 ............................ 21 2. Attention - BiLSTM 模型的构建 .............................. 22 3. 模型的求解与结果分析 ................................ .... 24 五、 结论与建议 ................................ .............. 26 (一) 结论 ................................ ................ 26 (二) 建议 ................................ ................ 27 参考文献 ................................ ..................... 28 附录 ................................ ......................... 29 致谢 ................................ ......................... 31 表格与插图清单 表 1 哈尔滨评论文本数据部分样例 ................................ 5 表 2 情感分析数据集部分样例 ................................ .... 6 表 3 哈尔滨搜索指数异常值处理及插值处理部分结果 ................ 7 表 4 哈尔滨搜索指数重采样过程示例 .............................. 7 表 5 哈尔滨搜索指数对数化部分示例 .............................. 8 表 6 ADF 检验表 ................................ ............... 11 表 7 白噪声检验 ................................ ............... 11 表 8 不同 P 值下的 AIC 值 ................................ ....... 13 表 9 SARIMAX 预测数据 ................................ ......... 14 表 10 χ 2 计算表 ................................ ................ 16 表 11 前 30 个关键词与 TF - IDF 值对应表 .......................... 19 表 12 分词结果样例 ................................ ............ 22 表 13 积极评论与消极评论样例 ................................ .. 25 图 1 问题研究流程图 ................................ ............ 4 图 2 2020 年 - 2024 年哈尔滨搜索指数分布图 ........................ 5 图 3 哈尔滨搜索指数箱线图 ................................ ...... 6 图 4 数据预处理前后哈尔滨搜索指数对比图 ........................ 7 图 5 搜索指数自相关函数图 ................................ ...... 8 图 6 时间序列分解图 ................................ ............ 9 图 7 AIC 与 BIC 值热力图 ................................ ....... 12 图 8 自相关图与偏自相关图 ................................ ..... 13 图 9 模型评估图 ................................ ............... 14 图 10 搜索指数预测值与观测值对比图 ............................ 15 图 11 评论词云图 ................................ .............. 17 图 12 词共现网络图 ................................ ............ 20 图 13 分词后各评论词汇数柱状图 ................................ 21 图 14 Attention - BiLSTM 模型架构 ............................... 22 图 15 模型准确率与损失率曲线 ................................ .. 24 图 16 哈尔滨评论情感分布饼状图 ................................ 25 1 新媒体营销赋能的文旅热度实证分析 —— 以哈尔滨市为例 一、 引言 (一)研究背景与意义 新媒体营销是指利用互联网和社交媒体等数字平台来推广品牌、 产品或服务, 特点在于互动性强、覆盖范围广、成本较低。在 文旅宣 传中,新媒体营销通过创 造吸引人的内容、 促进用户参与和分享, 有效提升城市文旅的热度进而吸引游客。 新媒体技术的快速发展,为城市文旅营销带来新机遇和挑战。全球 40 亿社 交媒体用户为城市文旅营销提供了庞大潜在受众,特别是微博、小红书和抖音等 平台,成为推广城市文旅魅力的重要工具。在信息化时代,城市文旅行业面临激 烈市场竞争,新媒体崛起为塑造独特文旅品牌提供了新的营销策略。现代消费者 更倾向于在线搜索信息、参考评价、分享体验和参与讨论,形成了基于多元信息 和社交建议的高参与度决策环境,从而做出更明智、个性化的旅游选择。 哈尔滨,作为东北重要城市,凭借其独特地理和文化资源,在文旅营销中占 据重要地位。尤其是冬季的哈尔滨国际冰雪节,已成为全球知名旅游品牌。 2023 年, 哈尔滨接待游客 1.35 亿人次, 比 2019 年增长 41.4% ; 旅游总收入达 1692.45 亿元,同比增长 239.03% ,比 2019 年增长 7.4% 。在新媒体营销上,哈尔滨通过 创新策略, 如在微博、 微信、 抖音等平台发布冰雪节视频、 雪景照片及相关话题, 有效提升了城市知名度和吸引力,吸引了大量网友关注和分享 。 本文旨在通过考察民众对“哈尔滨文旅”话题的关注度变化,以及对微博 话题“哈尔滨文旅回应火爆出圈”的态度反应来探究新媒体营销是否对哈尔滨 文旅热度具有驱动作用。 (二)国内外研究现状 近年来,国内外学者对新媒体营销相关的研究大多停留在理论分析层面,疫 情放开后有部分学者从实证角度探究新媒体营销对文旅发展的影响。 岳曌等人在 《新媒体在文旅品牌营销中的应用研究》 ( 2024 )一文探讨新媒体在文旅品牌营 2 销中的应用,采用案例分析法,通过深入研究“抖出正能量”真实案例,总结新 媒体在文旅品牌营销中的应用模式和特点,以及对品牌传播和营销效果的影响。 研究结果表明,新媒体在文旅品牌营销中的应用模 式多样,包括打造“文旅 + ” 新媒体矩阵、深耕内容创新表达和积极培育网红等 [1] 。王胜源、王延强在《基 于 SOR 理论的文旅短视频宣传对用户冲动性旅游意愿的影响研究》 ( 2023 )一文 中,基于 SOR 理论将文旅短视频特征分为吸引力、娱乐性、创新性和权威性,并 构建了研究模型来探讨这些特征如何影响用户的冲动性旅游意愿。研究指出,文 旅短视频的吸引力、 娱乐性和创新性通过心流体验正向提升用户的旅游意愿 [2] 。 何玉静, 杨洁在 《河西走廊乡村旅游产品新媒体营销实证研究》 ( 2023 ) 一文中, 利用微信公众号的阅读数、在看数等八个指标计算 WCI 指数,评估传播影响力, 对河西走廊五市乡村旅游产品的新媒体营销进行了实证分析,并提出以下策略: 深挖文化内涵,提升宣传作品质量;创新宣传方式,构建多维传播矩阵;加强培 训以提升宣传人员技能;利用热点事件,结合线上线下进行营销 [3] 。 《 Impact of Short Video Marketing on Tourist Destination Perception in the Post - pandemic Era 》( 2023 )一文通过分析抖音上西游乐园主题公园短 视频的评论,进行了词频、语义和情感分析。研究揭示了短视频营销的不足,并 建议: (一) 提升短视频内容和质量; (二) 官方社交媒体账号应加强互动交流, 以提升旅游目的地感知 [8] 。《 Social Media and Influencer Marketing for Promoting Sustainable Tourism Destinations: The Instagram Case 》 ( 2023 ) 一文探讨了 Instagram 旅行影响者如何塑造用户对可持续旅游目的地的看法。 该 研究结合面板数据和多层次分析来检验假设, 并运用回归模型来确定地理位置数 据与选择可持续旅游目的地之间的联系。研究结果表明,旅游宣传正向影响用户 选择可持续旅游目的地 [9] 。 综上所述, 国内外学者主要采用如回归模型和假设检验等统计学方法分析新 媒体营销对城市文旅热度的影响。然而,现有研究多停留在理论层面,缺少对新 媒体营销效果的量化评估,如用统计模型量化营销效用。此外,关于新媒体营销 效用的研究普遍缺乏对特定地区或文旅产业的深入分析。 这种针对性不足导致研 究难以揭示新媒体营销在不同地区文旅产业中的差异化影 响, 从而无法从具体案 例中提炼出可供广泛地区参考的普遍规律和策略。 3 (三)报告内容与组织结构 1. 报告内容 ① 主要研究内容: 1 )基于搜索指数的新媒体营销热度效用分析 首先爬取针对 “哈尔滨旅游”的搜索指数数据;接着进行时间序列分解,利 用搜索指数数据训练 SARIMAX 模型,进而预测未受新媒体营销影响的搜索指数; 最后通过假设检验分析新媒体营销对城市文旅热度发展的效用。 2 )基于微博评论的主题分析和情感分析 首先爬取“哈尔滨文旅回应火爆出圈”微博话题下网民的评论,然后进行基 于词共现网络的主题分析和基于 Attention - BiLSTM 的情感分析,最后针对“积 极”和“消极”两类民众评论内容进行分析,挖掘新媒体文旅营销的潜在问题。 3 )总结与建议 分析所得的结论,为地方文旅局驱动当地文旅事业发展提供一些建议。 ② 创新之处: 1 )建立了 时序预测与假设检验相结合的统计模型 ,来量化并实证新媒体营 销的热度驱动效用; 2 )采用 主题分析和情感分析相结合 的方式来分析新媒体文旅营销策略以及 存在的问题,可供其他地区的研究提供参考,同时为地方文旅局驱动当地文旅 事业发展提供了改进方向。 2. 组织结构 第一章,交代选题背景,梳理国内外研究现状,确定本文的研究内容。 第二章,确定研究对象,完成数据的收集。数据包括百度搜索指数、微博 网民 对于哈尔滨火爆出圈话题的文本评论。 第三章,首先进行数据预处理;接着对搜索指数进行时序分解;然后利用 分解后数据训练 SARIMAX 模型,进而预测未受新媒体营销影响的搜索指数;最 后通过假设检验分析新媒体营销对城市文旅热度发展的效用。 第四章,首先进行文本预处理;接着,进行基于词共现网络的主题分析与 基于 Attention - BiLSTM 的情感分析模型,分析民众态度,从而实证新媒体营销 4 对于文旅的影响;然后,分析积极与消极评论,指出新媒体营销存在的不足。 第五章,总结结论与提出建议。 二、思路分析与数据来源 (一)思路分析 1. 评估新媒体营销对文旅热度的影响 首先,通过网络爬虫获取“哈尔滨旅游”的搜索指数,作为文旅热度的量化 指标;接着,使用新媒体营销前的数据训练 SARIMAX 模型,用该模型预测未受新 媒体营销影响的搜索指数;然后,通过假设检验比较预测值与实际值的差异,评 估新媒体营销对哈尔滨文旅热度的效应。 2. 从民众评论中挖掘哈尔滨新媒体营销的优点与不足 首先爬取“哈尔滨文旅回应火爆出圈”话题的微博评论;接着,构建词共现 网络进行主题分析, 挖掘哈尔滨文旅的营销策略; 然后, 利用 Attention - BiLSTM 情感分类模型,评估民众对于哈尔滨文旅使用新媒体营销策略的态度。 图 1 问题研究流程图 数据收集 哈尔滨百度搜索指数 微博话题评论 情感三分类数据集 数据预处理 文本预处理 文本预处理 新媒体 营销热度效用分析 微博话题主题分析与情感分析 基于 的数据季节性 定 词云图 基于时序分解的数据分布规律探索 基于分解后趋势曲线的数据划分 平 性和白噪声检验 使用 模型预测搜索指数 假设检验分析新媒体营销的热度效用 爬虫技术 二 数据 基于预训练模型的分 词与统一序列长度 基于 的 词权重分析 词共现网络 图 主题分析 词向量处理 基于 模型的情感分类 情感分析 分析哈尔滨文旅在新媒体营销 的 优点与不足 5 (二) 数据来源与数据展示 1. “ 哈尔滨文旅 ” 词条的搜索指数 反映城市文旅热度的指标有很多,如点赞量、评论数、搜索量和阅读量等。 百度搜索指数体现关键词被搜索的频率,其能显著反映了公众对信息的关注度, 同时,许多实证分析社会现象的学者都青睐使用“百度指数”作为数据来源。本 研究将使用“百度指数”作为数据来源,获取“哈尔滨文旅”关键词的全国搜索 指数,并运用 SARIMAX 模型来分析新媒体营销的效用。 爬取后的 数据结果如图 2 所示 。 图 2 2020 年 - 2024 年哈尔滨搜索指数分布图 2. “ 哈尔滨文旅回应火爆出圈 ” 话题的评论数据 微博具有用户量大、信息全面、信息迭代速度快等特点,因此,本文将通过 爬取微博评论数据,深入分析哈尔滨营销的成效及其影响。通过爬虫获取到话题 “哈尔滨文旅回应火爆出圈” 的 网民评论数据共 4786 条 , 部分数据 如表 1 所示 。 表 1 哈尔滨评论文本数据部分样例 日期 评论 01 - 03 打开微博天天热搜,真是没少宣传啊, 01 - 03 尔滨,你就宠吧!你让我感到陌生~ 01 - 03 冻梨摆盘了,黑马都长翅膀了,狐狸大仙开始接客了 6 3.DataFountain 举办的疫情期间网民情绪识别大赛中的数据集 考虑到爬取到的微博评论数据量少, 且人工标注情感类别存在不准确等问题。 本文采用该数据集来进行 辅助情感分析 的工作。该数据集具有权威性,其依据 230 个主题关键词进行数据采集,抓取了 10 万条数据 并进行过标注分为三类: 1 (积极), 0 (中性)和 - 1 (消极), 部分数据如表 2 所示 。 表 2 情感分析数据集部分样例 评论 情感倾向 新年的第一天感冒又发烧的也太 衰了但是我要想着明天一定会好的 1 开年大模型累到以为自己发烧了 - 1 新年第一天在发烧当中过去了 0 三、基于 SARIMAX 模型的“新媒体营销”效用分析 (一) 搜索指数数据预处理 1. 异常值处理 在本研究中, 异常值的存在可能对模型预测的准确性和可靠性造成显著影响。 因此,本文采取 箱线图法 来识别并处理这些异常值。 通过 箱线图 如图 3 所示 ,共 识别出 87 个异常值 。在移除这些异常数据 后,采用 三次样条插值法 来补全数据集,结果 如表 3 所示 ,其展示了异常数据点 及其通插值计算后得到的值。 图 3 哈尔滨搜索指数箱线图 7 表 3 哈尔滨搜索指数异常值处理及插值处理部分结果 时间 异常的原始指数 插值后的指数 2020 - 04 - 16 32403 13622 2020 - 04 - 17 25023 1532 5 2023 - 08 - 03 13288 1059 6 2023 - 08 - 04 12426 1077 6 2024 - 01 - 03 26935 15469 2024 - 01 - 04 36303 16712 2. 重采样 为降低随机日常波动的影响,本文对原始数据集进行了重采样来平滑数 据,以一周为间隔,计算搜索指数平均值,重采样过程 如表 4 所示 。 表 4 哈尔滨搜索指数重采样过程示例 经上述预处理后得到了搜索指数对比图, 如图 4 所示。 图 4 数据预处理前后哈尔滨搜索指数对比图 3. 对数变换 搜索指数数据的非线性特征和数值波动可能影响模型的 定性和预测准确 性,故本文选择对其进行 预处理 。文献 [7] 表明 对数变换能够降低预测的均方误 差, 提高非平 时间序列数据的预测准确率。因此本文采用 对数变换 来平滑数据 日期 搜索指数 2020 - 01 - 01 7848 2020 - 01 - 02 10000 2020 - 01 - 03 9940 2020 - 01 - 04 7899 2020 - 01 - 05 10063 2020 - 01 - 06 11257 2020 - 01 - 07 11489 日期 搜索指数 2020 - 01 - 01 9785 8 中极端值的影响,提高模型预测的准确性。 对数变换处理后结果如表 5 所示 。 表 5 哈尔滨搜索指数对数化部分示例 日期 搜索指数 对数化 2020 - 01 - 01 9785 9.179 2020 - 01 - 08 9170 9.122 2020 - 01 - 15 8275 9.019 2020 - 01 - 22 8667 9.061 (二) SARIMAX 模型的建立与求解 1. 基于 ACF 的时间序列分解与数据集划分 通过对图 4 的曲线趋势进行分析,本文采用自相关函数 (ACF) 进行 搜索指数 的周期 定 , 然后通过乘法时间序列分解来分离时间序列的总体趋势和周期规律。 ① 数据的自相关性分析 自相关性通过计算搜索指数在不同滞后阶 之间的相关系数来衡量其在不 同时间点之间值的相关性。自相关系数的计算公式如下: 𝜌 𝑘 = 𝐶𝑜𝑣 ( 𝑋 𝑡 , 𝑋 𝑡 − 𝑘 ) 𝑉𝑎𝑟 ( 𝑋 𝑡 ) ( 1 ) 𝑋 𝑡 表示搜索指数数据在时间 t 的值, 𝑋 𝑡 − 𝑘 是在时间 t 滞后 k 期的值。 本文将搜索指数经 ACF 计算后的值 成了 ACF 图, 如图 5 所示 。 图 5 搜索指数自相关函数图 9 由图 5 可知 ,在滞后数为 0 处,自相关系数为 1 ,因为时间序列与自身在 同一时间的相关性始终为 1 ;观察到在之后的滞后阶 中,自相关系数正负交 替出现, 表明数据具有一定的周期性 。 ② 乘法时间序列分解 为进一步探究搜索指数数据的波动性, 本文采用 乘法时间序列分解法 来分离 搜索指数,以得出趋势、季节性规律以及噪声。原理如下: 假定时间序列是由趋势、季节性和噪声这三个组成部分相乘得到,公式如 下: 𝑌 𝑡 = 𝑇 𝑡 𝑆 𝑡 𝐸 𝑡 ( 2 ) 其中, 𝑌 𝑡 为观测值, 𝑇 𝑡 表示趋势成分, 𝑆 𝑡 表示季节性成分, 𝐸 𝑡 表示噪声。 时 间序列分解后的结果 如图 6 所示 。 图 6 时间序列分解图 10 对于季节性序列: 搜索指数呈现出显著的季节性波动特征,表明季节变化 对搜索指数具有重要影响。 对于噪声序列: 噪声序列的波动整体趋势平 。这表明在去除了长期趋势和 季节性因素后,搜索指数的随机波动部分相对 定,未受异常事件的显著影响。 对于趋势图: 搜索指数在 2020 年 7 月疫情爆发后下降,但在 2022 年中期疫 情缓解后回升,并在 2023 年初上升,尤其在 6 月至 7 月期间显著增长。这一增 长与哈尔滨夏季旅游的新媒体营销活动“百日行动”时间相吻合,表明新媒体营 销策略可能正面提升了文旅热度。 基于以上分析 ,本文选择将数据集划分为 新媒体营销前的数据( 2020 - 2022 年末)和新媒体营销后的数据( 2023 - 2024 年) 两个部分,通过新媒体营销前的 季节性和非季节性数据来 预测未受新媒体营销影响的搜索指数 。 2. 基于 SARIMAX 模型的搜索指数预测 为更好的对搜索指数数据进行预测, 本文旨在构建一种能够捕捉季节性变化、 长期趋势及外生变量影响的模型。 季节性自回归积分滑动平均模型 ( SARIMAX )通过整合季节性波动、长期趋 势和外部影响,能更精确捕捉时间序列的季节性并考虑外部变量,从而提高预测 准确性。其公式如下: ( 1 − ∑ 𝜙 𝑖 𝑝 𝑖 = 1 𝐿 𝑖 ) ( 1 − 𝐿 ) 𝑑 ( 1 − ∑ 𝛷 𝑗 𝑃 𝑗 = 1 𝐿 𝑠 ) 𝑆 𝑡 = ( 1 + ∑ 𝜃 𝐿 𝑖 𝑞 𝑖 = 1 ) ( 1 + 𝐿 ) 𝐷 𝑎 𝑡 + ∑ 𝑍 𝑖 , 𝑡 𝑚 𝑖 = 1 ( 3 ) 其中, 𝑆 𝑡 是时间点 t 的观测值; L 是滞后算子,且 𝐿 𝑖 𝑆 𝑡 = 𝑆 𝑡 − 𝑖 ; 𝜙 𝑖 , 𝛷 𝑖 是自回 归项的系数; p 和 P 分别是非季节性和季节性自回归项的个数; d 和 D 分别是非 季节性和季节性的差分次数; 𝑎 𝑡 是白噪声序列; 𝜃 𝑖 是移动平均项的系数; q 是季 移动平均项的个数; 𝑍 𝑖 , 𝑡 是外部变量的影响,其中 m 是外部变量的数量; s 是季节 性周期的长度。 ① 平 性检验 本文采用 ADF 检验数据平 性来验证模型有效性,其原假设为非平 。若 11 ADF 统计量显著且 p 值小于 0.05 ,则认为序列平 。 检验结果如表 6 所示 。 表 6 ADF 检验表 变量 差分阶数 t P AIC 临界值 1% 5% 10% 搜索指数 0 - 6.516 7.115e - 7 - 207.567 - 3.462 - 2.876 - 2.574 由表 6 看出: 1 )预处理后的数据无需差分即可达到最佳效果。 2 ) 对数变换后的搜索指数数据的 ADF 统计量为 - 5.6721 , 显著低于 1% 、 5% 和 10% 的临界值,证实了数据的统计特性在时间上具有一致性。 p 值( 0.0000 )远低 于 0.05 的显著性水平,可以 确定对数变换后的搜索指数数据是平 的 。 ② 白噪声检验 LB 检验用来检验 m 阶滞后范围内序列是否为白噪声。其原假设为序列是白 噪声序列, LB 统计量公式如下: 𝐿𝐵 = 𝑛 ( 𝑛 + 2 ) ∑ ( 𝜌 ̂ 𝑘 2 𝑛 − 𝑘 ) 𝑚 𝑘 = 1 ∼ 𝜒 2 ( 𝑚 ) ( 4 ) 其中, n 为观测期数, m 为延迟期数。若 LB 统计量小于在特定显著性水平下 的卡方分布的临界值,因此可以认为序列为非白噪声序列,可以继续拟合模型。 本文对数据预处理后的序列进行白噪声检验, 结果如表 7 所示 ,得到的 p 值 均小于 0.05 ,故可以认为 当前序列是平 非白噪声序列 。 表 7 白噪声检验 延迟 5 阶 延迟 13 阶 延迟 52 阶 X - squared 245 257 337 P - value 6.8e - 51 2.3e - 47 1.5e - 42 ③ 定阶 SARIMAX 模型的参数由非季节性参数 ( p , d , q ) 和季节性参数 ( P , D , Q , S ) 组成。 12 1 )非季节性参数 p , d , q 的定阶 根据表 4 中 ADF 检验的结果 ,对数变换后的数据未经差分就已平 ,故本文 确定 d=0 。在确定 SARIMAX 模型中非季节性自回归( AR )和移动平均( MA )部分 的参数 p 和 q 时,本文选取赤池信息准则( AIC )和贝叶斯信息准则( BIC )作为 参考标准。 AIC 和 BIC 作为衡量统计模型拟合优良性的两种标准,其公式如下: 其中, k 为模型参数个数, n 为样本数量, L 为似然函数, kln(n) 为惩罚项, 用于平衡模型的拟合优度和模型复杂度来选择最佳模型。本文选择同时最小化 AIC 、 BIC 值来确定 p 、 q 。 为更直观的确定参数取值,本文 了热力图 如图 7 所示 。通过对比不同参 数取值, ARMA(2 , 2) 模型在所有考虑的配置中具有最低的 AIC 和 BIC 值。故 选取 p=2 , q=2 。 图 7 AIC 与 BIC 值热力图 2 )季节性参数 P , D , Q , S 的定阶 𝐴𝐼𝐶 = 2 𝑘 − 2 ln ( 𝐿 ) ( 5 ) 𝐵𝐼𝐶 = 𝑘𝑙𝑛 ( 𝑛 ) − 2 ln ( 𝐿 ) ( 6 ) 13 本文使用时序分解后的季节性数据进行 ADF 检验,计算得到 p 值为 0.005 , 小于显著性水平 0.05 ,展现出良好的平 性, 故 D=0 。 通过 观察图 6 中的季节性分解图 ,发现季节性周期为一年,而经重采样后的 数据为周数据, 故 S=52 。 在确定 SARIMAX 模型的季节性移动平均项的阶数 Q 时,本文 了季节性成 分的时间序列自相关( ACF )图和偏自相关( PACF )图 如图 8 所示 。观察到 ACF 图 呈现出显著的二阶拖尾现象,表明序列可能存在季节自相关性, P 值的选取可能 与二阶滞后相关,而 PACF 图呈现出显著的一阶截尾特征,且一阶滞后就迅速下 降到 0 ,因此,选取 Q=1 。 图 8 自相关图与偏自相关图 接下来从 1 至 4 遍历 P 值, AIC 值 如表 8 所示 。通过比较 AIC 值,确定最 优的参数 P=3 。 表 8 不同 P 值下的 AIC 值 P AIC 值 1 251.1373 2 250.8986 3 250.8985 4 250.8986 通过以上步骤 ,本文确定最优的 SARIMAX 模型参数是 (p, d, q)(P, D, Q, S): ((2, 0, 2), (3, 0, 1, 52)) 。 14 ④ 模型评估与预测 图 9 模型评估图 首先对残差序列时序图进行分析,发现其表现出 良好的 定性 ,没有随时间 出现显著波动。此外,残差序列的分布特性 符合正态分布的假设 ,进一步验证了 模型的拟合效果。 从残差的 ACF 图可以看出其基本 不存在自相关性 , 这表明残差 序列符合白噪声序列的特征。 这些观察结果共同表明, 所选用的 SARIMAX 模型在当前数据集上已经实现了 最优拟合 ,从而可以认为 该模型是可靠 的。 本文利用训练好的 SARIMAX 模型对 2023 - 2024 年的数据进行预测, 结果 如 表 9 所示 。 表 9 SARIMAX 预测数据 时间 预测结果 95% 置信区间下界 95% 置信区间上界 2023 - 01 - 04 6816 5374 8646 2023 - 01 - 11 6677 4835 9221 ...... ...... ...... ...... 2024 - 03 - 13 5684 3583 9017 2024 - 03 - 20 6618 4169 10506 2024 - 03 - 27 6192 3898 9835 15 (三) 模型的结果分析与检验 1. 描述性结果分析 为了更好的呈现预测结果与观测值的关系,本文 了预测值和实际值的 时序图, 如图 10 所示 。 图 10 搜索指数预测值与观测值对比图 由图 10 可知 , 2023 年 1 月至 2024 年 4 月期间,实际值通常高于预测值, 且差距不大。预测值在此期间保持 定波动,而实际值自 2023 年 11 月起上升, 2024 年 1 月更是急剧增加。这一时期正值哈尔滨利用社交媒体加强文旅营销的 时期,结合旺季时机,通过新媒体营销策略提升话题热度和曝光度,从而解释了 搜索指数的急剧上升。 这表明 新媒体营销对提升城市文旅热度具有积极作用, 与 时间序列数据趋势图(图 6 )的预测结果一致 。 2. 基于假设检验的结论分析验证 为了验证上述分析得出的结论,本文采用卡方检验进行验证。通过对比两组 数据的显著性水平: 第一组 是 2022 - 2023 年间实际观测值的均值 T , 1 与 2023 - 2024 年间模型预测值的均值 P , 1 ; 第二组 则是 2022 - 2023 年间实际观测值的均值 T , 1 与 2023 - 2024 年间实际观测值的均值 T , 2 , 以探究新媒体营销活动是否对搜索指 数产生了显著影响。检验流程如下: