目录

前言

课题背景和意义

实现技术思路

一、基于评论分析和集成分类的情感分析

二、 一种基于 SD-LS-SVM 的情感分类算法

实现效果图样例

最后


前言


    📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

选题指导: https://blog.csdn.net/qq_37340229/article/details/128243277

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯基于机器学习的电商评论情感分析

课题背景和意义

随着移动互联网的普及,电子商务技术越发的便利了人们的生活,目前已成为人们生活领域不可分割的一部分。电子商务发展的同时,也导致了在线语料井喷式的产生。而在大量语料中潜在的价值开始被研究人员所关注,也由此推动了自然语言处理(NLP)领域的发展。而与电子商务同步发展的情感分析领域也成为自然语言处理(NLP)中最为活跃的领域之一。目前,大量的情感分析领域的研究主要集中在语料文本的处理和机器学习模型的改进。情感分析(SA)又称为意见挖掘(Opinion Mining),由 Pang Bo 在 2002 年首次提出, 是对带有情感特征的文本语料进行研究和分析的过程。近年来,由于情感分析在对不同领域发展的推动作用,得到了社会的广泛关注。情感分析的应用场景十分的广泛,例如通过手机的评论分析,了解不同年龄人群对该手机性能、外观、续航的满意度,帮助手机的更新和定位;通过工作人员服务评价分析,帮助工作人员更好的服务消费者;通过医药行业的评论分析,可以辅助分析药物在不同年龄层的效果和副作用等等。

实现技术思路

一、基于评论分析和集成分类的情感分析

问题分析

为了应对中文文本语料的改变,论文[93]提出了一种基于用户个性特征的模型以优化情感的分类。该系统基于大五类人格测试建立基于规则的系统预测用户个性特征,再根据特征构建情绪分类器。

基础学习器的效果促进集成学习模型的精度, 隐式马尔科夫( HMM )模型如图 所示。同时,该文章阐述里 HMM 模型在处理文本特征时有着对数据顺序特征训练的优势,但 HMM 分类精度始终不高。

 HMM 模型的参数表达如公式

为了提高对中文本的高精度分类,提出一种针对文本标签的多维隐马尔可夫链(DHMM)对该基础学习器进行优化,实验证明方法提高了 HMM 的分类精度。同时,结合朴素贝叶斯(NB)算法扩展基础学习器,构建概率差矩阵,建立集成分类模型。

ARAEC 模型
提高了模型的分类准确度。引入ARAEC 模型,ARAEC 模型被划分为评论分析与情感分类模型两个部分,蓝色标注的部分为主要优化环节。

 基于情感词网与个性分析的文本分析机制

1)在 ARAEC 模型中,情感词网的构建及扩展机制如下:

①通过多个开源情感词典进行情感词网的构建

基于情感词网建立投票机制进行情感词情感极性的识别。投票机制如公式:

针对不存在于情感词网的词和 Score(w)0 的情感词,通过开源同义词工具获取该词的同义词相似性排名,情感得分计算方式如公式:

针对不存在于情感词网的词和 Score(w)0 的情感词,引入 PMI 互信息机制进行扩充。情感得分由公式:

通过步骤 3 4 的计算,该情感词的情感得分为:

完成以上步骤后,情感得分仍为 0 的情感词则将该词认定为中立词。

2)应用情感词网的评论文本分析及算法

ARAEC 模型针对中文文本语料的处理步骤具有较高的完整性,从中文文本的多个方面对文本进行检测,主要步骤如下:

①数据准备:取得电商评论文本中的训练数据集,去除评论文档中的非文本数据和特殊符②文本预处理: 使用开源分词工具进行评论数据的分词和词性标注,生成各句词集;引用开源停用词表,过滤常用停用词,但保留标点符号。③对比词检测: 根据句式对词集进行编辑,如果是对比句式则只保留强调的句式中的词,之后进行词性分析,只选择形容词和副词,完成词集的生成。
通过以上数据处理方式和情感词网,同时提出一种基于情感词网的语料评分机制。

 3、追评/原评分析机制

结合如今商品评论的追评和点赞数来提高文本的情感表达准确率,本方案只考虑单个追评,即用户的第一条追加评论。追评往往是用户在消费品使用一段时间后所产生的新的评价, 所以追评的情感分析比初始评论更加客观与真实。

实施方式如上图所示,其中文档图标表示原始评论,标签图标表示追加评论。通过对情感得分的计算得出原始评论与追加评论的情感极性,根据两者之间的差异选择文本保留的策略。

基于改进 HMM 的集成分类模型

为了提高情感分类的准确度与泛化性,提出一种基于 DHMM 的集成分类模型。

1)DHMM 相关定义及算法实现,DHMM 算法设计如下:

①HMM 参数定义如下,S={S1,S2,…,Sn}表示 ARAEC 模型中的表示文本特征,长度 n 为特征向量空间的特征值;V={V1,V2,…,Vm}表示观测集合,在 ARAEC 模型中,该集合由分类极性所表示 V={“积极”,“消极”}

 ②观测集合 V 的概率计算,根据 HMM 参数定义,首先要解决的是概率计算问题。通过前向—后向算法,本方法可以分别得出前向—后向概率。其中前向概率由表示:

③更新阶段,DHMM 的学习过程主要基于 Baum-Welch 算法针对训练集对算法过程继续计算,参数计算方式如 图所示。

④时刻 t 下的状态 i 概率计算,通过贝叶斯公式,结合前向后向算法进行该概率状态的近似估计

 ⑤多维训练模型,改进 DHMM 基于类别对数据集进行分类,针对分类后的数据集分别进行训练

 由 Class-n 所训练的 HMM-n 模型分别进行预测数据进行状态转移概率的计算,如图。本文将采用预测概率最大的 HMM 模型的类标签进行标注,同时,记录其生成的概率值。

2) 集成分类方法

ARAEC 模型采用一种基于概率预测的集成分类方法对基础机器学习器的分类结果进行处理。集成分类模型的训练主要分为两个阶段,第一个阶段为基础学习器的训练,第二阶段为基于概率差向量的原分类器训练。

基础学习器训练:每个基础学习器都具有鲜明的个性特征,个性相似的语料在该机器学习中往往能获得十分优秀的分类效果,而个性不同的语料在该分类器中的效果并不明显。集成学习组合方法往往分为投票、平均和元分类方法。

基于概率差向量的元分类器训练:ARAEC 将所有训练特征向量输入到 学习器中,并得出其分类结果,结果以概率形式展示,称为极性概率(Pij,Nij),积极概率表示为Pij,消极概率表示为Nij,Pij和Nij为语 料 i 在第 j 个分类器中所得到的积极和消极分类概率。

 通过两阶段的训练形成集成分类模型。该模型既考虑了基于个性的分类又考虑了一般的情感分类。同时,本方法无需预先获取与语料个性信息即可重复利用各基础学习器的结果将评论文本进行较高准确度的极性分类。

二、 一种基于 SD-LS-SVM 的情感分类算法

SD-LS-SVM 算法设计

对 CI-LS-SVM 算法的分析,本节提出一种通过动态调整置信空间的改进算法 DCI-LS-SVM 算法。同时,引入 ACO 算法进一步优化 DCI-LS-SVM 算法的相关参数,使得 LS-SVM 算法实现在稀疏度与分类效果的进一步优化。在 ACO 优化过程中,引入稀疏度与均方误差来改进蚁群的工作流程,最终形成 SD-LS-SVM 算法工作机制。

DCI-LS-SVM 算法设计

CI-LS-SVM 算法用平均步进的思路进行支持向量的剪枝操作,其中 step 的大小决定了 LS-SVM 稀疏度的精度大小, step 越小造成了稀疏的精度越高与迭代的次数增加,也就是造成了计算量的增加。将置信度的动态调整机制定义为如下公式:

SD-LS-SVM 情感分类算法设计

SD-LS-SVM 算法设计流程如下:①适应度函数:LS-SVM 需要优化的超参数为正则化参数,为了评估在不同超参情况下的 DCI-LS-SVM 算法的稀疏度效果,本方法将均方误差加入适应度函数中:

②路径转移:每次迭代过程中都会有 m 只蚂蚁对 n 个参数对进行路径选择,路径选择的过程通过路径转移概率进行判断:

③二次信息素更新机制
在每一轮蚁群路径计算过程完成后,根据蚁群算法的适应度规则计算每个蚂蚁路径,通过分析各路径的效果进行信息素更新。 二次信息素更新机制基于原有的蚁群算法信息素更新方法,在第 t
迭代中对路径信息浓度通过如下公式进行计算:

最终, SD-LS-SVM 算法执行步骤如下:

实现效果图样例

基于关键词的词云分析:

基于电商平台顾客的情感打分:

我是海浪学长,创作不易,欢迎点赞、关注、收藏、留言。

毕设帮助,疑难解答,欢迎打扰!

最后

Logo

电商企业物流数字化转型必备!快递鸟 API 接口,72 小时快速完成物流系统集成。全流程实战1V1指导,营造开放的API技术生态圈。

更多推荐