人工智能专业-基于机器学习的电商评论情感分析
人工智能-基于机器学习的电商评论情感分析:随着移动互联网的普及,电子商务技术越发的便利了人们的生活,目前已成为人们生活领域不可分割的一部分。电子商务发展的同时,也导致了在线语料井喷式的产生。而在大量语料中潜在的价值开始被研究人员所关注,也由此推动了自然语言处理(NLP)领域的发展。而与电子商务同步发展的情感分析领域也成为自然语言处理(NLP)中最为活跃的领域之一。目前,大量的情感分析领域的研究主要
目录
前言
📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。
🚀对毕设有任何疑问都可以问学长哦!
选题指导: https://blog.csdn.net/qq_37340229/article/details/128243277
大家好,这里是海浪学长毕设专题,本次分享的课题是
🎯基于机器学习的电商评论情感分析
课题背景和意义
随着移动互联网的普及,电子商务技术越发的便利了人们的生活,目前已成为人们生活领域不可分割的一部分。电子商务发展的同时,也导致了在线语料井喷式的产生。而在大量语料中潜在的价值开始被研究人员所关注,也由此推动了自然语言处理(NLP)领域的发展。而与电子商务同步发展的情感分析领域也成为自然语言处理(NLP)中最为活跃的领域之一。目前,大量的情感分析领域的研究主要集中在语料文本的处理和机器学习模型的改进。情感分析(SA)又称为意见挖掘(Opinion Mining),由 Pang Bo 在 2002 年首次提出, 是对带有情感特征的文本语料进行研究和分析的过程。近年来,由于情感分析在对不同领域发展的推动作用,得到了社会的广泛关注。情感分析的应用场景十分的广泛,例如通过手机的评论分析,了解不同年龄人群对该手机性能、外观、续航的满意度,帮助手机的更新和定位;通过工作人员服务评价分析,帮助工作人员更好的服务消费者;通过医药行业的评论分析,可以辅助分析药物在不同年龄层的效果和副作用等等。
实现技术思路
一、基于评论分析和集成分类的情感分析
问题分析
为了应对中文文本语料的改变,论文[93]提出了一种基于用户个性特征的模型以优化情感的分类。该系统基于大五类人格测试建立基于规则的系统预测用户个性特征,再根据特征构建情绪分类器。

HMM 模型的参数表达如公式 :
![]()
为了提高对中文本的高精度分类,提出一种针对文本标签的多维隐马尔可夫链(DHMM)对该基础学习器进行优化,实验证明方法提高了 HMM 的分类精度。同时,结合朴素贝叶斯(NB)算法扩展基础学习器,构建概率差矩阵,建立集成分类模型。

基于情感词网与个性分析的文本分析机制
1)在 ARAEC 模型中,情感词网的构建及扩展机制如下:
①通过多个开源情感词典进行情感词网的构建

②基于情感词网建立投票机制进行情感词情感极性的识别。投票机制如公式:

③针对不存在于情感词网的词和 Score(w)为 0 的情感词,通过开源同义词工具获取该词的同义词相似性排名,情感得分计算方式如公式:

④针对不存在于情感词网的词和 Score(w)为 0 的情感词,引入 PMI 互信息机制进行扩充。情感得分由公式:

⑤通过步骤 3 和 4 的计算,该情感词的情感得分为:
![]()
⑥完成以上步骤后,情感得分仍为 0 的情感词则将该词认定为中立词。
2)应用情感词网的评论文本分析及算法
ARAEC 模型针对中文文本语料的处理步骤具有较高的完整性,从中文文本的多个方面对文本进行检测,主要步骤如下:

3、追评/原评分析机制

实施方式如上图所示,其中文档图标表示原始评论,标签图标表示追加评论。通过对情感得分的计算得出原始评论与追加评论的情感极性,根据两者之间的差异选择文本保留的策略。
为了提高情感分类的准确度与泛化性,提出一种基于 DHMM 的集成分类模型。
①HMM 参数定义如下,S={S1,S2,…,Sn}表示 ARAEC 模型中的表示文本特征,长度 n 为特征向量空间的特征值;V={V1,V2,…,Vm}表示观测集合,在 ARAEC 模型中,该集合由分类极性所表示 V={“积极”,“消极”};

②观测集合 V 的概率计算,根据 HMM 参数定义,首先要解决的是概率计算问题。通过前向—后向算法,本方法可以分别得出前向—后向概率。其中前向概率由表示:



⑤多维训练模型,改进 DHMM 基于类别对数据集进行分类,针对分类后的数据集分别进行训练

由 Class-n 所训练的 HMM-n 模型分别进行预测数据进行状态转移概率的计算,如图。本文将采用预测概率最大的 HMM 模型的类标签进行标注,同时,记录其生成的概率值。

2) 集成分类方法
ARAEC 模型采用一种基于概率预测的集成分类方法对基础机器学习器的分类结果进行处理。集成分类模型的训练主要分为两个阶段,第一个阶段为基础学习器的训练,第二阶段为基于概率差向量的原分类器训练。
① 基础学习器训练:每个基础学习器都具有鲜明的个性特征,个性相似的语料在该机器学习中往往能获得十分优秀的分类效果,而个性不同的语料在该分类器中的效果并不明显。集成学习组合方法往往分为投票、平均和元分类方法。
②基于概率差向量的元分类器训练:ARAEC 将所有训练特征向量输入到 学习器中,并得出其分类结果,结果以概率形式展示,称为极性概率(Pij,Nij),积极概率表示为Pij,消极概率表示为Nij,Pij和Nij为语 料 i 在第 j 个分类器中所得到的积极和消极分类概率。

通过两阶段的训练形成集成分类模型。该模型既考虑了基于个性的分类又考虑了一般的情感分类。同时,本方法无需预先获取与语料个性信息即可重复利用各基础学习器的结果将评论文本进行较高准确度的极性分类。

二、 一种基于 SD-LS-SVM 的情感分类算法
SD-LS-SVM 算法设计
对 CI-LS-SVM 算法的分析,本节提出一种通过动态调整置信空间的改进算法 DCI-LS-SVM 算法。同时,引入 ACO 算法进一步优化 DCI-LS-SVM 算法的相关参数,使得 LS-SVM 算法实现在稀疏度与分类效果的进一步优化。在 ACO 优化过程中,引入稀疏度与均方误差来改进蚁群的工作流程,最终形成 SD-LS-SVM 算法工作机制。
DCI-LS-SVM 算法设计

SD-LS-SVM 算法设计流程如下:①适应度函数:LS-SVM 需要优化的超参数为正则化参数,为了评估在不同超参情况下的 DCI-LS-SVM 算法的稀疏度效果,本方法将均方误差加入适应度函数中:




实现效果图样例
基于关键词的词云分析:

基于电商平台顾客的情感打分:

我是海浪学长,创作不易,欢迎点赞、关注、收藏、留言。
毕设帮助,疑难解答,欢迎打扰!
最后
更多推荐

所有评论(0)