3
2020
NLP电影评论情感分析
目标:
构建一个高性能的自然语言处理(NLP)模型,对大规模英文电影评论进行二分类情感分析(积极/消极)。
并探索将分类范围扩展到细粒度情绪(如喜悦、愤怒、悲伤等)的可行性,以提升情感识别的深度和准确性。
内容:
采用 IMDB Large Movie Review Dataset(包含 50,000 条高度极性的英文影评)作为训练数据,确保模型的泛化能力。
进行了文本清洗、标准化、去除停用词等操作。利用 NLTK 库对英文文本进行分词(Tokenization)。
使用预训练的 Word Embeddings(Word2Vec) 将单词映射为高维稠密向量,捕获词汇间的语义信息。
实现了文本卷积神经网络 (TextCNN) 结构,用于捕获评论中的长距离依赖和局部语义特征。
研究了通过外部情感词典或模型映射,将二分类结果细化至多类别情绪(喜悦、愤怒、悲伤),增强了模型的情感识别层次。
结果:
经过超参数调优(lr、batch-size等),最终TextCNN模型在测试集上实现了高达 95.7% 的二分类准确率(Accuracy),性能优于传统 SVM/朴素贝叶斯基线模型。
验证了词嵌入和深度学习模型在捕获长篇影评中的语义极性和上下文信息方面的有效性。
成功完成了从大规模非结构化文本数据到高性能情感分类模型的完整 NLP 流程,展示了对深度学习框架的熟练应用。