python爬取晋江文学城小说评论(情绪分析)-巨人网络通讯

1. 收集数据

1.1 爬取晋江文学城收藏排行榜前50页的小说信息

获取收藏榜前50页的小说列表，第一页网址为 ‘http://www.jjwxc.net/bookbase.php?fw0=0fbsj=0ycx0=0xx2=2mainview0=0sd0=0lx0=0fg0=0sortType=0isfinish=0collectiontypes=orssearchkeywords=page=1' , 第二页网址中page=2，以此类推，直到第50页中page=50。爬取每个小说的ID，小说名字，小说作者。将爬取到的信息存储到晋江排行榜【按收藏数】.txt文件中。

import requests
from bs4 import BeautifulSoup
import bs4
import re
import csv
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import jieba
import seaborn as sns
import xlrd
from xlutils.copy import copy
# 一些魔法命令，使得matplotlib画图时嵌入单元中而不是新开一个窗口
%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'
%load_ext autoreload
%autoreload 2
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.model_selection  import train_test_split

爬取小说基本信息 ，主要思路；
找到需要爬取的所有信息主体tbody；
分别找到每个信息对应的小标签td(a)，数清楚在所有标签中的顺序；
存进txt文档时按顺序存储。

headers = {"User-Agent": "Mozilla/5.0"}
for n in range(1,50):
    url = 'http://www.jjwxc.net/bookbase.php?fw0=0fbsj=0ycx0=0xx2=2mainview0=0sd0=0lx0=0fg0=0sortType=0isfinish=0collectiontypes=orssearchkeywords=page={}'.format(n)
    html = requests.get(url,headers=headers)
    html.encoding = html.apparent_encoding
    soup = BeautifulSoup(html.text, 'html.parser')
    for tr in soup.find_all('tbody'):
            tds=tr('td')  
            a = tr('a') 
            count=0
            id=[]
            for u in tr.find_all('a'):
                    count=count+1
                    book_url=u.get('href') # 获取小说主页的url
                    p = re.compile(r'\d+')
                    book_id = p.findall(book_url)[0]  # 获取小说ID
                    if(count%2==0):
                        id.append(book_id)
            for n in range(0,100):
                    with open('./data/晋江排行榜【按收藏数】.txt','a+',encoding='utf-8') as f:
                            print("{0}\t{1}\t{2}".format(id[n],a[n*2+1].string,a[n*2].string),file=f)  # 序号 书名 作者

1.2 查看爬虫结果

分别查看前8部小说的ID和名字

# 查看收藏榜前8部小说的ID
with open('./data/晋江排行榜【按收藏数】.txt','r',encoding='utf-8',errors='ignore') as f:
    book_list = f.readlines()
    id_list = [item.split('\t')[0] for item in book_list]
print(id_list[:8])

# 查看收藏榜前8部小说的名字
name_list = [item.split('\t')[1] for item in book_list]
print(name_list[:8])

1.3 爬取每部小说的评论。

找到小说的评论区，第一部小说《天官赐福》的第一页评论网址为 ‘http://www.jjwxc.net/comment.php?novelid=3200611huati=1' ,3200611是小说ID，1是评论页数，这部小说第二页网址为'http://www.jjwxc.net/comment.php?novelid=3200611huati=2' 。下一部小说《撒野》的ID是2956313，它的第一页评论网址为'http://www.jjwxc.net/comment.php?novelid=2956313huati=1' ,以此类推，爬取所有小说的评论和打分。为了避免有一些小说评论数不够多，自己设定每部小说只爬取5页的评论。

爬取思路与爬取小说信息大致相同，不同的是将爬取到的信息存储到xls文件中。

headers = {"User-Agent": "Mozilla/5.0"}
with open('./data/晋江排行榜【按收藏数】.txt','r',encoding='utf-8') as f:
            book_list = f.readlines()
            id_list = [item.split('\t')[0] for item in book_list]
for book_id in id_list:
    for page in range(1,6):
        url="http://www.jjwxc.net/comment.php?novelid={}huati=1page={}".format(book_id,page)
        html = requests.get(url,headers=headers)
        html.encoding = html.apparent_encoding
        soup = BeautifulSoup(html.text, 'html.parser')
        scores=[]
        comments=[]
        for item1 in soup.find_all('span',"coltext"):
            score=item1('span')
            scores.append(score[2].string)
        for item2 in soup.find_all('div',"readbody"):
            comment=item2('span')
            comments.append(comment[0].string)
        for i in range(0,len(comments)):
            excel = xlrd.open_workbook('./data/jjwxc1.xls')
            wb = copy(excel)
            w_sheet = wb.get_sheet(0)
            sheet = excel.sheets()[0]
            nrow = sheet.nrows # 文件行数
            w_sheet.write(nrow, 0, book_id)
            w_sheet.write(nrow, 1, comments[i])
            w_sheet.write(nrow, 2, scores[i])
            wb.save('./data/jjwxc1.xls')

2. 数据加载和预处理

预处理包括：

格式转化；上一步将爬取信息存到了xls文件，将xls格式文件转化为csv格式文件方便下一步加载。
数据去重；爬取过程中某些页面爬取了多次，导致csv文件包含重复的行。
短评去重；对同一部小说，或者不同的小说，可能存在评论内容相同的行。
添加情绪标签
去除停用词和分词
短评可视化

2.1 格式转化

使用pandas模块可以快速将xls文件转换为.csv

# 格式转化
ex=pd.read_excel("./data/jjwxc.xls")
ex.to_csv("./data/jjwxc.csv",encoding="gb18030")

# 加载评论
review = pd.read_csv("./data/jjwxc.csv",names=['ID','comment','score'],encoding='gb18030')

2.2 数据去重

去除重复的行

# 去重
review = review.drop_duplicates()

2.3 短评去重

去除评论相同的行

# 删除评论内容重复的行
review= review.drop_duplicates('comment')
review.shape

2.4 添加情绪标签

根据打分的分数来添加情绪标签，观察晋江文学城的打分机制发现，打分区间在[-2,2]内，且打2分的人数占大多数，于是将分数为2的评论看作是好评，情绪标签为1，而低于2分的看作是差评，情绪标签为0。

# 添加情绪标签
review['emotion'] = (review.score ==2) * 1

# 打乱顺序
review = review.sample(frac=1).reset_index(drop=True)
print(review.shape)

2.5 去除停用词和分词

短评内容进行分词并去掉停用词

def review_without_stop(review):
    # 打开停用词文件
    with open("./data/emotion_stopwords.txt","r",encoding="utf-8") as f:
        stop_word = [x.strip() for x in f.readlines()] 
    all_stop_words = set(stop_word) # 删除停用词中重复的项
    # 短评中的非中文字符替换为''
    review = re.sub("[^\u4e00-\u9fa5]",'',review)
    # 去除全角空白字符
    review = review.replace("\u3000","") 
    # 分词
    review = jieba.cut(review)
    # 过滤一个字的词
    review = filter(lambda x: len(x)>1,review)
    # 去除停用词
    review = filter(lambda x: x not in all_stop_words,review)
    return ' '.join(review)

# 自定义分词字典
jieba.load_userdict("./data/emotion_userdict.txt")
review['cut_jieba'] = review.comment.apply(review_without_stop)

【注】停用词和分词文件需要自己定义

# 查看一些评论
review.head()

# 好评中一些评论包含“不想”，“不喜欢”
review[(review['cut_jieba'] == '不想')  (review['emotion'] == 1)]

review[(review['cut_jieba'] == '不喜欢')  (review['emotion'] == 1)]

# 好评中出现的消极情绪词，去除这些评论
def change_negtive_like(cut_text):
    word_list = cut_text.split()
    if "不喜欢" in word_list:
        for i in range(len(word_list)):
            if word_list[i] == "不喜欢":
                word_list[i] = ""
        return " ".join(word_list)
    elif "不想" in word_list:
        for i in range(len(word_list)):
            if word_list[i] == "不想":
                word_list[i] = ""
        return " ".join(word_list)
    else:
        return cut_text

review.loc[review['emotion'] == 1,'cut_jieba'] = review[review['emotion'] == 1].cut_jieba.apply(change_negtive_like)

# 一些评论内容为空，去除这些为空的评论
review = review[~(review['cut_jieba'] == '')]
review.shape

2.6 短评可视化

对所有短评进行可视化

from wordcloud import WordCloud
from imageio import imread
mask = imread("./data/cloud.jpg")
font = './data/FZSTK.TTF'
wc = WordCloud(
    font_path= font,
    max_words=2000, # 设置最大现实的字数
    max_font_size=250,# 设置字体最大值
    background_color = "white",
    random_state=30,
    mask = mask)
wc.generate(''.join(review['cut_jieba'])) # 生成词云
plt.imshow(wc)
plt.axis('off')

对emotion为1的短评进行可视化

from wordcloud import WordCloud
from imageio import imread
mask = imread("./data/piggy.jpg")
font = './data/FZSTK.TTF'
wc1 = WordCloud(
    font_path= font,
    max_words=2000, # 设置最大现实的字数
    max_font_size=300,# 设置字体最大值
    background_color = "white",
    random_state=30,
    mask = mask)
wc1.generate(''.join(review['cut_jieba'][review['emotion']==1]))
plt.imshow(wc1)
plt.axis('off')

对score为-2的短评进行可视化

wc1.generate(''.join(review['cut_jieba'][review['score']==-2])) # 生成词云
plt.imshow(wc1)
plt.axis('off')

【注】词云和字体自己定义

3. 训练模型

3.1 建立训练数据集和测试数据集

由于已经为分析准备好了数据，所以现在需要将数据分成训练数据集和测试数据集。将数据分成两部分：75%的训练数据和25%的测试数据。

x, y = review['cut_jieba'], review['emotion']
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.25)

print(x_train.shape)
print(y_train.shape)

print(x_test.shape)
print(y_test.shape)

3.2 特征提取

使用 sklearn 包中的 TfidfVectorizer 方法进行特征提取。

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer(decode_error='ignore',
                             token_pattern=r"\b[^\d\W]\w+\b", # 剔除向量化结果中的数字
                             analyzer='word',
                             ngram_range=(2,4),
                            max_df = 0.8,
                            min_df = 3)
Xtrain = tfidf_vect.fit_transform(x_train)
Xtest = tfidf_vect.transform(x_test)

print(Xtrain.shape)
print(Xtest.shape)

3.3 用朴素贝叶斯完成中文文本分类器

from sklearn.naive_bayes import MultinomialNB

review_classifier = MultinomialNB()
review_classifier.fit(Xtrain,y_train)

# 对测试集的样本进行预测
y_pred = review_classifier.predict(Xtest)
metrics.confusion_matrix(y_test, y_pred) # 混淆矩阵

# 利用 sns 模块查看测试值和预测值构成的热图
colorMetrics = metrics.confusion_matrix(y_test, y_pred)
sns.heatmap(colorMetrics,annot=True,fmt='d')

# 分类报告
# 给出每个类的准确率，召回率和F值，以及这三个参数和宏平均值
print(metrics.classification_report(y_test,y_pred))

print(metrics.accuracy_score(y_test,y_pred))

from sklearn.model_selection import cross_val_score
score1 = cross_val_score(review_classifier,Xtrain,y_train,cv=10,scoring="accuracy").mean()
print(score1)

3.4 用逻辑回归完成中文文本分类

from sklearn.linear_model import LogisticRegression  
LR_model = LogisticRegression(penalty='l2',max_iter=3000)  
LR_model.fit(Xtrain,y_train)

# 对测试集的样本进行预测
y_pred = LR_model.predict(Xtest)
metrics.confusion_matrix(y_test, y_pred) # 混淆矩阵

print(LR_model.score(Xtest,y_test))

# 给出每个类的准确率，召回率和F值，以及这三个参数和宏平均值
print(metrics.classification_report(y_test,y_pred))

4. 结果分析

（1）词云分析：

词云1中最明显的词汇是“喜欢”；
词云2中的词汇与词云1区别不大，因为所有短评中好评占大多数；
由差评生成的词云3出现了“不好”、“一般”、“硬伤”等负面色彩的词语。

（2）影响情感分析准确性的原因：

获取到的短评数量比较少；
由于小说中对主角讨论比较多，一些小说角色名字会重复出现在短评内，一定程度影响对评论的感情分析；
没有删除过于短小的评论；
分词后中发现代表积极或消极情绪的词汇往往不会成为单独短评，而是和别的词一起出现，对于查找差评中的积极词汇和好评中的消极词汇造成一定困难。
短评中出现明显代表正面色彩和负面色彩的词汇较少。

到此这篇关于爬取晋江文学城小说评论(情绪分析)的文章就介绍到这了,希望对你有所帮助,更多相关python爬取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章，希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Python爬虫之爬取最新更新的小说网站
python使用XPath解析数据爬取起点小说网数据
python爬虫之爬取笔趣阁小说
Python爬虫入门教程02之笔趣阁小说爬取
python 爬取小说并下载的示例
python爬取”顶点小说网“《纯阳剑尊》的示例代码
Python scrapy爬取小说代码案例详解
Python爬取365好书中小说代码实例
python爬虫爬取笔趣网小说网站过程图解
Python实现的爬取小说爬虫功能示例
Python制作爬虫采集小说
python 爬取国内小说网站

标签：贵州双鸭山日照克拉玛依金华阳泉临汾赤峰

巨人网络通讯声明：本文标题《python爬取晋江文学城小说评论(情绪分析)》，本文关键词 python,爬取,晋江,文学,城,；如发现本文内容存在版权问题，烦请提供相关信息告之我们，我们将及时沟通与处理。本站内容系统采集于网络，涉及言论、版权与本站无关。

下面列出与本文章《python爬取晋江文学城小说评论(情绪分析)》相关的同类信息！

python爬取晋江文学城小说评论(情绪分析)

1. 收集数据 1.1 爬取晋江文学城收藏排行榜前50页的小说信息获取收藏榜前50页的小说列表，第一页网址为 ‘http://www.jjwxc.net/bookbase.phpfw0=0fbsj=0ycx0=0xx2=2mainview0=0sd0=0lx0=0fg0=0sortType=0isfini...

10-18

$[city_name]电销卡哪里购买好（电销电话卡哪个比较便宜）

今天给各位分享电销卡哪里购买好的知识，其中也会对电销电话卡哪个比较便宜进行解释，如果能碰巧解决你现在面临的问题...

06-02

长沙电销外呼系统介绍（呼叫中心电销系统）

本篇文章给大家谈谈长沙电销外呼系统介绍，以及呼叫中心电销系统对应的知识点，希望对各位有所帮助，不要忘了收藏本站...

11-06

加速AI应用，思必驰在2019全球人工智能产品应用博览会

5月9日，由苏州市人民政府、新一代人工智能产业技术创新战略联盟共同主办的2019全球人工智能产品应用博览会（以下简称全...

10-19

黑龙江电销外呼系统好用吗（电销外呼系统哪个

本文目录一览：1、外呼体系好用吗？2、电销客外呼体系这个体系好用么？3、外呼体系怎么？好用么？4、外呼体系好用不?哪...

11-29

苏州电销机器人哪家有卖（苏州家用机器人）

本文目录一览： 1、电话销售机器人哪个好2、电销机器人都有哪些性价比高的品牌？3、电话ai机器人在哪能买4、电销机器人...

11-27

400电话中国移动移动400电话怎么样

移动400业务就是互联网上提到的400电话，类似于800电话，都是提供给企业的直线电话业务。与800不同的是，400电话是一项业...

01-13

化妆品商标注册

化妆品作为一种品牌盈利能力很强的产品，商标注册显然是最重要的。销售的作用反而是其次，生产环节的盈利能力最差。从...

10-23

上海电销公司外呼用什么软件

上海电销公司外呼用什么软件,办理上海电销外呼软件,上海电销软件办理防封号电销软件，提供多种防封解决方案，支持各地...

12-03

观察呼叫中心外包运营有感

09年6月下旬的某日，盆地中的台北天气闷热，电脑惯例地持续收到各方邮件。刚巧公务缠身，本想只要不是紧急状况就先搁着...

10-22

centos安装php5、卸载php、安装php7的教程

首先安装php5很简单 yum install php 然后如果不想用php5的话那就卸载吧注意只使用yum remove命令是行不通的那我们先 yum remove p...

10-16

郑州防封卡外呼系统是什么（外呼防封号系统）

本文目录一览： 1、什么是网络电话外呼体系？2、外呼体系是什么?3、外呼体系是怎样用的？什么是网络电话外呼体系？你加...

11-28

Javascript中使用exec进行正则表达式全局匹配时的注意事项

本文就是介绍在使用 Javascript 中使用 exec 进行正则表达式全局匹配时的注意事项。先看一下常见的用法：复制代码代码如下...

10-18

伊娃机器人效果怎么样

时代在发展，科技在进步，无论你的企业在行业中处于什么样的地位，无论你的企业在市场上占多大的份额，无论你的企业在...

10-31

网上购买物联卡靠谱吗

在这个万物互联的时代，针对于企业设备联网的物联卡就显得格外重要了，而共享单车，移动支付，智慧城市，自动售卖机等...

11-07

保定市防封高频电话卡便宜

全国建“合伙人”制分公司有了战略和产品，开拓用户是分享通信集团下一步的重心。据了解，分享通信集团以“分享”的理...

02-15

如何获得没有地图标注商家信息？如何获得位置信息？

C#如何获得百度地图点上的信息框？百度地图是提供了一个js API 你需要什么需要用js获取，在ajax发到后台去如何采集百度地...

11-26

关于大都会人寿电销是外包么的信息

本篇文章给大家谈谈大都会人寿电销是外包么，以及对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。本文目录...

08-28

东莞财税专用ai电话机器人价格-哪家专业？

东莞财税专用ai电话机器人价格反正我是无法理解的。值得一提的是在这份榜单中，呼叫中心系统服务商的表现给人眼前一亮...

05-17

400电话，走进行业领先的推广

400电话，这是一个选择永久性号码的平台，也是很多行业进入到发展阶段过程中所需要把握的一种宣传模式，到底怎么样才能...

03-12

佛山销售外呼系统收费（外呼营销违法吗）

本文目录一览： 1、外呼体系多少钱一个月？2、电销外呼体系多少钱一个月？3、电销外呼体系一个月贵吗？4、外呼体系装置...

04-22

为什么企业对 400 电话感兴趣？（企业对400电话感兴趣原因是什么）

很多企业都非常重视电话业务，所以选择一个非常合适的电话号码对企业来说也很重要企业对400电话感兴趣原因是什么在掌...

07-21

商务部与加拿大中国贸易理事会服务外包合作交流会成功举行

10月4日，商务部与加中贸易理事会在加拿大多伦多举办了2013年中加服务外包合作交流会。加中贸易理事会Neil Tait副主席和中...

10-22

电话机器人有法律效应（电话机器人违法吗）

本文目录一览：1、076912345打电话是机器人会不会坐牢2、公司老板把电话号码数据给我导入到电话机器人群呼系,我会涉嫌违法...

06-20

linux学习笔记

linux目录架构 / 根目录 /bin 常用的命令 binary file 的目錄 /boot 存放系统启动时必须读取的档案，包括核心 (kernel) 在内 /boot/gr...

10-20

丽水电销机器人厂家

汇港通科技组装于2018年，是一家潜心于大中小企业精准经营销售和企业管理效劳处置计划的供给商。呼叫中心经营管理，巨...

10-31

中牟百应电销机器人加盟（中牟百应电销机器人

本文目录一览：1、跟电话机器人公司协作,上圈套了怎么办2、为什么越来越多的人挑选电话机器人项目创业3、电话机器人...

11-29

许昌手机外呼系统（电销手机外呼系统）

本文目录一览：1、外呼体系是怎样用的？2、外呼体系怎样用？我也是做电销的，打电话打多了就会被封号3、什么是网络电话...

11-29

PowerShell ISE自动化简单示例

PowerShell ISE的自动化不依赖与任何第三方的框架和工具，因为PowerShell ISE本身就是可编程的。非常高大上地被称作为PowerShell抽...

10-18

外呼系统外地手机号（外呼电话号码）

本文目录一览： 1、外埠手机号码一天拨打20个外埠号码会封号么？ 2、外呼体系若何用？我也是做电销的，打电话打多了就会...

11-26

南京房产外呼电话一企嗨呼叫系统,AXB线路厂家-实力认证

一企嗨电话营销系统 1．当前的电销场景有哪些困扰？ 1）手机.卡频繁被封，电销业务难以启动； 2）销售人员号码被标注，...

12-17

新一线城市研究所、ofo联合发布：南京每天超2千人骑车起点为新街口地铁

第一财经·新一线城市研究所与ofo小黄车最新联合发布了“共享单车城市出行大数据”，并解读了南京整座城市的共享单车出...

10-16

400电话续费的套餐还是和以前一样的吧？

400电话新续费的套餐跟之前签订的合同是一样的，除非您要提高续费的标准，只能提高不能降低。...

12-22

极光大数据：国内手机市场年中大盘点

2017 年第二季度，苹果十周年新机型蓄势待发。安卓阵营华为卫冕销量冠军，vivo则登上亚军宝座。中国领先的移动大数据办事...

10-16

电销团队怎么抓人（电销团队犯法吗）

今天给各位分享电销团队怎么抓人的知识，其中也会对电销团队犯法吗进行解释，如果能碰巧解决你现在面临的问题，别忘了...

08-27

云呼叫中心年增近20% 获电商企业青睐

中国软件资讯网消息，近期，基于云计算技术的呼叫中心受到业界的关注，并逐步成为了企业发展电子商务的新动力。由于云...

10-22

电销外呼线路都有哪些

电销外呼线路都有哪些优质的电销线路，全国套餐可选。企业呼叫中心、业务系统统一接入。解决封号难题，提供呼出率！...

12-03

中高端服务外包人才来锡创业可获安家费补贴

无锡服务外包企业若获得世界500强企业的大额外包合同，本地工业企业若向123计划企业发包，符合这样的条件都将得到奖励。...

10-22

电销团队海报手绘（电销团队名称和激励口号）

本文目录一览： 1、海报怎样画手绘2、制造手绘POP海报的6大过程与技巧3、手绘POP海报的过程及技巧4、怎样手绘pop海报5、手...

04-22

苏州电销机器人免费领（智能电销机器人购买）

本篇文章给我们谈谈姑苏电销机器人免费领，以及智能电销机器人购买对应的知识点，期望对各位有所协助，不要忘了保藏本...

11-06

电销防封软件真的可以防封号吗?

现在的电销行业越来越难做了，原因无他，就是运营商封号太严重了。每天打不了多少电话就会有封号的危险。这对电销业务...

12-03

南通高频电销卡批发

南通高频电销卡批发本公司目前已经与多家虚拟运营商联签约，共创虚商大业，提供了业务整合的平台！服务宗旨：只给客...

11-15

400电话资费400元电话资费标准

400电话资费400元电话资费标准以下内容由巨人小编整理发布。 50元/月，83元/月，138元/月。400电话已经成为企业的必须品，...

02-20

智呼宝ai电话机器人（电话智能机器人）

本文目次一览： 1、什么是AI智能德律风呆板人？ 2、智能德律风呆板人可行吗？ 3、AI智能德律风呆板人 4、ai智能德律风呆板...

11-25

联通400电话固定费用400电话办理具体的收费标准是什么？

作为全国统一的强大虚拟总机，400电话号码没有9位数字，都是从400开始的，但是运营商不同，数字段不同。联通400电话目前...

01-13

微软颁布颁发为Win10秋季更新10586延长6个月更新支持

目前，Windows10 共计有 5 个正式版，从Version 1507(Build 10240)到最新的1709(Build16299 秋季创意者更新)。因为敦促升级的缘故，微软...

10-15

电销机器人对电销行业有着积极的促进作用

电销机器人对电销行业有着积极的促进作用，电销机器人，让客户服务体验更顺畅。电销机器人外呼系统颠覆传统自动外呼只...

10-31

杭州电话外呼系统价格（杭州呼叫中心）

本文目次一览： 1、外呼零碎几何钱一个月？ 2、德律风外呼零碎几何钱？ 3、电销外呼零碎几何钱一个月？ 4、外呼零碎一个...

11-25

品牌商标转让一般要多少天才能进行使用？

现在要以什么样的方式，才可以快速完成品牌商标转让流程呢？对此有疑问的朋友，只要不断了解相关的事情，很快就会知...

10-23

徐州电话机器人厂家招聘（江苏机器人厂招聘）

本文目录一览： 1、怎么查询个人征信报告？ 2、越来越多人做电销机器人了，电销机器人哪家好呢？ 3、没有用的比较好的电...

11-25

办理400电话打破企业“生死劫”（企业400电话办理怎样做）

11-07

python爬取晋江文学城小说评论(情绪分析)

10-18

本页收集关于python爬取晋江文学城小说评论(情绪分析)的相关信息资讯供网民参考！

python爬取晋江文学城小说评论(情绪分析)

1. 收集数据

1.1 爬取晋江文学城收藏排行榜前50页的小说信息

1.2 查看爬虫结果

1.3 ** 爬取每部小说的评论** 。

2. 数据加载和预处理

2.1 格式转化

2.2 数据去重

2.3 短评去重

2.4 添加情绪标签

2.5 去除停用词和分词

2.6 短评可视化

3. 训练模型

3.1 建立训练数据集和测试数据集

3.2 特征提取

3.3 用朴素贝叶斯完成中文文本分类器

3.4 用逻辑回归完成中文文本分类

4. 结果分析

1.3 爬取每部小说的评论。