我是怎么分析一万篇AO3文章的

2020-03-21 22:07:01 大德奧

写在前面:

沸沸扬扬的227看来是告一段落了,这件事对我和豆酱的影响就是发现能发声引起大家的讨论和关注还是一件很有意思的事情,所以决定慢慢开始经营自己的号.基本保证每周更新一次.那我就尽量发挥我的优势,跟大家讲讲代码,聊聊技术.首先就把我在227文章和视频的技术都和大家讲个透彻.这里总共是四大部分:

基于 selenium 的爬虫,已经写过一期文章,还会有一篇;
基于词频统计的数据分析,就是本文;
基于深度学习的 NLP 文本分类器;
基于OpenCV 的图像视频制作.

这就够一个月了.新手初来乍到,谢谢大家支持.有什么感兴趣的可以评论或私信.我也会根据大家关系的东西写哦~

对文本进行分析

上一篇文章中已经对相关库进行简要介绍,这里我只列举文本分析时使用到的库.

BeautifulSoup: Html 标签解析器 jieba: 中文分词工具 wordcloud: 词云生成器 matplotlib: 科学绘图库 numpy: python数学运算库 PIL: python图像处理库

matplotlib 使用时要注意中文显示问题,matplotlib默认并不支持中文显示,需要进行一些配置.

具体步骤是:

通过 matplotlib.matplotlib_fname() 命令找到 matplotlib 路径;
将字体放在字体文件夹下,并修改配置文件
去掉 font.family , axes.unicode_minus 和 font.sans-serif 前的注释符#,
在 font.sans-serif 中添加字体名称(这里是 simhei),把 axes.unicode_minus 的值改为 False.
删掉 matplotlib 的缓存目录

在使用 Jupyter notebook 时,需要注意添加魔法命令 %pylab inline.

<code>import sys
import re
import os
import time
from tqdm import tqdm

import numpy as np
# import pandas as pd
from bs4 import BeautifulSoup
import jieba #分词
from wordcloud import WordCloud #词云
import matplotlib.pyplot as plt
import pylab
pylab.rcParams['font.family'] = 'simhei'
from PIL import Image
import time

%pylab inline/<code>

配置一些函数

然后定义几个通用函数,包括:

从文件中按行读取(任意)词;
在文本中查找是否有敏感词并返回;
去除常用词;
创建词云.

提示一下大家,读取词表和检查敏感词的计数部分是有Bug的,如果词表有重复的词,则敏感词会多记一次.这个在未来借助 NLP 生成句子检测器的工作中已经修复了.请大家注意一下.相关视频已经放在 B站和头条西瓜有兴趣的小伙伴可以去看

<code>#读取词表
def read_words_list(path):
    with open(path) as f:
        lines = f.readlines()
    
    strlist = []
    for l in lines:
        if '#' != l[0] and '' != l.strip():
            l = l.strip()
            strlist.append(l)
    return strlist

#查找敏感词
def check_sens_words(text, sens_words):
    ttext = text.strip()
    sw_buf = [] #敏感词
    for sw in sens_words:
        n = ttext.count(sw) #敏感词出现次数
        if n>0:
            sw_buf.append([sw,n])
    return sw_buf

#去除常用词
def remove_stop_words(text, stop_words):
    #保存过滤词数量的字典
    swords_cnt = {}
        
    while "  " in text: #去掉多余空格 

        text = text.replace('  ', ' ')
    for key, words in stop_words.items():
        swords_cnt[key] = np.zeros(len(words)) #创建向量
        for i,stpwd in enumerate(words):
            if (stpwd) in text:
                text = text.replace(' '+stpwd+' ', ' ')
#                 swords_cnt[key][i] += text.count(stpwd)
                swords_cnt[key][i] += 1
    return text, swords_cnt

#创建词云
def create_word_cloud(text, max_words, img_path=None):
    wc = WordCloud(
        font_path="./simhei.ttf",
        max_words=max_words,
        width=max_words*4,
        height=max_words*4,
    )
    wordcloud = wc.generate(text)
    #写词云图片
    if img_path is not None:
        wordcloud.to_file(img_path)
    return wordcloud/<code>

读取过滤词和敏感词

设置一些路径和全局字典.这里要提醒大家,使用的是jupyter做数据分析这种临时的项目可以这么玩.如果是正经的项目或者工程开发.千万要写配置文件进参数配置,而不是写死在代码里.否则你会被同事和老板diss的.

<code>#读取过滤词和敏感词
stop_words_path = 'stop_words.txt'
bodypart_words_path = "stop_words_bodypart.txt"
color_words_path = "stop_words_color.txt"
motion_words_path = "stop_words_motion.txt"
orientation_words_path = "stop_words_orientation.txt"
role_name_words_path = "stop_words_role_name.txt"
site_words_path = "stop_words_site.txt"
thing_words_path = "stop_words_ting.txt"
title_words_path = "stop_words_title.txt"
 

stop_words = {}
stop_words["default"] = read_words_list(stop_words_path)
stop_words["bodypart"] = read_words_list(bodypart_words_path)
stop_words["color"] = read_words_list(color_words_path)
stop_words["motion"] = read_words_list(motion_words_path)
stop_words["orientation"] = read_words_list(orientation_words_path)
stop_words["role_name"] = read_words_list(role_name_words_path)
stop_words["site"] = read_words_list(site_words_path)
stop_words["thing"] = read_words_list(thing_words_path)
stop_words["title"] = read_words_list(title_words_path)

sens_words_path = 'sensitive_words.txt'
sens_words = read_words_list(sens_words_path)/<code>

数据分析函数

主要就是用正则表达式去除特殊标点,另外jieba分词也是在这里使用的

<code>#文本分析
def analyze_text(text):
    #去标点符号
    article_str = re.sub(r"[0-9\\s+\\.\\!\\/_,$%^*()?;；:-【】+\"\\']+|[+——！，;:：。？、~@#￥%……&*（）]+", " ", text) 

    #整理词云
    article_str = " ".join(jieba.cut(article_str,cut_all=False, HMM=True))
    #记总数
    article_str_cnt = len(article_str.split())
    #检查敏感词
    sub_sens_word_buf = check_sens_words(article_str, sens_words)
    
    #去除过滤词
    article_str, s_cnt = remove_stop_words(article_str, stop_words)
    
    return article_str, article_str_cnt, s_cnt, sub_sens_word_buf/<code>

配置AO3的文章分析

这里还是使用BeautifulSoup进行分析。我希望通过相应html标签找到:

分级文本(rating)
点击量(hits)
发布日期(published)
正文(article)

本来还想提取主角信息来方面滤掉主角名称。但是发现主角名似乎是js代码获取，并不好获取，就放弃了。为了方便文章分析，用正则表达式吧有标点都替换成空格，并把正文中的 p 标签和 br 标签都替换为空格。后期在做NLP提取句子的时候,这里有改动.增加了获取的信息并且用标点预分割出句子.等写到那里的时候再跟大家说明,这里Mark一下.

<code>base_path = "fulltext/"
ao3_pbar = tqdm(os.listdir(base_path))/<code>

<code>#提取ao3文章
def extract_ao3_work(html, stop_words, sens_words):
    soup = BeautifulSoup(html, 'html.parser')
    #提取分级标签
    rating_dd = soup.find('dd', attrs={'class': 'rating tags'}) #找到分级标签
    rating_a = rating_dd.find('a', attrs={'class': 'tag'}) #找到对应的a标签
    rating = rating_a.string #获得标签文字
    
    stats_dd = soup.find('dl', attrs={'class': 'stats'})
    #提取点击量
    hits_dd = stats_dd.find('dd', attrs={'class': 'hits'}) #找到分级标签
    try:
        hits = int(hits_dd.string)
    except AttributeError:
        hits = 0 

    
    #提取发布日期
    published_dd = stats_dd.find('dd', attrs={'class': 'published'}) #找到分级标签
    date_str = published_dd.string

    #提取文章
    article_div = soup.find('div', attrs={'role': 'article'}) #找到文章标签
    article_userstuff = article_div.find('div', attrs={'class': 'userstuff'})
    article_str = str(article_userstuff)
    article_str = article_str.replace("","")
    article_str = article_str.replace("","")
    article_str = article_str.replace("
","")
    article_str = article_str.replace("
"," ")
    article_str = article_str.replace(""," ")
    article_str = article_str.replace(" "," ")
    article_str = article_str.replace("
"," ")
    
    # print(article_str)
    # time.sleep(3)
    return rating, hits, date_str, article_str/<code>

在运行迭代前还要配置一些全局变量存储需要分析的信息,还是那句老话,正经项目注意规范,不要这么干!

普及一下:首先如果公司或者参与的项目有相关的指导和规范就按照指导规范来.

如果没有,尽量遵循以下原则:

死数字尽量改为常量或宏(Python 没有宏)并注意命名区分(通常是全大写);

常量尽可能通过配置文件传入;
尽量少用全局变量,使用类(class)把方法和变量封装在一起;
全局变量命名也需要区分(通常是全大写);

在 python 语法里命名前面加"_"才是局部变量,通常创建的都是全局变量,而大家一般没这个书写习惯,特别是在使用 Jupyter 时,如果不 Restart 很容易混淆,需要特别注意.

<code>all_article_str = "" #所有文字
all_article_str_cnt = 0
sens_word_str = "" #包含的所有敏感词
rating_article_dict = {} #按照分级保存的文字
rating_sens_word_dict = {} #按照分级保存的包含敏感词
stop_cnt = {} #过滤词的计数
for key, words in stop_words.items():
        stop_cnt[key] = np.zeros(len(words)) #创建向量
date_cnt_dict = {} #发表时间字典，按月统计/<code>

对AO3文章进行拆分处理

这里开始对文章进行依次处理.获取后面生成图表所需要的数据.具体步骤代码中都有注释,操作也比较简单,各位自己看吧.

对于 python 的初学者啰嗦两句:

认真学习 for 循环的精髓,善用 enumerate zip 等方法, range效率低且low;
善用字典和列表.列表和numpy的切片功能要掌握清楚,如果从C++等语言转过来,你就知道Python这些功能真的是神方便;
分清软拷贝和硬拷贝,不论那种语言这个都很重要.

<code>for work in ao3_pbar:
    work_path = os.path.join(base_path,work)
    with open(work_path) as f:
        work_str = f.read() #读取文章
    rating, hits, date_str, article_str = extract_ao3_work(work_str, stop_words, sens_words)
    article_str, artstr_cnt, sub_stop_cnt, sub_sens_word_buf = analyze_text(article_str)
    all_article_str += article_str #所有文章文字融合
    all_article_str_cnt += artstr_cnt #所有词语数量加和
    
    #统计日期2020-01-01，按月
    date_elem = date_str.split("-")
    month_date = date_elem[0]+"-"+date_elem[1]
    if not date_cnt_dict.__contains__(month_date): #不存在分级则创建一个
        date_cnt_dict[month_date] = 0
    date_cnt_dict[month_date] += 1
    
    #为每个过滤词添加计数
    for sc, sub_sc in zip(stop_cnt.values(), sub_stop_cnt.values()):
        sc += sub_sc
        
    #所有敏感词融合
    for swlist in sub_sens_word_buf:
        for s in range(swlist[1]):
            sens_word_str += swlist[0] + " "

    #按标签分类文章
    if not rating_article_dict.__contains__(rating): #不存在分级则创建一个
        # 文本，总词数，文章数，总点击量，无敏感词文章数
        rating_article_dict[rating] = ["",0,0,0,0] 

        # 敏感词集合，总敏感词数
        rating_sens_word_dict[rating] = ["",0]

    rating_article_dict[rating][0] += article_str + " "
    rating_article_dict[rating][1] += artstr_cnt
    rating_article_dict[rating][2] += 1
    rating_article_dict[rating][3] += hits
    
    sens_word_cnt = 0 #敏感词计数
    for swlist in sub_sens_word_buf:
        for s in range(swlist[1]): #敏感词重复也计入
            rating_sens_word_dict[rating][0] += swlist[0] + " "
            rating_sens_word_dict[rating][1] += 1
            sens_word_cnt += 1
    
    #敏感词小于一定数量
    if sens_word_cnt < 5:
        rating_article_dict[rating][4] += 1/<code>

分级标签占比

AO3总体中文文章比例：大众向2万8千篇；青少2万4千篇；成人8万1千篇；激烈4万8千篇；未分级6万3千篇。对比抽取样本的比例和总体比例，样本分布还是基本满足均匀分布的。

截止发文时间，AO3有共有中文文章：244595篇，抽取中文文章数量：12066篇

详细的内容说明大家去看我的头条文章或者豆酱的知乎文章即可,我就不复述了.

代码详解: 在jupyter 中使用 plt 绘制图片时经常遇到图太小的问题.可以使用: plt.figure(figsize=(15,15)) 解决.这里使用饼图 pie 来绘制,这个图表比较简单,就没有做复杂的标签.一些复杂操作,后面的图我会分别和大家介绍.

<code>#分级标签
tags = [k for k in rating_article_dict.keys()]
#数值：文章数 2
values = [v[2] for v in rating_article_dict.values()]

#绘制饼图
plt.figure(figsize=(15,15)) 
plt.pie(x=values, labels=tags)
plt.show()

for t,v in zip(tags, values):
    print(t+" "+str(v*100.0/np.sum(values))+"%")/<code>

写作时间统计

我将中文文章写作时间按月统计，注意这个曲线是当月发布的数量，而不是累加值.

这里在之前的爬虫实践中有个风险.由于爬虫使用了 AO3 的搜索引擎,无法确保AO3是否使用了搜索优化算法来影响结果,造成偏差.如果有,那么最容易受影响的就是时间统计. 解决这个问题的方法也比较简单.使用 numpy 的 shuffle 打乱页码基本就可以避免这个问题.

首先获取当前时间的年月,并且去掉,因为本月没有过完,不能反应全月的数字.因为文章统计使用字典保存的,去除当前月的操作相当简单.文章的写作时间是离散的,并且月份是12进制,所以进行统计时,将年份作为整数,月份除以12作为小数部分作为统计即可.最后要注意按照时间顺序使用 np.argsort (输出的是下标顺序) 进行排序,否则折线图是乱的.

<code>#时间标签处理
#删掉当前月份发布的文章以免影响趋势判断
mounth_now = time.strftime('%Y-%m',time.localtime(time.time()))
if rating_article_dict.__contains__(mounth_now):
    print("Contain: "+mounth_now)
    rating_article_dict.pop(mounth_now)
else:
    print(mounth_now+" Not Contained ")
times = []
conts = [] 

for k,v in date_cnt_dict.items():
    k_elem = k.split("-")
    times.append(float(k_elem[0])+float(k_elem[1])/12)
    conts.append(v)
    
sorted_times = []
sorted_conts = []
sortindex = np.argsort(times)
for i in range(len(times)):
    sorted_times.append(times[sortindex[i]])
    sorted_conts.append(conts[sortindex[i]])
    
plt.figure(figsize=(15,15))   
plt.plot(sorted_times, sorted_conts)
plt.show()/<code>

无敏感词文章统计

这张图绘制的元素是比较多的.可以重点注意一下每个条形图上的数字标签是如何生成的. 另外就是图例函数 plt.legend 中 loc=2 表示左上角. best (0) 会在右上角遮住 Mature 的条形图.

这里的小 Tip 是关于字符串的格式化输出,一般有3种: .format 百分号% 和 str()函数直接加.我一般用第一种和最后一种,看大家的喜好了.

<code>#分级标签
tags = [k for k in rating_article_dict.keys()]
#数值：文章数 2 无敏感词文章数 4
values0 = [v[4] for v in rating_article_dict.values()]
values1 = [v[2] for v in rating_article_dict.values()]

#画条形图
x = np.arange(len(tags))
bar_width = 0.3

plt.figure(figsize=(15,15)) 
plt.xticks(fontsize=18,rotation=-45)
plt.yticks(fontsize=30)
a = plt.bar(x, values0, 0.4, color='dodgerblue', label='无敏感词文章数', align='center')
b = plt.bar(x + bar_width, values1, 0.4, color='orangered', label='总文章数', align='center')
# 设置标签
for i,j in zip(a,b):
    ih = i.get_height()
    jh = j.get_height()
    plt.text(i.get_x()+i.get_width()/3, ih, '{}|{:.3}%'.format(int(ih),float(ih)*100/float(jh)), ha='center', va='bottom')
    plt.text(j.get_x()+j.get_width()/2, jh, '{}'.format(int(jh)), ha='center', va='bottom')

plt.xticks(x,tags)
plt.legend(loc=2)
plt.show()/<code>

敏感词数量的分布

敏感词分布绘图没什么好说的,这里被大家指出敏感词库有一些问题,后来经过我手工挑选做了一个新的敏感词库.并且包含了英文敏感词.已经上传到Github上,大家可以去下载.不怕瞎的可以阅读一下.

暴力次品统计也是被大家诟病比较多的一个点.虽然我在文章中也提示了,但是按时引起了争议.因此后续我改用了深度神经网络训练了一个NLP文本分类器专门鉴别

敏感句.并且把句子都摘出来做成了视频.知乎不能上传,有兴趣的小伙伴可以到 B站或者头条去看.

<code>#分级标签
tags = [k for k in rating_article_dict.keys()]
tags.append("All")
#数值：敏感词数 除以 总词数
values = [v[1]/s[1] for v,s in zip(rating_sens_word_dict.values(), rating_article_dict.values())]
values.append(len(sens_word_str.split())/all_article_str_cnt)
#画条形图
plt.figure(figsize=(15,15)) 
plt.xticks(fontsize=18,rotation=-45)
plt.yticks(fontsize=30)
plt.bar(tags, values)
for a,b in zip(tags, values):
    plt.text(a, b+0.0001, '{:.3}%'.format(b*100), ha='center', va='bottom')/<code>

创建并显示词云

词云显示这里比较出彩的就是敏感字替换了,先前我自己写代码时,词云已经被我替换的面目全非了.但是豆酱提出这样不能够对大家造成冲击,于是直接使用拼音首字母替换了.其中一个有趣的工作就是用 utf8 编码对很H的字进行替换.大家可以自己看看被 utf8 遮住的是什么字.

<code>def harm_text(text, ignore=False):
    if ignore:
        return text
    hrmonious = {}
    #不需要请注释下方
    hrmonious['\\\\\\u5988'.encode('utf-8').decode('unicode_escape')] = 'M' 
    hrmonious['\\\\\\u5c04'.encode('utf-8').decode('unicode_escape')] = 'S'
    hrmonious['\\\\\\u5a4a'.encode('utf-8').decode('unicode_escape')] = 'B'
    hrmonious['\\\\\\u75f4'.encode('utf-8').decode('unicode_escape')] = 'C'
    hrmonious['\\\\\\u4e73'.encode('utf-8').decode('unicode_escape')] = 'R'
    hrmonious['\\\\\\u5978'.encode('utf-8').decode('unicode_escape')] = 'J'
    hrmonious['\\\\\\u6027'.encode('utf-8').decode('unicode_escape')] = 'X'
    hrmonious['\\\\\\u88f8'.encode('utf-8').decode('unicode_escape')] = 'L'
    hrmonious['阴'] = 'Y'
    hrmonious['\\\\\\u7a74'.encode('utf-8').decode('unicode_escape')] = 'X'
    hrmonious['\\\\\\u8361'.encode('utf-8').decode('unicode_escape')] = 'D'
    hrmonious['鸡'] = 'J'
    hrmonious['\\\\\\u830e'.encode('utf-8').decode('unicode_escape')] = 'J'
    hrmonious['\\\\\\u6deb'.encode('utf-8').decode('unicode_escape')] = 'Y'
    hrmonious['\\\\\\u6170'.encode('utf-8').decode('unicode_escape')] = 'W'
    hrmonious['高'] = 'H'
    hrmonious['爱'] = 'A'
    hrmonious['头'] = 'T'
    hrmonious['内'] = 'N'
    hrmonious['插'] = 'C'
    hrmonious['情'] = 'Q'
    hrmonious['春'] = 'C'
    hrmonious['\\\\\\u9f9f'.encode('utf-8').decode('unicode_escape')] = 'G'
    hrmonious['脱'] = 'T'
    hrmonious['教'] = 'J'
    hrmonious['做'] = 'D' 

    hrmonious['阳'] = 'Y'
    hrmonious['潮'] = 'C'
    hrmonious['呻'] = 'S'
    hrmonious['摩'] = 'M'
    hrmonious['交'] = 'J'
    hrmonious['下'] = 'X'
    hrmonious['抽'] = 'C'
    hrmonious['感'] = 'G'
    hrmonious['色'] = 'C'
    hrmonious['液'] = 'Y'
    hrmonious['调'] = 'T'
    hrmonious['水'] = 'S'
    hrmonious['按'] = 'A'
    hrmonious['道'] = 'D'
    hrmonious['叫'] = 'J'
    hrmonious['激'] = 'J'
    hrmonious['\\\\\\u68d2'.encode('utf-8').decode('unicode_escape')] = 'B'
    hrmonious['体'] = 'T'
    hrmonious['嫩'] = 'N'
    hrmonious['肉'] = 'R'
    hrmonious['丝'] = 'S'
    hrmonious['吟'] = 'Y'
    hrmonious['庭'] = 'T'
    hrmonious['奶'] = 'N'
    hrmonious['屁'] = 'P'
    #不需要请注释上方

    for k,v in hrmonious.items():
        text = text.replace(k,v)
    return text

def code_utf8(dic):
    for key in dic.keys():
        uc = key.encode('unicode_escape').decode('utf-8')
        print(key + " || " + uc + " || " + uc.encode('utf-8').decode('unicode_escape'))

#code_utf8(hrmonious)/<code>

<code>print("#创建文章所有词云")
all_wc = create_word_cloud(harm_text(all_article_str), 500) #"wordcloud.jpg"
plt.figure(figsize=(15,15)) 
plt.imshow(all_wc)
plt.axis("off") 

plt.title("文章所有词语的词云")
plt.show()
print("#创建文章所有敏感词的词云")
sens_wc = create_word_cloud(harm_text(sens_word_str),100) #"sens_wordcloud.jpg"
plt.figure(figsize=(15,15)) 
plt.imshow(sens_wc)
plt.axis("off")
plt.title("文章敏感的词云")
plt.show()
print("#创建分级文章所有词云")
for k, word in rating_article_dict.items():
    r_all_wc = create_word_cloud(harm_text(word[0]), 500) #k+"_wordcloud.jpg"
    plt.figure(figsize=(15,15)) 
    plt.imshow(r_all_wc)
    plt.axis("off")
    plt.title(k+" 的词云")
    plt.show()
print("#创建分级文章敏感词的词云")
for k, sens in rating_sens_word_dict.items():
    r_sens_wc = create_word_cloud(harm_text(sens[0]), 100) #k+"_sens_wordcloud.jpg"
    plt.figure(figsize=(15,15)) 
    plt.imshow(r_sens_wc)
    plt.axis("off")
    plt.title(k+" 的敏感词的词云")
    plt.show()/<code>

这里只放一张图

点击率对比

剩下的基本都是重复工作了,我就不再赘述,这里就贴两个代码和图了事.

<code>#分级标签
tags = [k for k in rating_article_dict.keys()]
#数值：文章数 2 总点击量 3
values = [v[3]/v[2] for v in rating_article_dict.values()]

#画条形图
plt.figure(figsize=(15,15)) 
plt.xticks(fontsize=18,rotation=-45)
plt.yticks(fontsize=30)
plt.bar(tags, values)
# for a,b in zip(tags, values):
#     plt.text(a, b+0.0001, '{:.3}%'.format(b*100), ha='center', va='bottom')/<code>

主角统计

平台喜欢的主角名称，只取了排名Top30。

<code>#拆分数据
keys = list(stop_words['role_name'])
values = list(stop_cnt['role_name'])

#数据过多取排名靠前的数据
sub_keys = []
sub_values = []
sortindex = np.argsort(values)[::-1][:30]
for i in sortindex:
    sub_keys.append(keys[i])
    sub_values.append(values[i])
    
#画条形图
plt.figure(figsize=(15,15)) 
plt.xticks(fontsize=13,rotation=-70)
plt.yticks(fontsize=20)
plt.bar(sub_keys, sub_values)/<code>

横向对比

最后的横向对比实际就是拿了 《羊脂球》、《百年孤独》、《红楼梦》、《金瓶梅》 四篇文章进行一个对照.这里代码就是把前面的东西再跑一遍.只是点击率，日期是无法统计的，分级标签替换为书名,书的内容不需要html处理。其余数据分析与上面一致。我就不再说明了.

我主要阐述一下这里的问题:

4篇文章对比1万2千多篇文章是没有太大对比性的.很多小伙伴都提出了这个问题.这个也是文中最大的逻辑Bug.解决方案很简单.取国内合规网文或同人文的语料,规模大致与这个1万2千篇规模相当.按照上面的步骤跑一遍即可.我在文章中也有提到过四篇对比就是一个抛砖引玉的工作.

这个事情在当时,不论做不做都对文章结论影响不大所以就没做大规模对比了.结果没想到居然还被揪出来diss.再加上后来豆酱又15天不能说话.索性就把.NLP 句子识别做出来了.而且是弄了600篇直接把检测句子贴出来.因为我们发现真的很少人去仔细看文.就是欺负大家看不到AO3的内容.

视频在 B站和头条西瓜上都有.那个数据的代码和技术分析我也会陆续发出来.(上班周更党大家理解下)(PS:我上周就把深度学习的代码push上去了,结果今天写文检查代码库的时候发现上传错了,把珍藏的杀手锏搞上去了,不过估计也用不上了,我也不会撤掉,是啥大家自己去看吧.视频相关的代码我会在明天再整理一下上传)

写在最后

实际上我并不是从事数据分析专业工作的,做这些完全是正好想学习+玩,又正好碰上豆酱关注这个事情.不论227对大家有什么影响,反正对我是受益良多的.

我也希望我能引起小伙伴们的兴趣,一起加入学习探索.实际上编程开发的乐趣是一个创造和探索的乐趣.这与这个纷纷扰扰的社交世界是完全不同的体验.也希望我做的工作除了引发更多口水外也能真正帮助到大家.

分享到:

閱讀更多 大德奧 的文章

關鍵字: 图像处理 Bilibili 一万

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

刚刚:刚刚工作的毕业生，一个月只有2000多，是不是太少了？根据你城市消费水平来看啊，还有你从事的工作，假如你在二三线城市做一份事业单位或者是编制类的工作，薪资水平是随着你工作年限逐年增长的，而且在年终也有很多福利补贴待遇等等，算下来收入也是可观的，再举一个例:-毕业生 2000

为什么只有edg赚钱？

电竞行业作为一个新兴产业，这几年发展势头越来越好，IG战队，FPX战队先后夺得了s8-s9世界赛的冠军，据俱乐部知情人士透露，除了国内的几家豪门俱乐部之外，其他俱乐部基本都是亏钱在做的，当然EDG也是:-edg 赚钱:为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

20000:网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？天猫旗舰店，或者淘宝旗舰店，或者京东旗舰店肯定包真，质量好，再说可以官方验证啊，不能图那十块五块的便宜，毕竟一个充电宝要用好久呢，一两年没问题的。:-罗马仕马仕毫安

我们买的新商品房还没有拿到房产证，怎么转卖最好？

没有取得房抄产证的房子可以转让。但如果确定无法取得房产证的，房产转让不受法律保袭护。一般情况下，只有取得房产证的房屋才能确定房屋产权人，才具有转让的条件。但如果房屋是合法取得的，以百后可以依法办理度房:-转卖房产证商品房拿到:我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

锋利突厥人你这样说只能说明你对历史非常不了解，我先用一句话概括突厥被大唐雄兵打的有多惨：三次灭国，背井离乡，远赴西亚，打不过，俺躲着你还不行吗？突厥的意思是中间怂起的头盔。其来历已经不可靠，可能有着匈奴、鲜卑或:-复国大唐:为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

小高层 60:小高层16层高楼间距60米哪一层比较好？首先需要明白，选择层数居住与楼间距毫无关系，住在哪一层，肉眼看对面楼的距离，是相差不大的。设定楼间距60米，纯粹是混淆视听。其实，一幢楼的楼层总数确定的情况下，到底哪一层最佳？很简单，取总层数乘以黄金:-楼间距层高

金银花盆栽好养吗？怎么养？

金银花可以盆栽，很好养的！金银花，是忍冬科的常绿缠绕灌木，枝条柔韧修长，多攀爬或匍匐生长。金银花生性强健，在我国的很多南方省份野外很多地区都能看到它的身影，叶子常年翠绿，到夏季开花，飘香四溢。所以，有:-金银花盆栽:金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

长城真的无用吗？在今天许多人认为长城无用，古代国家举国之力建造的长城不过只是文物，就连康熙都曾作诗讽刺，原文如下：万里经营到海涯，纷纷调发逐浮夸。当时用尽生民力，天下何曾属尔家。-康熙但真的如此吗？小:-匈奴抵御长城:长城对于抵御古代匈奴和蒙古人起到了多大作用？蒙古人

什么树可以嫁接腊梅？

腊梅只能嫁接在不同品种的腊梅上，其他的树种不行！腊梅的繁殖可以用播种，压条，嫁接，分株等繁殖方法。播种法因不易保持花卉的原有优良特性，且播种的优点是在于大量繁殖，而腊梅大都只需培植少量几株，故一般都不:-腊梅嫁接:什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

堪忧五一假期:行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？事实上，因为教育培训都是预收费用的模式。但凡有一点点规模的培训机构老师。在上半年，带课量是可以得到保证。:-课时量

在农村“立夏节”都有哪些民间习俗？

民间习俗农村:在农村“立夏节”都有哪些民间习俗？在农村“立夏节”都有哪些民间习俗一、农村立夏常见的习俗风俗活动：1、吃鸡蛋“立夏吃蛋”习俗由来已久，俗话说“立夏吃了蛋，夏天不疰夏”。据说立夏开始天气越来越热，村里小孩儿会有身体疲劳四肢无力的感觉，吃:-立夏节

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

失望分手看法:男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？你的这个问题特别的有趣，我觉得你先不要看你要怎么做才让他才能让他对你的印象有所改变，你要去看为什么是两个月之后可以在一起，这两个月他会用来做什么，为什么会有这两个月？例如他的身体碰到了什么样的问题吗？:-答应我

工程分包乙方人员伤残谁承担？

承担:工程分包乙方人员伤残谁承担？分包乙方分包致人伤残责任谁承担？严格来说，需要了解更多伤残原因才能区分的，作为非专业人士，自己发表一点浅见供题主参考：1、如果甲方是央企的话，他们合同中的责任、义务等条款内已经将自己的责任全部撇开了，更会:-乙方伤残

有哪些看起来毫不相关的两个历史人物实际上有过联系？

实际上:有哪些看起来毫不相关的两个历史人物实际上有过联系？历史人物联系这个词貌似太宽泛了，就好像有一个调皮的答案说的，胡亥和溥仪相隔2000多年，牵强的找，也有联系：都是亡国之君不是。我想题主的意思是两个看起来应该风马牛不相及的人物，在历史上居然是熟悉或是一个时代的:-毫不相关

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

法系车不保值，如果准备常开可以入手，性价比高，价格应该在二至三万之间，二手车一车一况，一况一价，居体价格看车况。:-钱能水泡:13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？世嘉自动挡

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

17年驾驶证二手:22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？建议买日系二手车，开顺了卖了，买新车，昂克赛拉无法再次出手时获得好价格，而且也不省油，开完日系车直接换德系:-昂克赛拉

如何骑车去台湾骑行？

骑车在台湾没有回归内地前，最好不要去台湾，一是国内政策不允许你去台湾，因为已停止了台湾个人游。二是你偷着去台湾旅游，安全没有保障，偷渡客在哪里也没有安全保障的。以后内地政策允许个人去台湾旅游了，建议那时再:-骑行台湾:如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

预算:本人预算5万左右，想买一辆二手法系车！求推荐？ 5万预算5万元左右，想买一辆二手法系车？推荐东风标致老款308车型。1 5万元可以买标致308车况好的，没大事故呢，年限15年左右，公里数3万左右，手动档车型。2 标致308车型，底盘调教扎实，跑高速稳定:-法系二手

14年进口马自达5PK进口10年道奇酷威买哪个划算？

道奇你好，好高兴回答你的问题！14年进口马自达5和10年月道奇酷威个人感觉马自达5比较划算。新车价马5报价29.99万，酷威19.38万两款车都是原装进口，马5属于日系，酷威属于美系。两款车不属于同类车型:-酷威马自达 14年:14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

特殊津贴高校人才就要重视，河南省高校人才更要重视，这个人才不是评出了的，而是推荐出来的，没有推荐，连参评的资格都没有。国务院特殊津贴人员推荐，不推荐是百分百没希望，推荐了希望就非常，那么是什么是国务院特殊津贴:-河南大学并列 2020年:2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

李老猫说车为你非专业解答各种选车用车问题本田crv定位于一款紧凑级suv产品，主要对飚丰田荣放，日产奇骏，这款车整体市场表现非常突出，2019年全年累计销量为18.44万台，平均月销1.5万以上，其深:-舒适版本田油耗:本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

1.世界经济遭到重创疫情影响之下，各行各业基本属于停工停产的状态，在世界经济趋于一体化的今天，停工停产势必会造成一系列的连锁反应，最后导致的结果可能会引发金融危机。2.世界格局可能发生改变美国仍是世界:-头脑风暴控制:国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？疫情国外

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

如果有15万元的预算，让你选择一台空间和动力都很不错的小型SUV，我觉得很多的读者都会想到本田XRV这款车型。因为本田XRV确实太出色了，和同级别的其他盒子SUV车型相比，这款车在空间和动力上都有优势:-xrv 自动:本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？本田豪华版

现在存款有14万，借了5万还没收回来，该做什么好？

何去何从:现在存款有14万，借了5万还没收回来，该做什么好？续租存款利息率较低，可以投资较高收益的项目，比如投资基金，一般情况下可获得6%一10%的回报。如果行情好可达到50%以上收益，去年不少基金超过这目标。目前受疫情影响，股市在低位震荡，也是基金投资的机会。一:-存款 2300

2070super和5700xt买哪个比较好？

如果是玩游戏毫无疑问选择n卡，也就是2070 suep。如果追求性价比可以选择a卡，也就是5700xt. 为什么游戏选n卡呢？首先游戏厂商针对n卡优化比较多，然后就是功耗小，然后N卡架构执行效率极高，:-:2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

二胎我是两个孩子的妈妈，曾经的我和你一样，生完宝宝我也抑郁了，我知道抑郁症真的很痛苦，产后的那段日子我整天都不开心，做什么事也没积极性，谁也不想搭理，别人给我说话我就觉得很烦。忍不住冲家人发脾气。每当一个:-生完抑郁:生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？发火

人这一生遇到的人和事为什么感觉都像是必然的经历？

感觉:人这一生遇到的人和事为什么感觉都像是必然的经历？正所谓有因必有果，所以你今天的因，就会产生明天的果。所以这一切你就会觉得是必然的。生活中大部分是普通人大家的生活规律，生活方式，大致相同。当你看到别人家庭的果，自己家也产生同样的果，你就会觉得这一切是:-人和经历

现在校内校外到底教的是美式英语还是英式英语还是混搭英语？

校内:现在校内校外到底教的是美式英语还是英式英语还是混搭英语？校外英式答案肯定是不唯一的！美式英语现在是主流，少量英式发音也个别存在！但对于孩子来说，肯定是混搭英语，因为孩子肯定不是一直一位老师教下去，肯定会换老师！而老师的发音肯定是既有英式的，也有美式的！就连一些英语:-美式英语

上有老下有小，我们真的跳不出这个人生循环了吗？

上有老魔咒:上有老下有小，我们真的跳不出这个人生循环了吗？的确如此，尽管现在不结婚，晚婚的人很多，但是从人类繁洐生息的历史和大多数人来看，成家立业，生儿育女，家庭仍是主流，一个人的生理，心理和生存需求決定了生存状态，生儿育女，瞻养父母即是义务责任，也是生活动:-下有小

如果外面正在下小雨，你会突然想起了谁？

想起:如果外面正在下小雨，你会突然想起了谁？我最不忘，还是秋日的雨夜，天又凉了几分，已经需要披上一件薄薄的外套了。临窗而望，眼见窗台上的几株小植物，叶片上沾了几滴小雨珠，我总喜欢，用小手电去照它们，这样的小水滴看起来晶莹晶莹的，有一种清清凉凉的:-小雨

初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？

初中同学:初中同学许久未见大学期间突然联系请吃饭，态度还良好，我给推了，会不会让人很烦？吃饭许久未见，意思就是交情不怎么样，无功不受禄，人家凭什么那么热情，难道真的是多年一来忘不了咱们之间的同学情谊，倍感想念了吗，不是请帮忙、做业务、就是借钱，十有八九十借钱。我建议还是不要去的好，大家都很忙:-许久未见

现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？

出口心理:现在我觉得认真对某个人说我喜欢你什么的这种话好恶心，我爱你更说不出口，好恶心，是什么心理？爱你更多的是心里问题，可能对方还没有优秀到你满意的程度，更没有到那种离不开的地步！爱情最终还是要回归生活，而生活离不开两个人的相处，父母终究会老，孩子终究会飞，所以选择自己的伴侣尤为重要，你现在觉得恶心更:-喜欢你

剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？

再见王沥川好看:剧版的《何以笙箫默》和《再见王沥川》哪一个更好看呢？《遇见王沥川》吧，高以翔的王沥川太招人稀罕了。长相，身材，家世，人品，才能样样好，简直完美，挑不出任何毛病，实在要说一个缺点的话，那就是太tm完美，天妒英才、才让他饱受病魔折磨。偶像剧、深情帅气的男主:-何以笙箫默

计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？

学历是求职必备条件。有了工作不能停止对知识的探索。更高的学历，可以让你有更专业的技术能力和学习能力，可以让你拓展自己的交际圈，可以让你更知名。总之，活到老，学到老，学习对人总是有好处的，技多不压身嘛！:-字节跳动:计算机专业本科能够进入字节跳动、华为这些公司做开发吗？是否还需要继续读研？读研计算机专业

生完二胎的你们，现在有什么感想？

二胎家庭日常是什么样的？是不是觉得家里多了一个小人儿，温馨多了？不存在的！生二胎根本是妈妈们的渡劫磨砺！以前周末睡到自然醒，现在全年无休，时刻警醒着，能睡一次懒觉跟过年似的，黑眼圈不说，头发呼啦啦地掉:-生完二胎感想:生完二胎的你们，现在有什么感想？

华北适合种植蚕豆吗？

华北适合种植蚕豆，种蚕豆的面积大，在西北，华北，都在种植蚕豆，蚕豆茎秆根部有根瘤菌是种植其它农作物的好茬地，特别是土壤培养和防病虫害起到作用。:-蚕豆种植适合:华北适合种植蚕豆吗？华北

华为手机更新EMUI10.1系统后效果咋样？

大家知道现在智能手机的性能不仅仅跟智能手机的硬件有关，还跟智能手机的系统软件息息相关，在国产智能手机操作系统里，小米的MIUI系统跟华为的EMUI系统都是比较优秀的操作系统。最近小米推出了小米MIUI:-咋样华为华为手机更新:华为手机更新EMUI10.1系统后效果咋样？

大热天蜜蜂老是爬到箱外结群正常吗？

蜜蜂爬到:大热天蜜蜂老是爬到箱外结群正常吗？盗蜂现在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的时间，所以蜂群中是非常容易发生盗蜂的。在蜂群中发生盗蜂的时候，蜂群守卫蜂会增多，但是这种情况引发的蜜蜂在蜂箱外一般不会结团，只是蜜蜂来:-大热天

辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

最佳期雾都山客来回答您的问题。最近山客家乡的村民正在进行辣椒移栽，确实有像题主提到的情形，辣椒苗移栽前长势葱葱，嫩绿喜人，但是移栽后几天内就出现萎蔫现象，细心观察也不是被病虫害危害。那究竟是什么原因导致辣椒:-苗蔫辣椒咋回事:辣椒正是生长最佳期，偏偏有的辣椒苗蔫，不是病虫害是咋回事？

手机相机发展的最终形态会是怎样的？

最近这几年手机在电子产品行业里可谓是发展速度非常快，苹果和华为两大公司可以说也是，明争暗斗，产品一次比一次有卖点，前一段时间华为和苹果还都推出了手机新品，两家都在大力宣传强调着拍照功能，像iPhone:-形态相机手机最终:手机相机发展的最终形态会是怎样的？

华为为什么不出一款5寸全面屏手机呢？我想应该会有很多人支持吧？

5寸手机支持:华为为什么不出一款5寸全面屏手机呢？我想应该会有很多人支持吧？很高兴回答你的问题，刷头条刷出来的问题，看到很多人回答，感觉还有一些观点没有写出，所以我来回答一下。首先，华为为什么不出小尺寸全面屏手机？其实并不只有华为一家没有出小屏手机，放眼近期各大手机厂商发布的:-华为

生吃山芋，生吃胡萝卜，还有哪些蔬菜可以生吃呢？

胡萝卜蔬菜:生吃山芋，生吃胡萝卜，还有哪些蔬菜可以生吃呢？第一种，黄瓜。这个瓜，可不是菜市场中堆放满满的青瓜。各位可要睁大眼睛看清楚了，这个黄瓜，青中带黄，品种属以前乡下农户少量种植的，形态上面来看这种瓜矮、短、圆，表面覆盖有比较淡的细毛，经水轻轻冲洗之后整:-山芋

为什么马铃薯不宜过早过迟播种？

不宜:为什么马铃薯不宜过早过迟播种？播种过早为什么马铃薯不宜过早过迟播种？马铃薯的种植主要是由于气候条件的限制，过早出苗后容易遇到低温被冻死，种植晚了容易遇到干旱和高温，影响产量。马铃薯种植时间的早晚必须根据种植地方的气候条件来确定。马铃薯生长:-马铃薯

疫情愈发严重，原油为何反而大涨？

原油愈发:疫情愈发严重，原油为何反而大涨？疫情愈发严重和原油大涨没有必然关系。但是资金总是从高处流向低处，原油价格跌的越多，投资价值越明显，相对于其他产业更有投资价值。举个例子：深圳南山房价均价大约6万左右，宝安均价5万左右，如果南山房价涨到:-疫情

生菜球很好吃，怎么种植才能高产呢？

种植:生菜球很好吃，怎么种植才能高产呢？高产对环境条件的要求、1.温度生菜球为喜冷凉、忌高温作物，种子在4度以上可发芽、以15～20度为发芽适温。幼苗能耐较低温度，日平均温度12度时生长壮健，叶球生长最适温度为13～16度。不过目前有些结球生菜:-生菜

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？

看下这个户型三房改四房，改一个小房间，应该没有问题。△原户型图这个户型改四房，能改的方案比较多，但是修改以后是否好用，是一件值得考虑的事情。一、主卧室变为两个卧室可以将主卧室改为两个卧室，但是这样的改动占:-房改 122:装修高手来帮忙看下144平，套内122平，怎么三房改四房？？ 144

大家帮忙看看这个房子如果要砸墙的话，怎么改比较好？

房子:大家帮忙看看这个房子如果要砸墙的话，怎么改比较好？这个户型砸墙，当然可以砸墙，但是在砸墙之前，要搞清楚为什么要砸墙，砸墙以后有什么优劣。△原户型原户型图上的白色墙体部分不是承重墙，理论上说否可以砸掉。但是外墙和与旁边户型或者是公共区域的共用墙体和图上:-帮忙

意蜂夏季喝什么水降温？

降温意蜂夏季喝什么水降温？气温高，蜂巢温度高的情况下，蜜蜂是通过采水的办法挂在蜂箱的四壁来蒸发带走热量，降低蜂巢温度同时也能帮助蜂群维持正常的湿度。在平常的情况下，蜜蜂是在室外采自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什么水降温？

黄瓜种子催芽后种植需要打底水吗？

黄瓜种子:黄瓜种子催芽后种植需要打底水吗？你好很高兴回答这个问题。答案：不用。1-2天可出芽。黄瓜种子催芽：选用饱满的种子，用30℃水浸泡4小时后催芽。也可用100倍福尔马林溶液浸泡种子10-20分钟，洗净后清水浸种3-4小时，然后于25-3:-催芽黄瓜打底

书友们展示一下自我感觉发挥较好的作品，一起学习？

自我较好这幅作品是参赛的，色彩的搭配，纸张的拼接都是自己设计完成的，一如既往的清新淡雅感觉。书体用的魏碑中楷书，增加了书写的趣味性。:-书友展示:书友们展示一下自我感觉发挥较好的作品，一起学习？