Python量化爬蟲從入門到圍城-序言和目錄(持續更新中)

修订历史记录


Python量化爬虫从入门到围城-序言和目录(持续更新中)

修订历史记录

一、序言

2020年,注定为一个不平凡的年份,也进一步催生了“宅文化”的发展。庚子年初疫情下的冷思考:如何利用宅出来的时间丰富生活和创收?也就顺理成章成为在今日头条上开通了头条号的理由。一只无头的苍蝇就开始在今日头条上乱逛。分析如何做好今日头条?分析今日头条的赚钱方式。总之,似懂非懂,云里雾里。

笔者又投入了学习大V的文章,学习文章编写技巧(如:聚焦垂直领域、图文结合、踩热门关键词、标题的艺术、模仿大V文章、发文黄金时间、增加头条指数(官网已取消)等)。文章也看了,技巧也学了;还是似懂非懂,云里雾里。总结一句话:数据为王、内容为王,提升内容吸粉能力,快速提升有效粉丝、点赞、阅读、评论的数量。

但是随着时间的推移,发现需要在30天内开通4条优质问答,才能实现收益。对于程序员出生的新手,时刻想着怎么通过计算机手段提升效率。如何快速提升操作效率呢?

什么是Python量化爬虫

Ryan Mitchell说过:如果编程是魔术(magic),那么网络数据采集(又称为:网络爬虫)就是巫术。

网络爬虫,在互联网上进行自动数据采集,其涉及非常广泛的编程技术和手段,比如:数据分析、信息安全等。

基于Python语言实现可量化的网络爬虫的各项参数、数据规模等,称之为Python量化爬虫。

为什么要写Python量化爬虫从入门到围城

首先想到的就是Python爬虫,Python的胶水语言特性,且对于程序员和非程序员易于上手。又通读了Python爬虫宝典图书:图灵程序设计丛书《Python网络数据采集》,意识到爬虫的法律风险,也意识到了爬虫的广阔前景。想着梳理一下在法律风险和道德约束下,如何利用python爬虫,实现从python爬虫入门到法律围城下的python爬虫功能;顺便在头条号上记录下来,一来提升头条号运营效率,二来提升粉丝数;三来与有相似想法的同仁共同探讨。

通过梳理,也可以为今日头条提出功能优化需求并记录,促进头条更优质的服务社会,更好的实现今日头条提倡的“信息创造价值”的理念。

也就有了编写《Python量化爬虫从入门到围城》的想法和动力。

关于本文章的声明

本文章是笔者用来记录Python量化爬虫的学习过程和学习心得体会,会利用宅出来的时间持续更新,并记录更新内容。本项目只作为娱乐学习使用,禁止使用本项目源码进行任何商业利用;同时不要把在本文章中涉及到的对法律法规和道德约束的解读理解为专业的法律意见或规范,仅仅作为抛砖引玉,但是在做那些可能要承担法律责任的网络爬虫项目之前,请咨询专业律师而不是软件工程师。对使用本文章中的内容造成的一切风险及后果均由使用方负全责,请谨慎使用。

本系列文章为Beta版本,动态更新补充内容,笔者使用业余空闲时间来完成,进度可能会有滞后,望见谅!

本系列文章中未完成的章节内容以非连接显示,已完成章节内容会添加上文章链接方便跳转,并用淡蓝色底色标注。本系列文章内容免费,其中代码基于Python3.X。

关于建议收集

欢迎大家积极参与评论,并提出宝贵意见,笔者会积极采纳优质意见,并注明出处,并在文中一并感谢;请通过头条评论或者私信与我联系;如果通过头条私信提出建议,请用“[01建议]”打头,便于笔者更准确的收集到您的建议和观点。

关于转载

请各位大神若喜欢本文章中的内容,将本内容转载到自己的今日头条号、博客、微信公众号、或其他公共区域,请转载时注明来源和转载地址,谢谢!

关于侵权

笔者在此声明,文章中的涉及到的内容,如果侵犯了您的权益,请与我联系撤出;笔者也保留本文章的权益。

联系方式

请通过头条号评论或者私信联系笔者,头条号地址:https://www.toutiao.com/c/user/63952065914/

致谢

感谢对本文章提出了宝贵意见的大神们。

二、目录

序言

第一部分 Python量化爬虫的法律与道德约束

第1章 爬虫的法律风险

1.1 爬虫的国际法律风险

分析国际上针对爬虫的法律,以及存在的法律风险。

1.2 爬虫的国内法律风险

分析国内针对爬虫的法律,以及存在的法律风险;分析国内主流互联网公司对爬虫的法律风险说明。

1.2.1 国内法律风险

分析中国适用于爬虫的法律,以及存在的法律风险。

1.2.2 企业申明

以头条网站为例,进行深入分析。

1.3 侵权案例

分析典型侵权案例。


第二部分 Python量化爬虫的价值篇

以“信息创造价值”为目标,分析量化爬虫的价值,并在法律风险可控范围内进行量化爬虫。

第1章 量化爬虫的价值

1.1 什么是爬虫?

介绍什么是爬虫?

1.2 什么是Python量化爬虫?

分析什么是基于Python语言的量化爬虫,为什么做Python量化爬虫?

1.3 Python量化爬虫的作用和功能

详细展开分析Python量化爬虫的作用和功能,动态补充。


第2章 Python量化爬虫的围城

2.1 约束分析

分析python量化爬虫在约束下,整体描述哪些能做,哪些不能做?

2.2 围城下的Python量化爬虫功能

详细分析在约束下,分类展开分析Python量化爬虫的功能,动态补充。

2.3 如何开拓围城

在法律和道德约束下,分析如何拓宽量化爬虫的功能范围?


第三部分 Python量化爬虫的实践篇

从实例出发,测试驱动开发,反向推动python学习;并以头条爬虫为例。分两阶段分类介绍python量化爬虫的功能实践过程。

第1章 基础篇

1.1 Python语言基础知识图谱

1.2 环境搭建

介绍开发环境的搭建、运行环境的搭建。

1.3 Python爬虫基础知识图谱

介绍网络爬虫基础知识,解析HTML、网站API分析、数据存储、数据读取、数据库访问等。

1.4 Python爬虫基础知识分类学习


第2章 进阶篇

2.1 Python爬虫进阶知识图谱

包含数据分析、数据清洗、JavaScript调用等功能。

2.2 Python爬虫进阶知识分类学习


第四部分 Python量化爬虫的运营篇

第1章 如何构建自己的运营平台

根据需求分析,在约束条件下,构建自己的运营平台。

第2章 python量化爬虫采集中心

分析采集中心,采集数据来源、采集数据种类;并分类汇总。

第3章 python量化爬虫工具集

基于python数据处理需求,整理需要的工具集。

第4章 AI智能评估中心

基于采集数据,结合AI深度学习算法、热词分析和用户行为分析等手段,实现智能评估中心。

第5章 能力开放平台

在运营平台基础上,实现功能扩展。

附录

附录A:推荐辅助工具集

附录A.1:Markdown语法

对今日头条优化建议梳理

建议1:提升发布效率

希望头条内容编辑支持Markdown快捷键和Markdown格式文件导入,开通与其他平台的接口,丰富内容发布方式和提升发布效率。


分享到:


相關文章: