網絡中獲取大數據時使用代理ip的好處

2019-10-31 08:47:12 Snowdays

代理ip的益處

代理服務器英文全稱是（Proxy Server），也叫做代理IP，其功能就是代理網絡用戶去取得網絡信息。形象的說：它是網絡信息的中轉站。代理服務器就好像一個大的Cache，這樣就能顯著提高瀏覽速度和效率。更重要的是：Proxy Server（代理服務器）是Internet鏈路級網關所提供的一種重要的安全功能。

代理服務器的好處

1、防止攻擊：隱藏自己的真實地址信息，還可隱藏自己的IP，防止被黑客攻擊。

2、突破限制：代理服務器還可以突破網絡限制。比如局域網對上網用戶的端口，目的網站，協議，遊戲，即時通訊軟件等的限制，都可以突破這些限制。（有些公司禁止員工玩遊戲或上某些網站，這種情況就可以試試看代理服務器）。

3、掩藏身份：代理服務器知識是黑客基本功，黑客的很多活動都是通過代理服務器，比如掃描、刺探，對局域網內機器進行滲透，黑客一般攻擊的時候都是中轉了很多級跳板，才攻擊目標機器。隱藏了身份，保證了自己的安全。

現如今很多網站給我提供不少的代理IP使用網站，但是數據太多需要我們手動複製太過於麻煩，則我們可以批量獲取下來，然後進行使用。

使用python批量獲取代碼如下：

import requests

import pandas as pd

import random

import time

import json

import re

from bs4 import BeautifulSoup as BS

def req_res(url):

# 隨機請求頭

USER_AGENT = [

"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)",

"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",

"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",

"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",

"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",

"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)",

"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",

"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",

]

user_agent = random.choice(USER_AGENT)

headers = {'User-Agent': user_agent}

response = requests.get(url, headers=headers).text

return response # 返回響應

# 解析ip

def parse_res(response, items):

soup = BS(response,'lxml')

# 先取出所需數據位置

tr_list = soup.select('#list > table > tbody > tr')[1:]

# 遍歷列表取出所需數據

for tr in tr_list:

ip_add = tr.select('td')[0].text # 獲取ip地址

port = tr.select('td')[1].text # 獲取端口

server_add = tr.select('td')[4].text # 服務器地址

anonymous_type = tr.select('td')[2].text #否匿名

http_type = tr.select('td')[3].text # http類型

time_pr = tr.select('td')[6].text # 驗證時間

# 數據錄入字典

item = {

'IP地址': ip_add,

'端口': port,

'服務器地址': server_add,

'匿名信息': anonymous_type,

'類型': http_type,

'驗證時間': time_pr

}

items.append(item)

return items

def main():

url = 'https://www.kuaidaili.com/free/inha/'

start_page = int(input('\\n請輸入起始頁碼：'))

end_page = int(input('\\n請輸入結束頁碼：'))

items = []

# 循環爬取指定頁面

for page in range(start_page, end_page + 1):

print('\\n第{}頁開始爬取'.format(page))

response = req_res(url + str(page) + '/')

items = parse_res(response, items)

time.sleep(1.5)

print('\\n第{}頁結束爬取'.format(page))

# 以CSV格式保存數據

df = pd.DataFrame(items)

df.to_csv('IP_data.csv', index=False, sep=',', encoding='utf-8-sig')

print('*' * 30)

print('全部爬取結束')

print(items)

for dicc in items:

print(re.sub(r'[{}[\\]"]*','',json.dumps(dicc,ensure_ascii=False)))

if __name__ == '__main__':

main()

分享到:

閱讀更多 Snowdays 的文章

關鍵字: 黑客 Mozilla JSON

洛陽市直屬學校普通高中例會一組“綻放青春強國擔當洛陽青年話五四”雲團課開講了

2020年5月3日，在“洛小青工作室”釘釘群，一場別開生面的主題雲團課開講了。本期雲團課由洛陽市第十四中學團委書記陳曉慶召集、例會組各學校團委書記聯合發起，洛陽市第十五中學團委書記張改霞擔任主持人，洛陽梅森高中團委書記李藝丹擔任團課群班長。雲團課在團市委學校部部長郭兵指導下進行。

貞豐中學：開展模擬演練加強防控備開學

洛陽小學生開學，家長稱神獸歸籠，校長呼籲家校共擔教育責任

大河報·大河客戶端記者

36秒｜設立體溫檢測通道、調整班級！棗莊初中畢業生開學復課紮緊防疫“安全網”

齊魯網·閃電新聞5月6日訊

2020看中考名校丨南京航空航天大學附屬高級中學：夢想領航

前行時被絆倒的傷痛，由夢想來治癒。就算被捆綁住努力，心裡的夢一樣能掙脫束縛飛翔，就算有再大的風，也擋不住勇敢的衝動。那是夢想在雲端閃閃發亮，指引著我們勇敢飛翔。

高考總複習系列-第1節課實錄-集合與函數

本視頻為高考總複習系列：第一節課實錄主要內容為集合總複習，高中指數函數，對數函數，冪函數的複習接下來會持續更新總複習系列

《聲律啟蒙》系列微課（一）

《聲律啟蒙》由清代進士車萬育按韻編寫，內容涉及歷史典故、天文地理、花草樹木……是一部豐富學生知識的百科全書，更是一部讀起來朗朗上口，利於孩子掌握聲韻格律、學習詩文對句，習得寫作技巧的啟蒙讀物。2020年4月，教育部首次向全國中小學生髮布的閱讀指導目錄裡，將《聲律啟蒙》列入其中。

答辯老師，“您批評得是”

撰文、

仙桃八千多名高中畢業年級學子今日開學，現場是這樣子的！

期待著，盼望著終於迎來了屬於我們的開學季5月6日，湖北省高三年級統一開學同學們回到了闊別已久學校今天，全市11所高中畢業年級（含中職和技校）共8685名學子先行開學啦史上“最長寒假”正式結束高三學子踏入闊別已久的校園為復課做足準備所有高三畢業年級的學校全都開啟“滿格電”模式對校園

被世界前1%大學（uwo）認可的線上英語課程

想上世界名校，是否也在一直找尋一個合適孩子的網課？還沒拿到大學offer，是否也一直苦惱，刷不出雅思分數？即使拿到了offer，

中國大學生的英語聽說水平不如美國3歲小孩？

試問一個土生土長中國人，英語學到什麼程度，才算是高手？過了專業八級？託福雅思考高分？其實都不是，能無障礙聽懂英語國家的電視節目，才是英語高手。能做到這一點，那麼，他在國內的英語學習領域可以說是冠絕群雄，達到了獨孤求敗的境地。因為，國人學習英語的方法，註定了大家幾乎不能做到這一點。

100個戰“疫”感動瞬間成學校鮮活教材

4月下旬，我市各小學陸續復課。天元區銀海學校的學生們收到了一份特殊的教材，由孩子們自己創作的《感動生命的100個瞬間----全民抗疫戰特輯》，記錄了疫情防控阻擊戰中孩子們的所見、所思、所感。

今日，鄭州市中學全面復學中招考試信息採集同時啟動

5月6日一早，鄭州市高一高二，初一初二年級學子重返久違的校園，

久違的校園，我們回來了！鄭州市中學今日全面復學

美麗的五月如期而至，5月6日一早，伴隨著初升的朝陽，鄭州市高一高二，初一初二年級學子重返久違的校園，和提前復課的高三、初三學長學姐們一道“重啟”校園生活

李玫瑾教授：孩子的問題是成人造成的，出現問題需從大人身上解決

孩子的問題，往往是成年人造就的。孩子的每種心理和行為，和父母的行為有關，和父母的教育方式有關。真正要解決的問題，不在於孩子，而在於父母和家庭。未成年人的問題是滯後反映。青春期的問題，癥結在12歲以前，或更早。

武漢市第十四中學：一個班級一層樓，抗疫志願者上開學第一課

楚天都市報5月6日訊高三複學返校第一天，早上6點50，武漢市第十四中學校園內已經有不少學生了。他們揹著書包，互相打著招呼，不少學生說：十分想念，所以早點來。

開學復課：柘裡渡小學：分通道進教室

在高新區柘裡渡小學，學生們則在老師的引導下，分兩個通道測溫消毒後，有序進入久違的校園。【同期聲】肖敏

濰坊青州市委書記韓幸福現場檢查初中學校畢業年級開學復課工作

齊魯網·閃電新聞5月5日訊5月5日上午，濰坊青州市委書記韓幸福現場檢查初中學校畢業年級開學復課工作時強調，要始終把師生生命安全和身體健康放在第一位，精準有效抓好學校疫情防控工作，充分做好初中學校畢業年級開學復課各項準備，切實守牢校園安全底線。

阿卡索家長課堂：孩子不願意開口？在線英語創造純英文學習環境！

以下兩個場景可能家長們並不陌生：場景一：當你和孩子在逛街的途中，這時遇到了一個問路的外國人，你希望你的孩子能夠大膽、自信地去跟外國人溝通並幫助他。但是孩子卻顯得不知所措，甚至不願意開口。

長清區萬德界首小學春意盡萬物秀盛始夏萬物長夏天系列發佈

濟南市長清區萬德界首小學——界首教育春風化雨

基於SpringBoot的城院疫情防控系統的設計與實現(ssm,mysql)

【項目包含內容】

如何看待大多青年不認可《後浪》？

今天，我在朋友圈看到了很多“唱反調”的文章、評論，比如：《為什麼朋友圈裡轉發後浪的大多是領導和老闆、叔叔阿姨？》《我不是B站所謂的後浪》“中年討好新生代”“年輕人真的喜歡嗎？

創意跑紀念五四，南航學生雲端“火炬接力”

揚子晚報網5月4日訊（通訊員

視頻丨我市組織開展初中畢業年級師生血清抗體檢測

【導語】全市初中畢業年級將於5月6號正式開學。為全面做好開學復課工作，3號、4號兩天，我市組織對初中畢業年級師生、後勤服務人員及工作組成員開展血清抗體檢測。

4000英語核心詞彙學習（2）Book1Unit2 圖解+英英釋義+例句+閱讀

如何開始一段英文對話？有時候想要和英語母語者分享自己的故事，卻不知道怎麼去述說。話到嘴邊，卻找不到一個合適的詞彙。在學習英語的過程中，好比建房子，詞彙便是磚瓦。今天接著給大家分享

深圳一線名師是怎麼上課的？中考語文：人物描寫方法及作用

福田區教科院邀請、招募全區各中學語文學科組長、名師、骨幹精心設計製作考點課件+考點學習單+講練結合的微課+考點針對性練習學習包，一共製作了72箇中考語文考點學習資料包。

深圳一線名師是怎麼上課的？中考語文：議論文拓展開放題

深圳一線名師是怎麼上課的？中考語文：論證方法及其作用

深圳一線名師是怎麼上課的？中考語文：論據的辨析

深圳一線名師是怎麼上課的？中考語文：如何找論點&開頭的作用

深圳一線名師是怎麼上課的？中考語文：議論文補充論據

在tomcat如何進行斷點調試

Eclipse會為每一個tomcat部署的項目單獨建立一份配置文件。tomcat真正訪問的是tomcat部署的web項目，tomcat部署的web項目對應著工作空間項目的web目錄下的所有資源。在tomcat裡面如何進行斷點調試。

小學數學一招教你秒懂【一位數乘99得簡便算法】看誰算的快

如果對你有幫助，關注我【嚴老師小學數學教學】，有問題的可以在留言區討論，後期會為大家帶來更多的視頻和資料！！敬請關注！！

小學數學必考【巧算題】

如果對你有幫助，關注我【嚴老師小學數學教學】，有問題可以留言，後期會為大家帶來更多的學習視頻和資料！！敬請關注！！

【社科戰疫快報－278期】濱職馬克思主義學院系列“思政課戰疫小課堂”之“全球疫情防控中的大國擔當”

★舉旗幟

基於SSM技術的高考輔助選校系統的設計與實現(SSM,MySQL)

【項目包含內容】

webservlet註解

瀏覽器訪問servlet的簡單方法前面我們是通過web.xml的配置來訪問的，太複雜了，因為每寫一個servlet都需要在xml中寫那麼多代碼Servlet3.0:好處:支持註解配置。可以不需要web.xml了。步驟:1.創建JavaEE項目，選擇Servlet的版本3.

看外教老師怎麼帶小學員幾分鐘學會表達自己喜歡的食物

今天，要給大家介紹的外教老師是老師Angie。在這節課上，安吉老師帶著小學員幾分鐘就學會了表達自己喜歡的食物。她是如何做到的呢？我們一起來看一下吧！首先，外教老師用圖片教會孩子幾個常見的食物單詞。一邊教單詞，一邊問孩子，“Do

半年300小時聽力輸入，父與子繪本的故事他能輕鬆背出來！

大思英語小達人755期：元寶

放飛春天！東南大學手繪風箏節來啦

記者從東南大學瞭解到，五一期間，東大舉行了“春到九龍”風箏設計與放飛活動。活動採用線上預約的方式，在5月1日-5日期間分批、分時間進行，現場設有放風箏、手繪風箏、踢鍵子、跳繩等項目，來自各院系的近500名師生報名參加。

「品質白中●化雨」五四精神傳承有我—白關中學組織開展“我們的青春在白中”五四主題活動

—中國青年節—

深圳一線名師是怎麼上課的？中考語文：文言詞語解釋專題複習

濰坊錦海小學：向勞動者致敬，我有我的方式！

“民生在勤，勤則不匱”，勞動是財富的源泉，也是幸福的源泉。“夙興夜寐，灑掃庭內”，熱愛勞動是中華民族的優秀傳統，綿延至今。　　近日，濰坊錦海小學開展了“勞動最光榮”系列活動，以激發學生內心對勞動的尊重，培養勤勞的品質，爭做新時代有為青年！

深圳一線名師是怎麼上課的？中考語文：如何概括散文和小說的主題

深圳一線名師怎麼上課？中考語文閱讀《分析句子的含義和作用》

2.適用於EDIUS 8的HitFilm Ignite

在此播客中，我們介紹由FXHome推出的EDIUS

深圳一線名師課：中考語文閱讀《說明文開頭的作用和延伸拓展題》

深圳一線名師是怎麼上課的？中考《理清說明順序，篩選關鍵信息》

TED演講中英字幕：成為孩子堅定不移的支持者（視頻+演講稿）

關鍵詞（Keyword）：TED演講，潛能，支持者，相信，擁護者，演講簡介：如何把每一個孩子培養成自信、自在、努力、內心充盈的最優秀的那個自己？一個好老師能發掘出孩子的潛能，一個合格的老師，就會堅信每一個孩子都是最棒的。

Jsp+Ssm+Mysql校園二手市場交易平臺(源碼)+運行指導視頻

【功能描述】本項目是一款由jsp+ssm+mysql實現的校園二手市場交易平臺，本系統一共有三種角色