手把手教你搭建一個基於Java的分佈式爬蟲系統「轉」

2020-02-02 15:36:07 架構師筆記

1 概述

在不用爬蟲框架的情況，經過多方學習，嘗試實現了一個分佈式爬蟲系統，並且可以將數據保存到不同地方，類似MySQL、HBase等。

基於面向接口的編碼思想來開發，因此這個系統具有一定的擴展性，有興趣的朋友直接看一下代碼，就能理解其設計思想，雖然代碼目前來說很多地方還是比較緊耦合，但只要花些時間和精力，很多都是可抽取出來並且可配置化的。

因為時間的關係，我只寫了京東和蘇寧易購兩個網站的爬蟲，但是完全可以實現不同網站爬蟲的隨機調度，基於其代碼結構，再寫國美、天貓等的商品爬取，難度不大，但是估計需要花很多時間和精力。因為在解析網頁的數據時，實際上需要花很多時間，比如我在爬取蘇寧易購商品的價格時，價格是異步獲取的，並且其api是一長串的數字組合，我花了幾個小時的時間才發現其規律，當然也承認，我的經驗不足。

這個系統的設計，除了基本的數據爬取以外，更關注以下幾個方面的問題：

1.如何實現
分佈式，同一個程序打包後分發到不同的節點運行時，不影響整體的數據爬取
2.如何實現url隨機循環調度，核心是針對不同的頂級域名做隨機
3.如何定時向url倉庫中添加種子url，達到不讓爬蟲系統停下來的目的
4.如何實現對爬蟲節點程序的監控，並能夠發郵件報警
5.如何實現一個隨機IP代理庫，目的跟第2點有點類似，都是為了反反爬蟲

下面會針對這個系統來做一個整體的基本介紹，其實我在代碼中都有非常詳細的註釋，有興趣的朋友可以參考一下代碼，最後我會給出一些我爬蟲時的數據分析。

另外需要注意的是，這個爬蟲系統是基於Java實現的，但是語言本身仍然不是最重要的，有興趣的朋友可以嘗試用Python實現。

2 分佈式爬蟲系統架構

整體系統架構如下：

所以從上面的架構可以看出，整個系統主要分為三個部分：

爬蟲系統
URL調度系統
監控報警系統

爬蟲系統就是用來爬取數據的，因為系統設計為分佈式，因此，爬蟲程序本身可以運行在不同的服務器節點上。

url調度系統核心在於url倉庫，所謂的url倉庫其實就是用Redis保存了需要爬取的url列表，並且在我們的url調度器中根據一定的策略來消費其中的url，從這個角度考慮，url倉庫其實也是一個url隊列。

監控報警系統主要是對爬蟲節點進行監控，雖然並行執行的爬蟲節點中的某一個掛掉了對整體數據爬取本身沒有影響（只是降低了爬蟲的速度），但是我們還是希望知道能夠主動接收到節點掛掉的通知，而不是被動地發現。

下面將會針對以上三個方面並結合部分代碼片段來對整個系統的設計思路做一些基本的介紹，對系統完整實現有濃厚興趣的朋友可以直接參考源代碼。

3 爬蟲系統

（說明：zookeeper監控屬於監控報警系統，url調度器屬於URL調度系統）

爬蟲系統是一個獨立運行的進程，我們把我們的爬蟲系統打包成jar包，然後分發到不同的節點上執行，這樣並行爬取數據可以提高爬蟲的效率。

3.1 隨機IP代理器

加入隨機IP代理主要是為了反反爬蟲，因此如果有一個IP代理庫，並且可以在構建http客戶端時可以隨機地使用不同的代理，那麼對我們進行反反爬蟲則會有很大的幫助。

在系統中使用IP代理庫，需要先在文本文件中添加可用的代理地址信息：

<code># IPProxyRepository.txt58.60.255.104:8118219.135.164.245:312827.44.171.27:9999219.135.164.245:312858.60.255.104:811858.252.6.165:9000....../<code>

需要注意的是，上面的代理IP是我在西刺代理上拿到的一些代理IP，不一定可用，建議是自己花錢購買一批代理IP，這樣可以節省很多時間和精力去尋找代理IP。

然後在構建http客戶端的工具類中，當第一次使用工具類時，會把這些代理IP加載進內存中，加載到Java的一個HashMap：

<code>// IP地址代理庫Mapprivate static Map<string> IPProxyRepository = new HashMap<>();private static String[] keysArray = null;   // keysArray是為了方便生成隨機的代理對象/**     * 初次使用時使用靜態代碼塊將IP代理庫加載進set中     */static {    InputStream in = HttpUtil.class.getClassLoader().getResourceAsStream("IPProxyRepository.txt");  // 加載包含代理IP的文本    // 構建緩衝流對象    InputStreamReader isr = new InputStreamReader(in);    BufferedReader bfr = new BufferedReader(isr);    String line = null;    try {        // 循環讀每一行，添加進map中        while ((line = bfr.readLine()) != null) {            String[] split = line.split(":");   // 以:作為分隔符，即文本中的數據格式應為192.168.1.1:4893            String host = split[0];            int port = Integer.valueOf(split[1]);            IPProxyRepository.put(host, port);        }        Set<string> keys = IPProxyRepository.keySet();        keysArray = keys.toArray(new String[keys.size()]);  // keysArray是為了方便生成隨機的代理對象    } catch (IOException e) {        e.printStackTrace();    }}/<string>/<string>/<code>

之後，在每次構建http客戶端時，都會先到map中看是否有代理IP，有則使用，沒有則不使用代理：

<code>CloseableHttpClient httpClient = null;HttpHost proxy = null;if (IPProxyRepository.size() > 0) {  // 如果ip代理地址庫不為空，則設置代理    proxy = getRandomProxy();    httpClient = HttpClients.custom().setProxy(proxy).build();  // 創建httpclient對象} else {    httpClient = HttpClients.custom().build();  // 創建httpclient對象}HttpGet request = new HttpGet(url); // 構建htttp get請求....../<code>

隨機代理對象則通過下面的方法生成：

<code>/**     * 隨機返回一個代理對象     *     * @return     */public static HttpHost getRandomProxy() {    // 隨機獲取host:port，並構建代理對象    Random random = new Random();    String host = keysArray[random.nextInt(keysArray.length)];    int port = IPProxyRepository.get(host);    HttpHost proxy = new HttpHost(host, port);  // 設置http代理    return proxy;}/<code>

這樣，通過上面的設計，基本就實現了隨機IP代理器的功能，當然，其中還有很多可以完善的地方，比如，當使用這個IP代理而請求失敗時，是否可以把這一情況記錄下來，當超過一定次數時，再將其從代理庫中刪除，同時生成日誌供開發人員或運維人員參考，這是完全可以實現的，不過我就不做這一步功能了。

3.2 網頁下載器

網頁下載器就是用來下載網頁中的數據，主要基於下面的接口開發：

<code>/** * 網頁數據下載 */public interface IDownload {    /**     * 下載給定url的網頁數據     * @param url     * @return     */    public Page download(String url);}/<code>

基於此，在系統中只實現了一個http get的下載器，但是也可以完成我們所需要的功能了：

<code>/** * 數據下載實現類 */public class HttpGetDownloadImpl implements IDownload {    @Override    public Page download(String url) {        Page page = new Page();        String content = HttpUtil.getHttpContent(url);  // 獲取網頁數據        page.setUrl(url);        page.setContent(content);        return page;    }}/<code>

3.3 網頁解析器

網頁解析器就是把下載的網頁中我們感興趣的數據解析出來，並保存到某個對象中，供數據存儲器進一步處理以保存到不同的持久化倉庫中，其基於下面的接口進行開發：

<code>/** * 網頁數據解析 */public interface IParser {    public void parser(Page page);}/<code>

網頁解析器在整個系統的開發中也算是比較重頭戲的一個組件，功能不復雜，主要是代碼比較多，針對不同的商城不同的商品，對應的解析器可能就不一樣了，因此需要針對特別的商城的商品進行開發，因為很顯然，京東用的網頁模板跟蘇寧易購的肯定不一樣，天貓用的跟京東用的也肯定不一樣，所以這個完全是看自己的需要來進行開發了，只是說，在解析器開發的過程當中會發現有部分重複代碼，這時就可以把這些代碼抽象出來開發一個工具類了。

目前在系統中爬取的是京東和蘇寧易購的手機商品數據，因此與就寫了這兩個實現類：

<code>/** * 解析京東商品的實現類 */public class JDHtmlParserImpl implements IParser {    ......}/** * 蘇寧易購網頁解析 */public class SNHtmlParserImpl implements IParser {    ......}/<code>

3.4 數據存儲器

數據存儲器主要是將網頁解析器解析出來的數據對象保存到不同的，而對於本次爬取的手機商品，數據對象是下面一個Page對象：

<code>/** * 網頁對象，主要包含網頁內容和商品數據 */public class Page {    private String content;              // 網頁內容    private String id;                    // 商品Id    private String source;               // 商品來源    private String brand;                // 商品品牌    private String title;                // 商品標題    private float price;                // 商品價格    private int commentCount;        // 商品評論數    private String url;                  // 商品地址    private String imgUrl;             // 商品圖片地址    private String params;              // 商品規格參數    private List<string> urls = new ArrayList<>();  // 解析列表頁面時用來保存解析的商品url的容器}/<string>/<code>

對應的，在MySQL中，表數據結構如下：

<code>-- ------------------------------ Table structure for phone-- ----------------------------DROP TABLE IF EXISTS `phone`;CREATE TABLE `phone` (  `id` varchar(30) CHARACTER SET armscii8 NOT NULL COMMENT '商品id',  `source` varchar(30) NOT NULL COMMENT '商品來源，如jd suning gome等',  `brand` varchar(30) DEFAULT NULL COMMENT '手機品牌',  `title` varchar(255) DEFAULT NULL COMMENT '商品頁面的手機標題',  `price` float(10,2) DEFAULT NULL COMMENT '手機價格',  `comment_count` varchar(30) DEFAULT NULL COMMENT '手機評論',  `url` varchar(500) DEFAULT NULL COMMENT '手機詳細信息地址',  `img_url` varchar(500) DEFAULT NULL COMMENT '圖片地址',  `params` text COMMENT '手機參數，json格式存儲',  PRIMARY KEY (`id`,`source`)) ENGINE=InnoDB DEFAULT CHARSET=utf8;/<code>

而在HBase中的表結構則為如下：

<code>## cf1 存儲 id source price comment brand url## cf2 存儲 title params imgUrlcreate 'phone', 'cf1', 'cf2'## 在HBase shell中查看創建的表hbase(main):135:0> desc 'phone'Table phone is ENABLED                                                                                                phone                                                                                                                 COLUMN FAMILIES DESCRIPTION                                                                                           {NAME => 'cf1', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'}                                                                                    {NAME => 'cf2', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'}                                                                                    2 row(s) in 0.0350 seconds/<code>

即在HBase中建立了兩個列族，分別為cf1、cf2，其中cf1用來保存id source price comment brand url字段信息，cf2用來保存title params imgUrl字段信息。

不同的數據存儲用的是不同的實現類，但是其都是基於下面同一個接口開發的：

<code>/** * 商品數據的存儲 */public interface IStore {    public void store(Page page);}/<code>

然後基於此開發了MySQL的存儲實現類、HBase的存儲實現類還有控制檯的輸出實現類，如MySQL的存儲實現類，其實就是簡單的數據插入語句：

<code>/** * 使用dbc數據庫連接池將數據寫入mysql表中 */public class MySQLStoreImpl implements IStore {    private QueryRunner queryRunner = new QueryRunner(DBCPUtil.getDataSource());    @Override    public void store(Page page) {        String sql = "insert into phone(id, source, brand, title, price, comment_count, url, img_url, params) values(?, ?, ?, ?, ?, ?, ?, ?, ?)";        try {            queryRunner.update(sql, page.getId(),                    page.getSource(),                    page.getBrand(),                    page.getTitle(),                    page.getPrice(),                    page.getCommentCount(),                    page.getUrl(),                    page.getImgUrl(),                    page.getParams());        } catch (SQLException e) {            e.printStackTrace();        }    }}/<code>

而HBase的存儲實現類，則是HBase Java API的常用插入語句代碼：

<code>......// cf1:pricePut pricePut = new Put(rowKey);// 必須要做是否為null判斷，否則會有空指針異常pricePut.addColumn(cf1, "price".getBytes(), page.getPrice() != null ? String.valueOf(page.getPrice()).getBytes() : "".getBytes());puts.add(pricePut);// cf1:commentPut commentPut = new Put(rowKey);commentPut.addColumn(cf1, "comment".getBytes(), page.getCommentCount() != null ? String.valueOf(page.getCommentCount()).getBytes() : "".getBytes());puts.add(commentPut);// cf1:brandPut brandPut = new Put(rowKey);brandPut.addColumn(cf1, "brand".getBytes(), page.getBrand() != null ? page.getBrand().getBytes() : "".getBytes());puts.add(brandPut);....../<code>

當然，至於要將數據存儲在哪個地方，在初始化爬蟲程序時，是可以手動選擇的：

<code>// 3.注入存儲器iSpider.setStore(new HBaseStoreImpl());/<code>

目前還沒有把代碼寫成可以同時存儲在多個地方，按照目前代碼的架構，要實現這一點也比較簡單，修改一下相應代碼就好了。實際上，是可以先把數據保存到MySQL中，然後通過Sqoop導入到HBase中，詳細操作可以參考我寫的Sqoop文章。

仍然需要注意的是，如果確定需要將數據保存到HBase中，請保證你有可用的集群環境，並且需要將如下配置文檔添加到classpath下：

<code>core-site.xmlhbase-site.xmlhdfs-site.xml/<code>

對大數據感興趣的同學可以折騰一下這一點，如果之前沒有接觸過的，直接使用MySQL存儲就好了，只需要在初始化爬蟲程序時注入MySQL存儲器即可：

<code>// 3.注入存儲器iSpider.setStore(new MySQLStoreImpl());/<code>

4 URL調度系統

URL調度系統是實現整個爬蟲系統分佈式的橋樑與關鍵，正是通過URL調度系統的使用，才使得整個爬蟲系統可以較為高效（Redis作為存儲）隨機地獲取url，並實現整個系統的分佈式。

4.1 URL倉庫

通過架構圖可以看出，所謂的URL倉庫不過是Redis倉庫，即在我們的系統中使用Redis來保存url地址列表，正是這樣，才能保證我們的程序實現分佈式，只要保存了url是唯一的，這樣不管我們的爬蟲程序有多少個，最終保存下來的數據都是隻有唯一一份的，而不會重複，是通過這樣來實現分佈式的。

同時url倉庫中的url地址在獲取時的策略是通過隊列的方式來實現的，待會通過URL調度器的實現即可知道。

另外，在我們的url倉庫中，主要保存了下面的數據：

種子URL列表

Redis的數據類型為list。

種子URL是持久化存儲的，一定時間後，由URL定時器通過種子URL獲取URL，並將其注入到我們的爬蟲程序需要使用的高優先級URL隊列中，這樣就可以保存我們的爬蟲程序可以源源不斷地爬取數據而不需要中止程序的執行。

高優先級URL隊列

Redis的數據類型為set。

什麼是高優先級URL隊列？其實它就是用來保存列表url的。

那麼什麼是列表url呢？

說白了就是一個列表中含有多個商品，以京東為列，我們打開一個手機列表為例：

該地址中包含的不是一個具體商品的url，而是包含了多個我們需要爬取的數據（手機商品）的列表，通過對每個高級url的解析，我們可以獲取到非常多的具體商品url，而具體的商品url，就是低優先url，其會保存到低優先級URL隊列中。

那麼以這個系統為例，保存的數據類似如下：

<code>jd.com.higher    --https://list.jd.com/list.html?cat=9987,653,655&page=1    ... suning.com.higher    --https://list.suning.com/0-20006-0.html    .../<code>

低優先級URL隊列

Redis的數據類型為set。

低優先級URL其實就是具體某個商品的URL，如下面一個手機商品：

通過下載該url的數據，並對其進行解析，就能夠獲取到我們想要的數據。

那麼以這個系統為例，保存的數據類似如下：

<code>jd.com.lower    --https://item.jd.com/23545806622.html    ...suning.com.lower    --https://product.suning.com/0000000000/690128156.html    .../<code>

4.2 URL調度器

所謂url調度器，其實說白了就是url倉庫java代碼的調度策略，不過因為其核心在於調度，所以將其放到URL調度器中來進行說明，目前其調度基於以下接口開發：

<code>/** * url 倉庫 * 主要功能： *      向倉庫中添加url（高優先級的列表，低優先級的商品url） *      從倉庫中獲取url（優先獲取高優先級的url，如果沒有，再獲取低優先級的url） * */public interface IRepository {    /**     * 獲取url的方法     * 從倉庫中獲取url（優先獲取高優先級的url，如果沒有，再獲取低優先級的url）     * @return     */    public String poll();    /**     * 向高優先級列表中添加商品列表url     * @param highUrl     */    public void offerHigher(String highUrl);    /**     * 向低優先級列表中添加商品url     * @param lowUrl     */    public void offerLower(String lowUrl);}/<code>

其基於Redis作為URL倉庫的實現如下：

<code>/** * 基於Redis的全網爬蟲，隨機獲取爬蟲url： * * Redis中用來保存url的數據結構如下： * 1.需要爬取的域名集合（存儲數據類型為set，這個需要先在Redis中添加） *      key *          spider.website.domains *      value(set) *          jd.com  suning.com  gome.com *      key由常量對象SpiderConstants.SPIDER_WEBSITE_DOMAINS_KEY 獲得 * 2.各個域名所對應的高低優先url隊列（存儲數據類型為list，這個由爬蟲程序解析種子url後動態添加） *      key *          jd.com.higher *          jd.com.lower *          suning.com.higher *          suning.com.lower *          gome.com.higher *          gome.come.lower *      value(list) *          相對應需要解析的url列表 *      key由隨機的域名 + 常量 SpiderConstants.SPIDER_DOMAIN_HIGHER_SUFFIX或者SpiderConstants.SPIDER_DOMAIN_LOWER_SUFFIX獲得 * 3.種子url列表 *      key *          spider.seed.urls *      value(list) *          需要爬取的數據的種子url *       key由常量SpiderConstants.SPIDER_SEED_URLS_KEY獲得 * *       種子url列表中的url會由url調度器定時向高低優先url隊列中 */public class RandomRedisRepositoryImpl implements IRepository {    /**     * 構造方法     */    public RandomRedisRepositoryImpl() {        init();    }    /**     * 初始化方法，初始化時，先將redis中存在的高低優先級url隊列全部刪除     * 否則上一次url隊列中的url沒有消耗完時，再停止啟動跑下一次，就會導致url倉庫中有重複的url     */    public void init() {        Jedis jedis = JedisUtil.getJedis();        Set<string> domains = jedis.smembers(SpiderConstants.SPIDER_WEBSITE_DOMAINS_KEY);        String higherUrlKey;        String lowerUrlKey;        for(String domain : domains) {            higherUrlKey = domain + SpiderConstants.SPIDER_DOMAIN_HIGHER_SUFFIX;            lowerUrlKey = domain + SpiderConstants.SPIDER_DOMAIN_LOWER_SUFFIX;            jedis.del(higherUrlKey, lowerUrlKey);        }        JedisUtil.returnJedis(jedis);    }    /**     * 從隊列中獲取url，目前的策略是：     *      1.先從高優先級url隊列中獲取     *      2.再從低優先級url隊列中獲取     *  對應我們的實際場景，應該是先解析完列表url再解析商品url     *  但是需要注意的是，在分佈式多線程的環境下，肯定是不能完全保證的，因為在某個時刻高優先級url隊列中     *  的url消耗完了，但實際上程序還在解析下一個高優先級url，此時，其它線程去獲取高優先級隊列url肯定獲取不到     *  這時就會去獲取低優先級隊列中的url，在實際考慮分析時，這點尤其需要注意     * @return     */    @Override    public String poll() {        // 從set中隨機獲取一個頂級域名        Jedis jedis = JedisUtil.getJedis();        String randomDomain = jedis.srandmember(SpiderConstants.SPIDER_WEBSITE_DOMAINS_KEY);    // jd.com        String key = randomDomain + SpiderConstants.SPIDER_DOMAIN_HIGHER_SUFFIX;                // jd.com.higher        String url = jedis.lpop(key);        if(url == null) {   // 如果為null，則從低優先級中獲取            key = randomDomain + SpiderConstants.SPIDER_DOMAIN_LOWER_SUFFIX;    // jd.com.lower            url = jedis.lpop(key);        }        JedisUtil.returnJedis(jedis);        return url;    }    /**     * 向高優先級url隊列中添加url     * @param highUrl     */    @Override    public void offerHigher(String highUrl) {        offerUrl(highUrl, SpiderConstants.SPIDER_DOMAIN_HIGHER_SUFFIX);    }    /**     * 向低優先url隊列中添加url     * @param lowUrl     */    @Override    public void offerLower(String lowUrl) {        offerUrl(lowUrl, SpiderConstants.SPIDER_DOMAIN_LOWER_SUFFIX);    }    /**     * 添加url的通用方法，通過offerHigher和offerLower抽象而來     * @param url   需要添加的url     * @param urlTypeSuffix  url類型後綴.higher或.lower     */    public void offerUrl(String url, String urlTypeSuffix) {        Jedis jedis = JedisUtil.getJedis();        String domain = SpiderUtil.getTopDomain(url);   // 獲取url對應的頂級域名，如jd.com        String key = domain + urlTypeSuffix;            // 拼接url隊列的key，如jd.com.higher        jedis.lpush(key, url);                          // 向url隊列中添加url        JedisUtil.returnJedis(jedis);    }}/<string>/<code>

通過代碼分析也是可以知道，其核心就在如何調度url倉庫（Redis）中的url。

4.3 URL定時器

一段時間後，高優先級URL隊列和低優先URL隊列中的url都會被消費完，為了讓程序可以繼續爬取數據，同時減少人為的干預，可以預先在Redis中插入種子url，之後定時讓URL定時器從種子url中取出url定存放到高優先級URL隊列中，以此達到程序定時不間斷爬取數據的目的。

url消費完畢後，是否需要循環不斷爬取數據根據個人業務需求而不同，因此這一步不是必需的，只是也提供了這樣的操作。因為事實上，我們需要爬取的數據也是每隔一段時間就會更新的，如果希望我們爬取的數據也跟著定時更新，那麼這時定時器就有非常重要的作用了。不過需要注意的是，一旦決定需要循環重複爬取數據，則在設計存儲器實現時需要考慮重複數據的問題，即重複數據應該是更新操作，目前在我設計的存儲器不包括這個功能，有興趣的朋友可以自己實現，只需要在插入數據前判斷數據庫中是否存在該數據即可。

另外需要注意的一點是，URL定時器是一個獨立的進程，需要單獨啟動。

定時器基於Quartz實現，下面是其job的代碼：

<code>/** * 每天定時從url倉庫中獲取種子url，添加進高優先級列表 */public class UrlJob implements Job {    // log4j日誌記錄    private Logger logger = LoggerFactory.getLogger(UrlJob.class);    @Override    public void execute(JobExecutionContext context) throws JobExecutionException {        /**         * 1.從指定url種子倉庫獲取種子url         * 2.將種子url添加進高優先級列表         */        Jedis jedis = JedisUtil.getJedis();        Set<string> seedUrls = jedis.smembers(SpiderConstants.SPIDER_SEED_URLS_KEY);  // spider.seed.urls Redis數據類型為set，防止重複添加種子url        for(String seedUrl : seedUrls) {            String domain = SpiderUtil.getTopDomain(seedUrl);   // 種子url的頂級域名            jedis.sadd(domain + SpiderConstants.SPIDER_DOMAIN_HIGHER_SUFFIX, seedUrl);            logger.info("獲取種子:{}", seedUrl);        }        JedisUtil.returnJedis(jedis);//        System.out.println("Scheduler Job Test...");    }}/<string>/<code>

調度器的實現如下：

<code>/** * url定時調度器，定時向url對應倉庫中存放種子url * * 業務規定：每天凌晨1點10分向倉庫中存放種子url */public class UrlJobScheduler {    public UrlJobScheduler() {        init();    }    /**     * 初始化調度器     */    public void init() {        try {            Scheduler scheduler = StdSchedulerFactory.getDefaultScheduler();            // 如果沒有以下start方法的執行，則是不會開啟任務的調度            scheduler.start();            String name = "URL_SCHEDULER_JOB";            String group = "URL_SCHEDULER_JOB_GROUP";            JobDetail jobDetail = new JobDetail(name, group, UrlJob.class);            String cronExpression = "0 10 1 * * ?";            Trigger trigger = new CronTrigger(name, group, cronExpression);            // 調度任務            scheduler.scheduleJob(jobDetail, trigger);        } catch (SchedulerException e) {            e.printStackTrace();        } catch (ParseException e) {            e.printStackTrace();        }    }    public static void main(String[] args) {        UrlJobScheduler urlJobScheduler = new UrlJobScheduler();        urlJobScheduler.start();    }    /**     * 定時調度任務     * 因為我們每天要定時從指定的倉庫中獲取種子url，並存放到高優先級的url列表中     * 所以是一個不間斷的程序，所以不能停止     */    private void start() {        while (true) {        }    }}/<code>

5 監控報警系統

監控報警系統的加入主要是為了讓使用者可以主動發現節點宕機，而不是被動地發現，因為實際中爬蟲程序可能是持續不斷運行的，並且我們會在多個節點上部署我們的爬蟲程序，因此很有必要對節點進行監控，並且在節點出現問題時可以及時發現並修正，需要注意的是，監控報警系統是一個獨立的進程，需要單獨啟動。

5.1 基本原理

首先需要先在zookeeper中創建一個/ispider節點：

<code>[zk: localhost:2181(CONNECTED) 1] create /ispider ispiderCreated /ispider/<code>

監控報警系統的開發主要依賴於zookeeper實現，監控程序對zookeeper下面的這個節點目錄進行監聽：

<code>[zk: localhost:2181(CONNECTED) 0] ls /ispider[]/<code>

爬蟲程序啟動時會在該節點目錄下注冊一個臨時節點目錄：

<code>[zk: localhost:2181(CONNECTED) 0] ls /ispider[192.168.43.166]/<code>

當節點出現宕機時，該臨時節點目錄就會被zookeeper刪除

<code>[zk: localhost:2181(CONNECTED) 0] ls /ispider[]/<code>

同時因為我們監聽了節點目錄/ispider，所以當zookeeper刪除其下的節點目錄時（或增加一個節點目錄），zookeeper會給我們的監控程序發送通知，即我們的監控程序會得到回調，這樣便可以在回調程序中執行報警的系統動作，從而完成監控報警的功能。

5.2 zookeeper Java API使用說明

可以使用zookeeper原生的Java API，我在另外寫的一個RPC框架（底層基於Netty實現遠程通信）中就是使用原生的API，不過顯然代碼會複雜很多，並且本身需要對zookeeper有更多的學習和了解，這樣用起來才會容易一些。

所以為了降低開發的難度，這裡使用第三方封裝的API，即curator，來進行zookeeper客戶端程序的開發。

5.3 爬蟲系統zookeeper註冊

在啟動爬蟲系統時，我們的程序都會啟動一個zookeeper客戶端來向zookeeper來註冊自身的節點信息，主要是ip地址，並在/ispider節點目錄以創建一個以該爬蟲程序所在的節點IP地址命名的節點，如/ispider/192.168.43.116，實現的代碼如下：

<code>/** * 註冊zk */private void registerZK() {    String zkStr = "uplooking01:2181,uplooking02:2181,uplooking03:2181";    int baseSleepTimeMs = 1000;    int maxRetries = 3;    RetryPolicy retryPolicy = new ExponentialBackoffRetry(baseSleepTimeMs, maxRetries);    CuratorFramework curator = CuratorFrameworkFactory.newClient(zkStr, retryPolicy);    curator.start();    String ip = null;    try {        // 向zk的具體目錄註冊 寫節點 創建節點        ip = InetAddress.getLocalHost().getHostAddress();        curator.create().withMode(CreateMode.EPHEMERAL).forPath("/ispider/" + ip, ip.getBytes());    } catch (UnknownHostException e) {        e.printStackTrace();    } catch (Exception e) {        e.printStackTrace();    }}/<code>

應該注意到的是，我們創建的節點為臨時節點，要想實現監控報警功能，必須要為臨時節點。

5.4 監控程序

首先需要先監聽zookeeper中的一個節點目錄，在我們的系統中，設計是監聽/ispider這個節點目錄：

<code>public SpiderMonitorTask() {    String zkStr = "uplooking01:2181,uplooking02:2181,uplooking03:2181";    int baseSleepTimeMs = 1000;    int maxRetries = 3;    RetryPolicy retryPolicy = new ExponentialBackoffRetry(baseSleepTimeMs, maxRetries);    curator = CuratorFrameworkFactory.newClient(zkStr, retryPolicy);    curator.start();    try {        previousNodes = curator.getChildren().usingWatcher(this).forPath("/ispider");    } catch (Exception e) {        e.printStackTrace();    }}/<code>

在上面註冊了zookeeper中的watcher，也就是接收通知的回調程序，在該程序中，執行我們報警的邏輯：

<code>/** * 這個方法，當監控的zk對應的目錄一旦有變動，就會被調用 * 得到當前最新的節點狀態，將最新的節點狀態和初始或者上一次的節點狀態作比較，那我們就知道了是由誰引起的節點變化 * @param event */@Overridepublic void process(WatchedEvent event) {    try {        List<string> currentNodes = curator.getChildren().usingWatcher(this).forPath("/ispider");        //            HashSet<string> previousNodesSet = new HashSet<>(previousNodes);        if(currentNodes.size() > previousNodes.size()) { // 最新的節點服務，超過之前的節點服務個數，有新的節點增加進來            for(String node : currentNodes) {                if(!previousNodes.contains(node)) {                    // 當前節點就是新增節點                    logger.info("----有新的爬蟲節點{}新增進來", node);                }            }        } else if(currentNodes.size() < previousNodes.size()) {  // 有節點掛了    發送告警郵件或者短信            for(String node : previousNodes) {                if(!currentNodes.contains(node)) {                    // 當前節點掛掉了 得需要發郵件                    logger.info("----有爬蟲節點{}掛掉了", node);                    MailUtil.sendMail("有爬蟲節點掛掉了，請人工查看爬蟲節點的情況，節點信息為：", node);                }            }        } // 掛掉和新增的數目一模一樣，上面是不包括這種情況的，有興趣的朋友可以直接實現包括這種特殊情況的監控        previousNodes = currentNodes;   // 更新上一次的節點列表，成為最新的節點列表    } catch (Exception e) {        e.printStackTrace();    }    // 在原生的API需要再做一次監控，因為每一次監控只會生效一次，所以當上面發現變化後，需要再監聽一次，這樣下一次才能監聽到    // 但是在使用curator的API時則不需要這樣做}/<string>/<string>/<code>

當然，判斷節點是否掛掉，上面的邏輯還是存在一定的問題的，按照上面的邏輯，假如某一時刻新增節點和刪除節點事件同時發生，那麼其就不能判斷出來，所以如果需要更精準的話，可以將上面的程序代碼修改一下。

5.5 郵件發送模塊

使用模板代碼就可以了，不過需要注意的是，在使用時，發件人的信息請使用自己的郵箱。

下面是爬蟲節點掛掉時接收到的郵件：

實際上，如果購買了短信服務，那麼通過短信API也可以向我們的手機發送短信。

6 實戰：爬取京東、蘇寧易購全網手機商品數據

因為前面在介紹這個系統的時候也提到了，我只寫了京東和蘇寧易購的網頁解析器，所以接下來也就是爬取其全網的手機商品數據。

6.1 環境說明

需要確保Redis、Zookeeper服務可用，另外如果需要使用HBase來存儲數據，需要確保Hadoop集群中的HBase可用，並且相關配置文件已經加入到爬蟲程序的classpath中。

還有一點需要注意的是，URL定時器和監控報警系統是作為單獨的進程來運行的，並且也是可選的。

6.2 爬蟲結果

進行了兩次爬取，分別嘗試將數據保存到MySQL和HBase中，給出如下數據情況。

6.2.1 保存到MySQL

<code>mysql> select count(*) from phone;+----------+| count(*) |+----------+|    12052 |+----------+1 row in setmysql> select count(*) from phone where source='jd.com';+----------+| count(*) |+----------+|     9578 |+----------+1 row in setmysql> select count(*) from phone where source='suning.com';+----------+| count(*) |+----------+|     2474 |+----------+1 row in set/<code>

在可視化工具中查看數據情況：

6.2.2 保存到HBase

<code>hbase(main):225:0* count 'phone'Current count: 1000, row: 11155386088_jd.comCurrent count: 2000, row: 136191393_suning.comCurrent count: 3000, row: 16893837301_jd.comCurrent count: 4000, row: 19036619855_jd.comCurrent count: 5000, row: 1983786945_jd.comCurrent count: 6000, row: 1997392141_jd.comCurrent count: 7000, row: 21798495372_jd.comCurrent count: 8000, row: 24154264902_jd.comCurrent count: 9000, row: 25687565618_jd.comCurrent count: 10000, row: 26458674797_jd.comCurrent count: 11000, row: 617169906_suning.comCurrent count: 12000, row: 769705049_suning.com                 12348 row(s) in 1.5720 seconds=> 12348/<code>

在HDFS中查看數據情況：

6.2.3 數據量與實際情況分析

京東

京東手機的列表大概有160多頁，每個列表有60個商品數據，所以總量在9600左右，我們的數據基本是符合的，後面通過日誌分析其實可以知道，一般丟失的數據為連接超時導致的，所以在選取爬蟲的環境時，更建議在網絡環境好的主機上進行，同時如果可以有IP代理地址庫就更好了，另外對於連接超時的情況，其實是可以進一步在我們的程序中加以控制，一旦出現爬取數據失敗的url，可以將其加入到重試url隊列中，目前這一點功能我是沒有做，有興趣的同學可以試一下。

蘇寧易購

再來看看蘇寧的，其有100頁左右的手機列表，每頁也是60個商品數據，所以總量在6000左右。但可以看到，我們的數據卻只有3000這樣的數量級（缺少的依然是頻繁爬取造成的連接失敗問題），這是為什麼呢？

這是因為，打開蘇寧的某個列表頁面後，其是先加載30個商品，當鼠標向下滑動時，才會通過另外的API去加載其它的30個商品數據，每一個列表頁面都是如此，所以，實際上，我們是缺少了一半的商品數據沒有爬取。知道這個原因之後，實現也不難，但是因為時間關係，我就沒有做了，有興趣的朋友折騰一下吧。

6.3 通過日誌分析爬蟲系統的性能

在我們的爬蟲系統中，每個關鍵的地方，如網頁下載、數據解析等都是有打logger的，所以通過日誌，可以大概分析出相關的時間參數。

<code>2018-04-01 21:26:03 [pool-1-thread-1] [cn.xpleaf.spider.utils.HttpUtil] [INFO] - 下載網頁：https://list.jd.com/list.html?cat=9987,653,655&page=1，消耗時長：590 ms，代理信息：null:null2018-04-01 21:26:03 [pool-1-thread-1] [cn.xpleaf.spider.core.parser.Impl.JDHtmlParserImpl] [INFO] - 解析列表頁面:https://list.jd.com/list.html?cat=9987,653,655&page=1, 消耗時長:46ms2018-04-01 21:26:03 [pool-1-thread-3] [cn.xpleaf.spider.core.parser.Impl.SNHtmlParserImpl] [INFO] - 解析列表頁面:https://list.suning.com/0-20006-0.html, 消耗時長:49ms2018-04-01 21:26:04 [pool-1-thread-5] [cn.xpleaf.spider.utils.HttpUtil] [INFO] - 下載網頁：https://item.jd.com/6737464.html，消耗時長：219 ms，代理信息：null:null2018-04-01 21:26:04 [pool-1-thread-2] [cn.xpleaf.spider.utils.HttpUtil] [INFO] - 下載網頁：https://list.jd.com/list.html?cat=9987,653,655&page=2&sort=sort_rank_asc&trans=1&JL=6_0_0，消耗時長：276 ms，代理信息：null:null2018-04-01 21:26:04 [pool-1-thread-4] [cn.xpleaf.spider.utils.HttpUtil] [INFO] - 下載網頁：https://list.suning.com/0-20006-99.html，消耗時長：300 ms，代理信息：null:null2018-04-01 21:26:04 [pool-1-thread-4] [cn.xpleaf.spider.core.parser.Impl.SNHtmlParserImpl] [INFO] - 解析列表頁面:https://list.suning.com/0-20006-99.html, 消耗時長:4ms......2018-04-01 21:27:49 [pool-1-thread-3] [cn.xpleaf.spider.utils.HttpUtil] [INFO] - 下載網頁：https://club.jd.com/comment/productCommentSummaries.action?referenceIds=23934388891，消耗時長：176 ms，代理信息：null:null2018-04-01 21:27:49 [pool-1-thread-3] [cn.xpleaf.spider.core.parser.Impl.JDHtmlParserImpl] [INFO] - 解析商品頁面:https://item.jd.com/23934388891.html, 消耗時長:413ms2018-04-01 21:27:49 [pool-1-thread-2] [cn.xpleaf.spider.utils.HttpUtil] [INFO] - 下載網頁：https://review.suning.com/ajax/review_satisfy/general-00000000010017793337-0070079092-----satisfy.htm，消耗時長：308 ms，代理信息：null:null2018-04-01 21:27:49 [pool-1-thread-2] [cn.xpleaf.spider.core.parser.Impl.SNHtmlParserImpl] [INFO] - 解析商品頁面:https://product.suning.com/0070079092/10017793337.html, 消耗時長:588ms....../<code>

平均下來，下載一個商品網頁數據的時間在200~500毫秒不等，當然這個還需要取決於當時的網絡情況。

另外，如果想要真正計算爬取一個商品的數據，可以通過日誌下面的數據來計算：

下載一個商品頁面數據的時間
獲取價格數據的時間
獲取評論數據的時間

在我的主機上（CPU：E5 10核心，內存：32GB，分別開啟1個虛擬機和3個虛擬機），情況如下：

節點數每節點線程數商品數量時間15京東+蘇寧易購近13000個商品數據141分鐘35京東+蘇寧易購近13000個商品數據65分鐘

可以看到，當使用3個節點時，時間並不會相應地縮小為原來的1/3，這是因為此時影響爬蟲性能的問題主要是網絡問題，節點數量多，線程數量大，網絡請求也多，但是帶寬一定，並且在沒有使用代理的情況，請求頻繁，連接失敗的情況也會增多，對時間也有一定的影響，如果使用隨機代理庫，情況將會好很多。

但可以肯定的是，在橫向擴展增加爬蟲節點之後，確實可以大大縮小我們的爬蟲時間，這也是分佈式爬蟲系統的好處。

7 爬蟲系統中使用的反反爬蟲策略

在整個爬蟲系統的設計中，主要使用下面的策略來達到反反爬蟲的目的：

使用代理來訪問-->IP代理庫，隨機IP代理
隨機頂級域名url訪問-->url調度系統
每個線程每爬取完一條商品數據sleep一小段時間再進行爬取

8 總結

需要說明的是，本系統是基於Java實現的，但個人覺得，語言本身依然不是問題，核心在於對整個系統的設計上以及理解上，寫此文章是希望分享這樣一種分佈式爬蟲系統的架構給大家，如果對源代碼感興趣，可以到我的GitHub上查看。

GitHub：https://github.com/xpleaf/ispider

原文地址：http://blog.51cto.com/xpleaf/2093952

分享到:

閱讀更多 架構師筆記 的文章

關鍵字: HBase 設計 Redis

Java ==,equals ,hashCode 的比較

java 8 stream reduce詳解和誤區

那些年，我們踩過的 Java 坑

Java-POI-Excel導出包含跨行跨列 Excel表格樣式格式化。

都說 Java 反射效率低，你知道原因在哪裡麼(好好看）

Java 10大裝B寫法，看完可以出去吹一波了！

Java 10 大裝 B 寫法，看完可以出去吹牛逼了！

Java 14 新特性

真沒想到！Java 導出 Excel 表格會變得如此簡單優雅

如何從 Java 8 升級到 Java 12，升級收益及問題處理技巧

Java 基礎：循環結構

Java~類反射~JUnit和註解

Java 14 中令人期待的五大新特性！

Java 老矣，尚能飯否？2020 Java 生態系統報告出爐！

java 線程及線程池解析

Java 凍結或解除凍結Excel中的行和列

今天 Java 14 正式發佈了！放棄 Java 8 行嗎？

Java 狀態報告：Java 8 佔主導，Java 11 不算多

視頻教程+案例，java、python、前端全套

JAVA 8與JAVA 11到底該怎麼選？

Java 線程不安全分析及其解決方法

消滅 Java 代碼的“壞味道”

03.02 把你的空閒時間利用起來，java，python有了這些，你也可以學會

03.01 Java 抽象類與模板設計模式詳解

02.28 Java 實現數據表與簡單Java類映射轉換

2020 年 Java 技術報告：半數開發者仍在使用 Java 8「轉」

02.21 2020 年 Java 技術報告：半數開發者仍在使用 Java 8「轉」

Java 加密

「Java」分享一個使用DES加密和解密的算法

Java 基礎（一）

01.28 Java 14 令人期待的 5 大新特性，打包工具終於要來了

java 開發與快遞鳥對接的推送接口

JAVA 2020款山地車盤點

01.11 JAVA 2020款山地車盤點

JAVA 動態代理講解及實現。面試官咱們換下一個問題。我還行

2020 年九大頂級 Java 框架

Java 程序員，你真的會寫Java文檔註釋(Java Doc Comments)嗎

java.lang.String 的 + 號操作到底做了什麼事情？

Java 9 ← 2017，2019 → Java 13，Java 兩年來都經歷了什麼？

11.27 Java 9 ← 2017，2019 → Java 13 ;來看看Java兩年來的變化

大家都說 Java 反射效率低，你知道原因在哪裡麼

「轉」 Java 無界阻塞隊列 DelayQueue 入門實戰

淺入淺出 Java 排序算法

專業第（3）課-Java 基本數據類型

04.03 Oracle 最後通牒：要 Java 8 更新先交錢！

Java IDE的歷史變遷及idea的使用

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

沒有取得房抄產證的房子可以轉讓。但如果確定無法取得房產證的，房產轉讓不受法律保襲護。一般情況下，只有取得房產證的房屋才能確定房屋產權人，才具有轉讓的條件。但如果房屋是合法取得的，以百後可以依法辦理度房:-轉賣房產證商品房拿到:我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

鋒利突厥人你這樣說只能說明你對歷史非常不瞭解，我先用一句話概括突厥被大唐雄兵打的有多慘：三次滅國，背井離鄉，遠赴西亞，打不過，俺躲著你還不行嗎？突厥的意思是中間慫起的頭盔。其來歷已經不可靠，可能有著匈奴、鮮卑或:-復國大唐:為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

小高層 60:小高層16層高樓間距60米哪一層比較好？首先需要明白，選擇層數居住與樓間距毫無關係，住在哪一層，肉眼看對面樓的距離，是相差不大的。設定樓間距60米，純粹是混淆視聽。其實，一幢樓的樓層總數確定的情況下，到底哪一層最佳？很簡單，取總層數乘以黃金:-樓間距層高

金銀花盆栽好養嗎？怎麼養？

金銀花可以盆栽，很好養的！金銀花，是忍冬科的常綠纏繞灌木，枝條柔韌修長，多攀爬或匍匐生長。金銀花生性強健，在我國的很多南方省份野外很多地區都能看到它的身影，葉子常年翠綠，到夏季開花，飄香四溢。所以，有:-金銀花盆栽:金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

長城真的無用嗎？在今天許多人認為長城無用，古代國家舉國之力建造的長城不過只是文物，就連康熙都曾作詩諷刺，原文如下：萬里經營到海涯，紛紛調發逐浮誇。當時用盡生民力，天下何曾屬爾家。-康熙但真的如此嗎？小:-匈奴抵禦長城:長城對於抵禦古代匈奴和蒙古人起到了多大作用？蒙古人

什麼樹可以嫁接臘梅？

臘梅只能嫁接在不同品種的臘梅上，其他的樹種不行！臘梅的繁殖可以用播種，壓條，嫁接，分株等繁殖方法。播種法因不易保持花卉的原有優良特性，且播種的優點是在於大量繁殖，而臘梅大都只需培植少量幾株，故一般都不:-臘梅嫁接:什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

堪憂五一假期:行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？事實上，因為教育培訓都是預收費用的模式。但凡有一點點規模的培訓機構老師。在上半年，帶課量是可以得到保證。:-課時量

在農村“立夏節”都有哪些民間習俗？

民間習俗農村:在農村“立夏節”都有哪些民間習俗？在農村“立夏節”都有哪些民間習俗一、農村立夏常見的習俗風俗活動：1、吃雞蛋“立夏吃蛋”習俗由來已久，俗話說“立夏吃了蛋，夏天不疰夏”。據說立夏開始天氣越來越熱，村裡小孩兒會有身體疲勞四肢無力的感覺，吃:-立夏節

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

失望分手看法:男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？你的這個問題特別的有趣，我覺得你先不要看你要怎麼做才讓他才能讓他對你的印象有所改變，你要去看為什麼是兩個月之後可以在一起，這兩個月他會用來做什麼，為什麼會有這兩個月？例如他的身體碰到了什麼樣的問題嗎？:-答應我

工程分包乙方人員傷殘誰承擔？

承擔:工程分包乙方人員傷殘誰承擔？分包乙方分包致人傷殘責任誰承擔？嚴格來說，需要了解更多傷殘原因才能區分的，作為非專業人士，自己發表一點淺見供題主參考：1、如果甲方是央企的話，他們合同中的責任、義務等條款內已經將自己的責任全部撇開了，更會:-乙方傷殘

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

實際上:有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？歷史人物聯繫這個詞貌似太寬泛了，就好像有一個調皮的答案說的，胡亥和溥儀相隔2000多年，牽強的找，也有聯繫：都是亡國之君不是。我想題主的意思是兩個看起來應該風馬牛不相及的人物，在歷史上居然是熟悉或是一個時代的:-毫不相關

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

法系車不保值，如果準備常開可以入手，性價比高，價格應該在二至三萬之間，二手車一車一況，一況一價，居體價格看車況。:-錢能水泡:13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？世嘉自動擋

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

17年駕駛證二手:22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？建議買日系二手車，開順了賣了，買新車，昂克賽拉無法再次出手時獲得好價格，而且也不省油，開完日系車直接換德系:-昂克賽拉

如何騎車去臺灣騎行？

騎車在臺灣沒有迴歸內地前，最好不要去臺灣，一是國內政策不允許你去臺灣，因為已停止了臺灣個人遊。二是你偷著去臺灣旅遊，安全沒有保障，偷渡客在哪裡也沒有安全保障的。以後內地政策允許個人去臺灣旅遊了，建議那時再:-騎行臺灣:如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

預算:本人預算5萬左右，想買一輛二手法系車！求推薦？ 5萬預算5萬元左右，想買一輛二手法系車？推薦東風標緻老款308車型。1 5萬元可以買標緻308車況好的，沒大事故呢，年限15年左右，公里數3萬左右，手動檔車型。2 標緻308車型，底盤調教紮實，跑高速穩定:-法系二手

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

道奇你好，好高興回答你的問題！14年進口馬自達5和10年月道奇酷威個人感覺馬自達5比較划算。新車價馬5報價29.99萬，酷威19.38萬兩款車都是原裝進口，馬5屬於日系，酷威屬於美系。兩款車不屬於同類車型:-酷威馬自達 14年:14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

特殊津貼高校人才就要重視，河南省高校人才更要重視，這個人才不是評出了的，而是推薦出來的，沒有推薦，連參評的資格都沒有。國務院特殊津貼人員推薦，不推薦是百分百沒希望，推薦了希望就非常，那麼是什麼是國務院特殊津貼:-河南大學並列 2020年:2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

李老貓說車為你非專業解答各種選車用車問題本田crv定位於一款緊湊級suv產品，主要對飈豐田榮放，日產奇駿，這款車整體市場表現非常突出，2019年全年累計銷量為18.44萬臺，平均月銷1.5萬以上，其深:-舒適版本田油耗:本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

1.世界經濟遭到重創疫情影響之下，各行各業基本屬於停工停產的狀態，在世界經濟趨於一體化的今天，停工停產勢必會造成一系列的連鎖反應，最後導致的結果可能會引發金融危機。2.世界格局可能發生改變美國仍是世界:-頭腦風暴控制:國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？疫情國外

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

如果有15萬元的預算，讓你選擇一臺空間和動力都很不錯的小型SUV，我覺得很多的讀者都會想到本田XRV這款車型。因為本田XRV確實太出色了，和同級別的其他盒子SUV車型相比，這款車在空間和動力上都有優勢:-xrv 自動:本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？本田豪華版

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

何去何從:現在存款有14萬，借了5萬還沒收回來，該做什麼好？續租存款利息率較低，可以投資較高收益的項目，比如投資基金，一般情況下可獲得6%一10%的回報。如果行情好可達到50%以上收益，去年不少基金超過這目標。目前受疫情影響，股市在低位震盪，也是基金投資的機會。一:-存款 2300

2070super和5700xt買哪個比較好？

如果是玩遊戲毫無疑問選擇n卡，也就是2070 suep。如果追求性價比可以選擇a卡，也就是5700xt. 為什麼遊戲選n卡呢？首先遊戲廠商針對n卡優化比較多，然後就是功耗小，然後N卡架構執行效率極高，:-:2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

二胎我是兩個孩子的媽媽，曾經的我和你一樣，生完寶寶我也抑鬱了，我知道抑鬱症真的很痛苦，產後的那段日子我整天都不開心，做什麼事也沒積極性，誰也不想搭理，別人給我說話我就覺得很煩。忍不住衝家人發脾氣。每當一個:-生完抑鬱:生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？發火

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

感覺:人這一生遇到的人和事為什麼感覺都像是必然的經歷？正所謂有因必有果，所以你今天的因，就會產生明天的果。所以這一切你就會覺得是必然的。生活中大部分是普通人大家的生活規律，生活方式，大致相同。當你看到別人家庭的果，自己家也產生同樣的果，你就會覺得這一切是:-人和經歷

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

校內:現在校內校外到底教的是美式英語還是英式英語還是混搭英語？校外英式答案肯定是不唯一的！美式英語現在是主流，少量英式發音也個別存在！但對於孩子來說，肯定是混搭英語，因為孩子肯定不是一直一位老師教下去，肯定會換老師！而老師的發音肯定是既有英式的，也有美式的！就連一些英語:-美式英語

上有老下有小，我們真的跳不出這個人生循環了嗎？

上有老魔咒:上有老下有小，我們真的跳不出這個人生循環了嗎？的確如此，儘管現在不結婚，晚婚的人很多，但是從人類繁洐生息的歷史和大多數人來看，成家立業，生兒育女，家庭仍是主流，一個人的生理，心理和生存需求決定了生存狀態，生兒育女，瞻養父母即是義務責任，也是生活動:-下有小

如果外面正在下小雨，你會突然想起了誰？

想起:如果外面正在下小雨，你會突然想起了誰？我最不忘，還是秋日的雨夜，天又涼了幾分，已經需要披上一件薄薄的外套了。臨窗而望，眼見窗臺上的幾株小植物，葉片上沾了幾滴小雨珠，我總喜歡，用小手電去照它們，這樣的小水滴看起來晶瑩晶瑩的，有一種清清涼涼的:-小雨

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

初中同學:初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？吃飯許久未見，意思就是交情不怎麼樣，無功不受祿，人家憑什麼那麼熱情，難道真的是多年一來忘不了咱們之間的同學情誼，倍感想念了嗎，不是請幫忙、做業務、就是借錢，十有八九十借錢。我建議還是不要去的好，大家都很忙:-許久未見

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

出口心理:現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？愛你更多的是心裡問題，可能對方還沒有優秀到你滿意的程度，更沒有到那種離不開的地步！愛情最終還是要回歸生活，而生活離不開兩個人的相處，父母終究會老，孩子終究會飛，所以選擇自己的伴侶尤為重要，你現在覺得噁心更:-喜歡你

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

再見王瀝川好看:劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？《遇見王瀝川》吧，高以翔的王瀝川太招人稀罕了。長相，身材，家世，人品，才能樣樣好，簡直完美，挑不出任何毛病，實在要說一個缺點的話，那就是太tm完美，天妒英才、才讓他飽受病魔折磨。偶像劇、深情帥氣的男主:-何以笙簫默

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

學歷是求職必備條件。有了工作不能停止對知識的探索。更高的學歷，可以讓你有更專業的技術能力和學習能力，可以讓你拓展自己的交際圈，可以讓你更知名。總之，活到老，學到老，學習對人總是有好處的，技多不壓身嘛！:-字節跳動:計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？讀研計算機專業

生完二胎的你們，現在有什麼感想？

二胎家庭日常是什麼樣的？是不是覺得家裡多了一個小人兒，溫馨多了？不存在的！生二胎根本是媽媽們的渡劫磨礪！以前週末睡到自然醒，現在全年無休，時刻警醒著，能睡一次懶覺跟過年似的，黑眼圈不說，頭髮呼啦啦地掉:-生完二胎感想:生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華北適合種植蠶豆，種蠶豆的面積大，在西北，華北，都在種植蠶豆，蠶豆莖稈根部有根瘤菌是種植其它農作物的好茬地，特別是土壤培養和防病蟲害起到作用。:-蠶豆種植適合:華北適合種植蠶豆嗎？華北

華為手機更新EMUI10.1系統後效果咋樣？

大家知道現在智能手機的性能不僅僅跟智能手機的硬件有關，還跟智能手機的系統軟件息息相關，在國產智能手機操作系統裡，小米的MIUI系統跟華為的EMUI系統都是比較優秀的操作系統。最近小米推出了小米MIUI:-咋樣華為華為手機更新:華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

蜜蜂爬到:大熱天蜜蜂老是爬到箱外結群正常嗎？盜蜂現在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的時間，所以蜂群中是非常容易發生盜蜂的。在蜂群中發生盜蜂的時候，蜂群守衛蜂會增多，但是這種情況引發的蜜蜂在蜂箱外一般不會結團，只是蜜蜂來:-大熱天

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

最佳期霧都山客來回答您的問題。最近山客家鄉的村民正在進行辣椒移栽，確實有像題主提到的情形，辣椒苗移栽前長勢蔥蔥，嫩綠喜人，但是移栽後幾天內就出現萎蔫現象，細心觀察也不是被病蟲害危害。那究竟是什麼原因導致辣椒:-苗蔫辣椒咋回事:辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

最近這幾年手機在電子產品行業裡可謂是發展速度非常快，蘋果和華為兩大公司可以說也是，明爭暗鬥，產品一次比一次有賣點，前一段時間華為和蘋果還都推出了手機新品，兩家都在大力宣傳強調著拍照功能，像iPhone:-形態相機手機最終:手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

5寸手機支持:華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？很高興回答你的問題，刷頭條刷出來的問題，看到很多人回答，感覺還有一些觀點沒有寫出，所以我來回答一下。首先，華為為什麼不出小尺寸全面屏手機？其實並不只有華為一家沒有出小屏手機，放眼近期各大手機廠商發佈的:-華為

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

胡蘿蔔蔬菜:生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？第一種，黃瓜。這個瓜，可不是菜市場中堆放滿滿的青瓜。各位可要睜大眼睛看清楚了，這個黃瓜，青中帶黃，品種屬以前鄉下農戶少量種植的，形態上面來看這種瓜矮、短、圓，表面覆蓋有比較淡的細毛，經水輕輕沖洗之後整:-山芋

為什麼馬鈴薯不宜過早過遲播種？

不宜:為什麼馬鈴薯不宜過早過遲播種？播種過早為什麼馬鈴薯不宜過早過遲播種？馬鈴薯的種植主要是由於氣候條件的限制，過早出苗後容易遇到低溫被凍死，種植晚了容易遇到乾旱和高溫，影響產量。馬鈴薯種植時間的早晚必須根據種植地方的氣候條件來確定。馬鈴薯生長:-馬鈴薯

疫情愈發嚴重，原油為何反而大漲？

原油愈發:疫情愈發嚴重，原油為何反而大漲？疫情愈發嚴重和原油大漲沒有必然關係。但是資金總是從高處流向低處，原油價格跌的越多，投資價值越明顯，相對於其他產業更有投資價值。舉個例子：深圳南山房價均價大約6萬左右，寶安均價5萬左右，如果南山房價漲到:-疫情

生菜球很好吃，怎麼種植才能高產呢？

種植:生菜球很好吃，怎麼種植才能高產呢？高產對環境條件的要求、1.溫度生菜球為喜冷涼、忌高溫作物，種子在4度以上可發芽、以15～20度為發芽適溫。幼苗能耐較低溫度，日平均溫度12度時生長壯健，葉球生長最適溫度為13～16度。不過目前有些結球生菜:-生菜

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？

看下這個戶型三房改四房，改一個小房間，應該沒有問題。△原戶型圖這個戶型改四房，能改的方案比較多，但是修改以後是否好用，是一件值得考慮的事情。一、主臥室變為兩個臥室可以將主臥室改為兩個臥室，但是這樣的改動佔:-房改 122:裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？ 144

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

房子:大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？這個戶型砸牆，當然可以砸牆，但是在砸牆之前，要搞清楚為什麼要砸牆，砸牆以後有什麼優劣。△原戶型原戶型圖上的白色牆體部分不是承重牆，理論上說否可以砸掉。但是外牆和與旁邊戶型或者是公共區域的共用牆體和圖上:-幫忙

意蜂夏季喝什麼水降溫？

降溫意蜂夏季喝什麼水降溫？氣溫高，蜂巢溫度高的情況下，蜜蜂是通過採水的辦法掛在蜂箱的四壁來蒸發帶走熱量，降低蜂巢溫度同時也能幫助蜂群維持正常的溼度。在平常的情況下，蜜蜂是在室外採自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

黃瓜種子:黃瓜種子催芽後種植需要打底水嗎？你好很高興回答這個問題。答案：不用。1-2天可出芽。黃瓜種子催芽：選用飽滿的種子，用30℃水浸泡4小時後催芽。也可用100倍福爾馬林溶液浸泡種子10-20分鐘，洗淨後清水浸種3-4小時，然後於25-3:-催芽黃瓜打底

書友們展示一下自我感覺發揮較好的作品，一起學習？

自我較好這幅作品是參賽的，色彩的搭配，紙張的拼接都是自己設計完成的，一如既往的清新淡雅感覺。書體用的魏碑中楷書，增加了書寫的趣味性。:-書友展示:書友們展示一下自我感覺發揮較好的作品，一起學習？