AI開發最大升級：Pandas與Scikit-Learn合併，新工作流程更簡單強大！

2018-09-08 16:52:44 新智元

新智元AI WORLD 2018世界人工智能峰會

Scikit-Learn的0.20版本，將會是進行近年來最重磅的升級。

對於許多數據科學家來說，一個典型的工作流程是在Scikit-Learn進行機器學習之前，用Pandas進行探索性的數據分析。新版本的Scikit-Learn將會讓這個過程變得更加簡單、功能更加豐富、更魯棒以及更加標準化。

注：本文中的0.20版本的是指預覽版，最終版本目前還沒有發佈。

升級到0.20版本

幾日前，官方剛剛發佈這個0.20的預覽版。用戶可以通過conda命令進行安裝：

conda install scikit-learn=0.20rc1 -c conda-forge/label/rc -c conda-forge

也可以通過pip命令進行安裝：

pip install — pre scikit-learn

ColumnTransformer、升級版OneHotEncoder介紹

隨著0.20版本的升級，從Pandas到Scikit-Learn的許多工作流會變得比較相似。ColumnTransformer估計器會將一個轉換應用到Pandas DataFrame(或數組)列的特定子集。

OneHotEncoder估計器不是“新生物”，但已經升級為編碼字符串列。以前，它只對包含數字分類數據的列進行編碼。

接下來，讓我們看看這些新添加的功能是如何處理Pandas DataFrame中的字符串列的。

Kaggle住房數據集

Kaggle最早的機器學習競賽題目之一是《住房價格：先進的迴歸技術》。其目標是在給定80個特徵情況下，預測房價。

數據一覽

在DataFrame中讀取數據並輸出前幾行。

>>> import pandas as pd
>>> import numpy as np
>>> train = pd.read_csv(‘data/housing/train.csv’)
>>> train.head

AI开发最大升级：Pandas与Scikit-Learn合并，新工作流程更简单强大！

從訓練集中刪除目標變量

目標變量是SalePrice，我們將它作為數組移除並分配給它自己的變量。我們將在後面的機器學習中用到它。

編碼單個字符串列

首先，我們編碼一個字符串列HoustStyle，它具有房子外觀的值。讓我們輸出每個字符串值的唯一計數。

這一列中有8個唯一值（unique value）。

scikitlearn Gotcha必須有2D數據

大多數Scikit-Learn估計器嚴格要求數據是的2D的。從技術角度講，如果我們選擇上面的列作為train[“HouseStyle”]，Pandas Series是數據的單一維度。我們可以強制Pandas創建一個單列DataFrame，方法是將一個單項列表傳遞到方括號中，如下所示:

評估器的三個步驟過程——導入、實例化、匹配

Scikit-Learn API對於所有的估計器都是一致的，它根據下面三個步驟來匹配(訓練)數據。

從它所在的模塊中導入我們想要的估計器
實例化估計器，可能改變它的默認值
根據數據擬合估計量。在必要情況下，可以將數據轉換到新的空間。

下面，我們導入一個hotencoder，將它實例化，並確保返回一個密集(而不是稀疏)的數組，然後用fit_transform方法對單個列進行編碼。

>>> from sklearn.preprocessing import OneHotEncoder
>>> ohe = OneHotEncoder(sparse=False)
>>> hs_train_transformed = ohe.fit_transform(hs_train)
>>> hs_train_transformed
array([[0., 0., 0., ..., 1., 0., 0.],
[0., 0., 1., ..., 0., 0., 0.],
[0., 0., 0., ..., 1., 0., 0.],
...,
[0., 0., 0., ..., 1., 0., 0.],
[0., 0., 1., ..., 0., 0., 0.],
[0., 0., 1., ..., 0., 0., 0.]])

正如預期的那樣，它將每個唯一的值編碼為自己的二進制列。

得到了NumPy數組，那麼列名在哪裡?

注意，我們的輸出是一個NumPy數組，而不是Pandas DataFrame。Scikit-Learn最初不是為了直接與Pandas整合而建的。所有的Pandas對象都在內部轉換成NumPy數組，並且在轉換後總是返回NumPy數組。

我們仍然可以通過其get_feature_names方法從OneHotEncoder對象獲得列名。

>>> feature_names = ohe.get_feature_names
>>> feature_names
array(['x0_1.5Fin', 'x0_1.5Unf', 'x0_1Story', 'x0_2.5Fin', 
'x0_2.5Unf', 'x0_2Story', 'x0_SFoyer', 'x0_SLvl'], dtype=object)

驗證第一行數據的正確性

接下來讓我們驗證估計值是否正確。首先是第一行編碼的數據。

>>> row0 = hs_train_transformed[0]
>>> row0
array([0., 0., 0., 0., 0., 1., 0., 0.])

這將數組中的第6個值編碼為1。讓我們使用布爾索引（boolean index）來顯示特徵名稱。

現在，讓我們驗證原始DataFrame列中的第一個值是否相同。

使用inverse_transform來實現自動化

與大多數transformer對象一樣，有一個inverse_transform方法可以返回原始數據。在這裡，我們必須將row0包裝在一個列表中，使其成為一個2D數組。

我們可以通過轉置整個轉換後的數組來驗證所有的值。

>>> hs_inv = ohe.inverse_transform(hs_train_transformed)
>>> hs_inv
array([['2Story'],
['1Story'],
['2Story'],
...,
['2Story'],
['1Story'],
['1Story']], dtype=object)
>>> np.array_equal(hs_inv, hs_train.values)
True

將轉換應用到測試集中

無論我們對訓練集做什麼轉換，我們都必須應用到測試集。

>>> test = pd.read_csv('data/housing/test.csv')
>>> hs_test = test[['HouseStyle']].copy
>>> hs_test_transformed = ohe.transform(hs_test)
>>> hs_test_transformed
array([[0., 0., 1., ..., 0., 0., 0.],
[0., 0., 1., ..., 0., 0., 0.],
[0., 0., 0., ..., 1., 0., 0.],
...,
[0., 0., 1., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 1., 0.],
[0., 0., 0., ..., 1., 0., 0.]])

我們又得到了8列。

必須impute缺失數據

現在，我們必須impute缺失數據。預處理模塊中舊的Imputer已經被棄用。一個新的模塊——impute，由一個新的估計值SimpleImputer和一個新的策略“常量”組成。默認情況下，此策略將用字符串“missing_value”來填充缺失值。我們可以選擇使用fill_value參數設置它。

>>> hs_train = train[['HouseStyle']].copy
>>> hs_train.iloc[0, 0] = np.nan
>>> from sklearn.impute import SimpleImputer
>>> si = SimpleImputer(strategy='constant', fill_value='MISSING')
 
>>> hs_train_imputed = si.fit_transform(hs_train)
>>> hs_train_imputed
array([['MISSING'],
['1Story'],
['2Story'],
...,
['2Story'],
['1Story'],
['1Story']], dtype=object)

接下來，我們可以像以前那樣編碼啦！

>>> hs_train_transformed = ohe.fit_transform(hs_train_imputed)
>>> hs_train_transformed
array([[0., 0., 0., ..., 1., 0., 0.],
[0., 0., 1., ..., 0., 0., 0.],
[0., 0., 0., ..., 0., 0., 0.],
...,
[0., 0., 0., ..., 0., 0., 0.],
[0., 0., 1., ..., 0., 0., 0.],
[0., 0., 1., ..., 0., 0., 0.]])

注意，我們現在有了一個額外的列和一個額外的特徵名稱。

>>> hs_train_transformed.shape
 
(1460, 9)
>>> ohe.get_feature_names
array(['x0_1.5Fin', 'x0_1.5Unf', 'x0_1Story', 'x0_2.5Fin',
'x0_2.5Unf', 'x0_2Story', 'x0_MISSING', 'x0_SFoyer', 
'x0_SLvl'], dtype=object)

更多關於fit_transform的細節

對於所有的估計器，fit_transform方法將首先調用fit方法，然後調用transform方法。fit方法找到轉換過程中使用的關鍵屬性。例如，對於SimpleImputer，如果策略是“均值”，那麼它就會在fit方法中找到每一列的均值。它會存儲每一列的均值。當調用transform時，它使用每個列的這個存儲平均值來填充缺失值並返回轉換後的數組。

OneHotEncoder原理是類似的。在fit方法中，它會找到每個列的所有唯一值，並再次存儲這些值。在調用transform時，它使用這些存儲的惟一值來生成二進制數組。

將兩個轉換應用到測試集

我們可以手動應用上面的兩個步驟，如下所示:

>>> hs_test = test[['HouseStyle']].copy
>>> hs_test.iloc[0, 0] = 'unique value to test set'
 
>>> hs_test.iloc[1, 0] = np.nan
>>> hs_test_imputed = si.transform(hs_test)
>>> hs_test_transformed = ohe.transform(hs_test_imputed)
>>> hs_test_transformed.shape
(1459, 8)
>>> ohe.get_feature_names
array(['x0_1.5Fin', 'x0_1.5Unf', 'x0_1Story', 'x0_2.5Fin', 
'x0_2.5Unf', 'x0_2Story', 'x0_SFoyer', 'x0_SLvl'], 
dtype=object)

使用一個Pipeline來替代

Scikit-Learn提供了一個Pipeline估計器，它獲取一個轉換列表並依次應用它們。您還可以運行機器學習模型作為最終評估器。在這裡，我們只是簡單地impute和編碼。

每個步驟是一個two-item元組，由一個標記步驟和實例化估計器的字符串組成。前一個步驟的輸出是後一個步驟的輸入。

>>> si_step = ('si', SimpleImputer(strategy='constant',
fill_value='MISSING'))
>>> ohe_step = ('ohe', OneHotEncoder(sparse=False,
handle_unknown='ignore'))
>>> steps = [si_step, ohe_step]
>>> pipe = Pipeline(steps)
>>> hs_train = train[['HouseStyle']].copy 
>>> hs_train.iloc[0, 0] = np.nan
>>> hs_transformed = pipe.fit_transform(hs_train)
>>> hs_transformed.shape
(1460, 9)

通過簡單地將測試集傳遞給transform方法，可以輕鬆地通過Pipeline的每個步驟轉換測試集。

為什麼只對測試集轉換方法?

在轉換測試集時，重要的是隻調用transform方法，而不是fit_transform。當我們在訓練集中運行fit_transform時，Scikit-Learn找到了它需要的所有必要信息，以便轉換包含相同列名的任何其他數據集。

多字符串列轉換

對多列字符串進行編碼不成問題。先選擇你要編碼的列，再通過同樣的流程傳遞新的數據框架。

>>> string_cols = ['RoofMatl', 'HouseStyle']
>>> string_train = train[string_cols]
>>> string_train.head(3)
RoofMatl HouseStyle
0 CompShg 2Story
1 CompShg 1Story 
2 CompShg 2Story
>>> string_train_transformed = pipe.fit_transform(string_train)
>>> string_train_transformed.shape
(1460, 16)

把握pipeline的每個部分

我們可以通過named_steps字典屬性中的名稱檢索pipeline中的每個轉換器。在本例中，我們可以得到一個熱門編碼器，用來輸出特徵名稱。

>>> ohe = pipe.named_steps['ohe']
>>> ohe.get_feature_names
array(['x0_ClyTile', 'x0_CompShg', 'x0_Membran', 'x0_Metal', 
'x0_Roll', 'x0_Tar&Grv', 'x0_WdShake', 'x0_WdShngl',
'x1_1.5Fin', 'x1_1.5Unf', 'x1_1Story', 'x1_2.5Fin', 
'x1_2.5Unf', 'x1_2Story', 'x1_SFoyer', 'x1_SLvl'], 
dtype=object)

使用新的列轉換器來選擇列

全新的列轉換器（屬於新組合模塊的一部分）可以讓用戶選擇要讓哪些列獲得哪些轉換。與連續列相比，分類列幾乎總是需要單獨的轉換。

列轉換器目前是還是實驗性的，其功能將來可能會發生變化。

ColumnTransformer獲取三項元組（tuple）的列表。元組中的第一個值其標記作用的名稱，第二個是實例化的估算器，第三個是要進行轉換的列的列表。元組如下所示：

('name', SomeTransformer(parameters), columns)

這裡的列實際上不必一定是列名。用戶可以使用列的整數索引，布爾數組，甚至函數（它可以使用整個DataFrame作為參數，並且必須返回選擇的列）。

用戶也可以將NumPy數組與列轉換器一起使用，但本教程主要關注Pandas的集成，因此我們這裡繼續使用DataFrames。

將pipeline傳遞給列轉換器

我們甚至可以將多個轉換的流程傳遞給列轉換器，我們現在正是要這樣做，因為在字符串列上有多個轉換。

下面，我們使用列轉換器重現上述流程和編碼。請注意，實際流程與上面的流程完全相同，只是附加了每個變量名稱的cat。我們將在下一章節中為數字列添加不同的流程。

>>> from sklearn.compose import ColumnTransformer
>>> cat_si_step = ('si', SimpleImputer(strategy='constant', 
fill_value='MISSING'))
>>> cat_ohe_step = ('ohe', OneHotEncoder(sparse=False,
handle_unknown='ignore'))
>>> cat_steps = [cat_si_step, cat_ohe_step]
>>> cat_pipe = Pipeline(cat_steps)
>>> cat_cols = ['RoofMatl', 'HouseStyle']
>>> cat_transformers = [('cat', cat_pipe, cat_cols)]
>>> ct = ColumnTransformer(transformers=cat_transformers)

將整個DataFrame傳遞給列轉換器

列轉換器實例可以選擇我們想要使用的列，因此我們只需將整個DataFrame傳遞給fit_transform方法，就可以選擇我們所需的列。

然後可以使用同樣的方法轉換測試集。

檢索特徵名

我們必須進一步挖掘，來獲取特徵名。所有的轉換器都存儲在named_transformers_ dictionary屬性中。然後使用特徵名、含有三項要素的元組中的第一項，來選擇特定的轉換器。下面的代碼就是選擇轉換器（此例中只有一個流程，名為cat）。

然後從這個流程中選擇一個熱編碼器對象，最後得到特徵名。

>>> ohe = pl.named_steps['ohe']
>>> ohe.get_feature_names
array(['x0_ClyTile', 'x0_CompShg', 'x0_Membran', 'x0_Metal', 
'x0_Roll','x0_Tar&Grv', 'x0_WdShake', 'x0_WdShngl', 
'x1_1.5Fin', 'x1_1.5Unf', 'x1_1Story', 'x1_2.5Fin', 
'x1_2.5Unf', 'x1_2Story', 'x1_SFoyer', 'x1_SLvl'], 
dtype=object)

轉換數字列

數字列需要一組不同的轉換。我們不使用常亮來填充缺失值，而是經常選擇中值或均值。一般不對列中的值進行編碼，而是通常將列中的值減去每列的平均值併除以標準差，對列中的值進行標準化。這有助於讓許多模型產生更好的擬合結果（比如脊迴歸）。

使用所有數字列

我們可以選擇所有數字列，而不是像處理字符串列一樣，手動選擇一列或兩列。首先使用dtypes屬性查找每列的數據類型，然後測試每個dtype的類型是否為“O”。 dtypes屬性會返回一系列NumPy dtype對象，每個對象都有一個單一字符的kind屬性。我們可以利用它來查找數字或字符串列。 Pandas將其所有字符串列存儲為kind屬性等於“O”的對象。有關kind屬性的更多信息，請參閱NumPy文檔。

獲取kind屬性，該屬性是表示dtype的單字字符串。

>>> kinds = np.array([dt.kind for dt in train.dtypes])
>>> kinds[:5]
array(['i', 'i', 'O', 'f', 'i'], dtype='

假設所有的數字列都是非對象性的。我們可以使用同樣的方法來獲取類別列。

>>> all_columns = train.columns.values
>>> is_num = kinds != 'O'
>>> num_cols = all_columns[is_num]
>>> num_cols[:5]
array(['Id', 'MSSubClass', 'LotFrontage', 'LotArea', 'OverallQual'],
dtype=object)
>>> cat_cols = all_columns[~is_num]
>>> cat_cols[:5]
array(['MSZoning', 'Street', 'Alley', 'LotShape', 'LandContour'],
dtype=object)

獲取數字列列名之後，可以再次使用列轉換器。

>>> from sklearn.preprocessing import StandardScaler
>>> num_si_step = ('si', SimpleImputer(strategy='median'))
 
>>> num_ss_step = ('ss', StandardScaler)
>>> num_steps = [num_si_step, num_ss_step]
>>> num_pipe = Pipeline(num_steps)
>>> num_transformers = [('num', num_pipe, num_cols)]
>>> ct = ColumnTransformer(transformers=num_transformers)
>>> X_num_transformed = ct.fit_transform(train)
>>> X_num_transformed.shape
(1460, 37)

我們可以使用類轉換器對DataFrame的每個部分進行單獨轉換。在本文的示例中，我們將使用每一列。

然後，將類別列和數字列分別創建單獨的流程，然後使用列轉換器進行獨立轉換。這兩個轉換過程是並行的。最後，將每個轉換結果連接在一起。

>>> transformers = [('cat', cat_pipe, cat_cols),
('num', num_pipe, num_cols)]
>>> ct = ColumnTransformer(transformers=transformers)
>>> X = ct.fit_transform(train)
>>> X.shape
(1460, 305)

機器學習

本文的重點就是設置數據，以便進行機器學習。我們可以創建一個最終流程，並添加機器學習模型作為最終的估算器。這個流程的第一步就是我們上文剛剛完成的整個轉換過程。我們在本文開始處設定y表示售價。在這裡，我們將使用thefit方法，而不是fit_transform方法，因為流程的最後一步是機器學習模型，而且不進行轉換。

>>> from sklearn.linear_model import Ridge
>>> ml_pipe = Pipeline([('transform', ct), ('ridge', Ridge())])
>>> ml_pipe.fit(train, y)

我們可以用score方法來評估模型，它將返回一個R-Squared值：

交叉驗證

當然，在訓練集上進行自我評分是沒有用的。我們需要做一些K重交叉驗證，以瞭解如何處理不可見的數據。這裡我們設置一個隨機狀態，以便在整個教程的其餘各部分保持同樣的狀態。

>>> from sklearn.model_selection import KFold, cross_val_score
>>> kf = KFold(n_splits=5, shuffle=True, random_state=123)
>>> cross_val_score(ml_pipe, train, y, cv=kf).mean
0.813

在網格搜索時選擇參數

在Scikit-Learn中進行網格搜索，要求我們將映射傳遞至到可能值的參數名稱字典中。在流程中，我們必須將步驟的名稱加上雙下劃線，然後使用參數名。如果流程中有多個層級，必須繼續使用雙下劃線，向上移動一級，直至到達我們想要優化其參數的估算器為止。

>>> from sklearn.model_selection import GridSearchCV
>>> param_grid = {
'transform__num__si__strategy': ['mean', 'median'],
'ridge__alpha': [.001, 0.1, 1.0, 5, 10, 50, 100, 1000],
}
>>> gs = GridSearchCV(ml_pipe, param_grid, cv=kf)
>>> gs.fit(train, y)
>>> gs.best_params_
{'ridge__alpha': 10, 'transform__num__si__strategy': 'median'}
>>> gs.best_score_
0.819

在Pandas DataFrame中獲取所有網格搜索結果

網格搜索的所有結果都存儲在cv_results_屬性中。這是一個字典，可以轉換為Pandas DataFrame以獲得更好的顯示效果，該屬性使用一種更容易進行手動掃描的結構。

參數網格中每一種組合中都包含大量數據

構建一個具備全部基礎功能的自定義轉換器

在上述工作流程中存在一些限制。例如，如果熱編碼器允許在使用fit方法期間忽略缺失值，那就更好了，那就可以簡單地將缺失值編碼為全零行。而目前，它還要強制用戶用一些字符串去填充缺失值，然後將此字符串編碼為單獨的列。

低頻字符串

此外，在訓練集中僅出現幾次的字符串列，可能不是測試集中的可靠預測變量。我們可能希望將它們編碼為缺失值。

編寫自己的估算器類

Scikit-Learn可以幫助用戶編寫自己的估算器類。基本模塊中的BaseEstimator類可以提供get_params和set_params方法。當進行網格搜索時，set_params方法是必需的。用戶可以自己編寫，也可以用BaseEstimator。還有一個TransformerMixin，但只是為用戶編寫fit_transform方法。

以下代碼構建的類基本轉換器可執行以下操作：

•使用數字列的均值或中位數填充缺失值

•對所有數字列進行標準化

•對字符串列使用一個熱編碼

•不用再填充類別列中的缺失值，而是直接將其編碼為0

•忽略測試集中字符串列中的少數獨特值

•允許您為字符串列中值必須具有的出現次數選擇閾值。低於此閾值的字符串將被編碼為全0

•僅適用於DataFrames，並且只是實驗性的，未經過測試，因此可能會破壞某些數據集。

•之所以稱其為“基本”轉換器，是因為對許多數據集而言，這些操作屬於最基本的轉換。

from sklearn.base import BaseEstimator
class BasicTransformer(BaseEstimator):
def __init__(self, cat_threshold=None, num_strategy='median',
return_df=False):
# store parameters as public attributes
self.cat_threshold = cat_threshold
if num_strategy not in ['mean', 'median']:
 
raise ValueError('num_strategy must be either "mean" or 
"median"')
self.num_strategy = num_strategy
self.return_df = return_df
def fit(self, X, y=None):
# Assumes X is a DataFrame
self._columns = X.columns.values
# Split data into categorical and numeric
self._dtypes = X.dtypes.values
self._kinds = np.array([dt.kind for dt in X.dtypes])
self._column_dtypes = {}
is_cat = self._kinds == 'O'
self._column_dtypes['cat'] = self._columns[is_cat]
self._column_dtypes['num'] = self._columns[~is_cat]
self._feature_names = self._column_dtypes['num']
# Create a dictionary mapping categorical column to unique 
# values above threshold
self._cat_cols = {}
for col in self._column_dtypes['cat']:
vc = X[col].value_counts
if self.cat_threshold is not None:
vc = vc[vc > self.cat_threshold]
vals = vc.index.values
self._cat_cols[col] = vals
self._feature_names = np.append(self._feature_names, col 
 
+ '_' + vals)
# get total number of new categorical columns 
self._total_cat_cols = sum([len(v) for col, v in 
self._cat_cols.items()])
# get mean or median
num_cols = self._column_dtypes['num']
self._num_fill = X[num_cols].agg(self.num_strategy)
return self
def transform(self, X):
# check that we have a DataFrame with same column names as 
# the one we fit
if set(self._columns) != set(X.columns):
raise ValueError('Passed DataFrame has different columns 
than fit DataFrame')
elif len(self._columns) != len(X.columns):
raise ValueError('Passed DataFrame has different number 
of columns than fit DataFrame')
# fill missing values
num_cols = self._column_dtypes['num']
X_num = X[num_cols].fillna(self._num_fill)
# Standardize numerics
std = X_num.std
X_num = (X_num - X_num.mean) / std
zero_std = np.where(std == 0)[0]
# If there is 0 standard deviation, then all values are the 
 
# same. Set them to 0.
if len(zero_std) > 0:
X_num.iloc[:, zero_std] = 0
X_num = X_num.values
# create separate array for new encoded categoricals
X_cat = np.empty((len(X), self._total_cat_cols), 
dtype='int')
i = 0
for col in self._column_dtypes['cat']:
vals = self._cat_cols[col]
for val in vals:
X_cat[:, i] = X[col] == val
i += 1
# concatenate transformed numeric and categorical arrays
data = np.column_stack((X_num, X_cat))
# return either a DataFrame or an array
if self.return_df:
return pd.DataFrame(data=data, 
columns=self._feature_names)
else:
return data
def fit_transform(self, X, y=None):
return self.fit(X).transform(X)
def get_feature_names:
return self._feature_names

使用基礎轉換器

上面構建的基礎轉換器估算器應該可以像任何其他scikit-learn估算器一樣使用。我們可以將其實例化，然後轉換數據。

>>> bt = BasicTransformer(cat_threshold=3, return_df=True)
>>> train_transformed = bt.fit_transform(train)
>>> train_transformed.head(3)

DataFrame中數字列和類別列相交處的列

在pipeline中使用轉換器

上文構建的轉換器可以作為流程的一部分。

>>> basic_pipe = Pipeline([('bt', bt), ('ridge', Ridge())])
>>> basic_pipe.fit(train, y)
>>> basic_pipe.score(train, y)
0.904

用戶也可以使用它進行交叉驗證，獲得與上面的scikit-learn列轉換器流程相似的分數。

我們也可以將其用作網格搜索的一部分。事實證明，將低頻字符串排除在外，並沒有明顯改善模型的表現，儘管它可以在其他模型中使用。不過，在最佳評分方面確實有所提高，這可能是由於使用了略微不同的編碼方案。

>>> param_grid = {
'bt__cat_threshold': [0, 1, 2, 3, 5],
'ridge__alpha': [.1, 1, 10, 100]
}
>>> gs = GridSearchCV(p, param_grid, cv=kf)
>>> gs.fit(train, y)
>>> gs.best_params_
{'bt__cat_threshold': 0, 'ridge__alpha': 10}
>>> gs.best_score_ 
0.830

使用新的KBinsDiscretizer對數字列進行分裝（bin）和編碼

對於包含年份的一些數字列，將其中的值視為類別列更有意義。 Scikit-Learn推出了新的估算器KBinsDiscretizer來實現這一點。它不僅可以存儲值，還可以對這些值進行編碼。在使用Pandas cut或qcut函數手動完成此這類操作之前，一起來看看它如何處理年份數字列的。

>>> from sklearn.preprocessing import KBinsDiscretizer
>>> kbd = KBinsDiscretizer(encode='onehot-dense')
>>> year_built_transformed = kbd.fit_transform(train[['YearBuilt']])
>>> year_built_transformed
array([[0., 0., 0., 0., 1.],
[0., 0., 1., 0., 0.],
[0., 0., 0., 1., 0.],
...,
[1., 0., 0., 0., 0.],
[0., 1., 0., 0., 0.],
[0., 0., 1., 0., 0.]])

在默認設置下，每個bin中都包括相等數量的觀察數據。下面對每列求和來驗證這一點。

這就是“分位數策略”，用戶可以選擇“統一”模式，為bin邊界劃定相等的空間，也可以選擇“k平均”聚類，自定義bin邊界。

使用列轉換器分別處理所有年份列

現在有一個需要單獨處理的列子集，我們可以使用列轉換器來執行此操作。下面的代碼為我們之前的轉換添加了一個步驟。此外還刪除了標識列，只標識出每一行。

>>> year_cols = ['YearBuilt', 'YearRemodAdd', 'GarageYrBlt', 
'YrSold']
>>> not_year = ~np.isin(num_cols, year_cols + ['Id'])
>>> num_cols2 = num_cols[not_year]
>>> year_si_step = ('si', SimpleImputer(strategy='median'))
>>> year_kbd_step = ('kbd', KBinsDiscretizer(n_bins=5, 
encode='onehot-dense'))
>>> year_steps = [year_si_step, year_kbd_step]
>>> year_pipe = Pipeline(year_steps)
>>> transformers = [('cat', cat_pipe, cat_cols),
('num', num_pipe, num_cols2),
('year', year_pipe, year_cols)]
>>> ct = ColumnTransformer(transformers=transformers)
>>> X = ct.fit_transform(train)
>>> X.shape
(1460, 320)

通過交叉驗證和評分，發現所有這些處理都沒有帶來任何改進。

>>> ml_pipe = Pipeline([('transform', ct), ('ridge', Ridge())])
>>> cross_val_score(ml_pipe, train, y, cv=kf).mean
0.813

為每列使用不同數量的bin可能會改善我們的結果。儘管如此，KBinsDiscretizer還可以輕鬆地對數字變量進行分裝。

標題：Scikit-Learn 0.20的更多亮點

本次即將發佈的版本附帶了更多新功能。更多詳細信息，請查看文檔的“新增內容”部分。有很多變化哦。

結論

本文介紹了一個新的工作流程，提供了一個基於Pandas進行初步數據探索和準備的Scikit-Learn用戶方案。現在，改進型的新估算器ColumnTransformer，SimpleImputer，OneHotEncoder和KBinsDiscretizer，讓整個數據處理流程變得更加平滑，功能也更加豐富。用戶可以獲取Pandas DataFrame，並對其進行轉換，為機器學習做好準備。

原文鏈接地址：

https://medium.com/dunder-data/from-pandas-to-scikit-learn-a-new-exciting-workflow-e88e2271ef62

新智元AI WORLD 2018世界人工智能峰會

倒計時

12 天

門票已開售！

新智元將於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智能峰會，邀請機器學習教父、CMU教授 Tom Mitchell，邁克思·泰格馬克，周志華，陶大程，陳怡然等AI領袖一起關注機器智能與人類命運。

大會官網：

http://www.aiworld2018.com/

活動行購票鏈接：
http://www.huodongxing.com/event/6449053775000
活動行購票二維碼：

分享到:

閱讀更多 新智元 的文章

關鍵字: 新智元變形金剛升級

以 AI 對抗 AI：“守護者”楊勇和騰訊安平的進化

154 萬 AI 開發者用數據告訴你，中國 AI 如何才能彎道超車？

讓 AI 訓練 AI：揭祕阿里、浙大的 AI 訓練師助手

BAT 三位醫療 AI 大佬出山，覆盤 AI 戰疫往事

今晚開課丨BAT 三位醫療 AI 大佬出山，覆盤 AI 戰疫往事

ai，ai，ai

AI 大牛沈向洋就職清華演講全錄：人類對 AI 如何做決定一無所知

03.06 AI 大牛沈向洋就職清華演講全錄：人類對 AI 如何做決定一無所知

02.28 塵埃落定！AI 大牛賈佳亞離開騰訊優圖，創立思謀科技，投身差異化 AI 創業

NVIDIA AI 助力初創公司通過 AI 設計和控制建築物

AI 沒能讓人類失業，搞 AI 的人先失業了

飛天 AI 平臺重磅發佈！阿里擁抱 AI 這五年

AI 遇冷？斯坦福年度 AI 報告來揭祕

尋找 AI 落地之王：2019 AI 最佳成長榜正式啟動！

李開復：AI 和互聯網同樣偉大，未來 AI 是工程師必備技能

AI Insight：放棄幻想，搞 AI 必須過數學關

海信全面 AI 電視，AI 體驗全面升級

創新 AI 力量，雲知聲獲智東西 2018 AI 年度生產力創新獎

思必馳發佈低功耗 AI 芯片 AI 交互智能生態佈局初顯規模

思必馳發佈始終在線、低功耗 AI 芯片，AI 交互智能生態佈局初顯規模

“AI+”時代｜以數據為核，AI 正重塑垂直行業

業界｜專訪「AI 教父」吳恩達：AI 將改變所有人類工作，下次寒冬不會到來

他曾說要讓機器人考上清華北大，如今陷入「AI」造假風波

亞馬遜 AI 在簡歷篩選中歧視女性？AI 犯錯不是第一次了

AI、石墨烯、超廣角、超微距……，華爲Mate 20即將來襲

堅守普惠 AI，看華爲雲如何讓 AI 落地！

09.21 快手 AI 技術副總裁鄭文：快手在內容生產&內容理解上用到的 AI 技術

09.18 從“AI+”到“+AI”，AI需發展必須有而非感覺好的產品

商湯科技湯曉鷗：不存在 AI 行業，只有 AI+ 行業｜2018年世界人工智慧大會

做底層 AI 框架和做上層 AI 應用，哪個對自己的學術水平（或綜合能力）促進更大？

AI 晶片、L4 量產車、智能小程序，All in AI 一年後的百度交出了怎樣的成績單？

李彥宏：百度爲 AI 投入年營收的15%，推出首款無人駕駛大巴與全功能 AI 晶片

榮耀10 GT版本正式發布：榮耀10 GT版手機什麼時候發售？

「Ai」資本追著“AI+教育”跑很多人都慌了

VC筆記7：無人駕駛百度和小三的撕，景馳，pony.ai，roadstar.ai

AI 開發者高薪太誘人？請收下這份給國內開發者轉型 AI 指南

菜鳥推平臺級 AI 產品，華為攜手科大訊飛，共同做強 AI 生態

「資訊」震撼！AI 終於來了！AI 要來南寧了！可，誰是AI？

AI 可翻譯嬰兒哭聲；藥房請來人工智慧看病抓藥｜一周 AI 新聞

發佈首款物聯網 AI 芯片雨燕，雲知聲做 AI 芯片的邏輯和優勢是什麼？

波士頓動力機器人會跑了；AI+無人機助力長城修復｜一周 AI 新聞

AI 破解梵蒂岡祕密檔案；智能手錶讓手臂變觸控螢幕｜一周 AI 新聞

技術人創業者夏粉：用 AI 創造 AI

用設備和場景倒推 AI 技術進步，智能手機+IoT 是 AI 的無限生態

百度：不僅All in AI，實際 AI 早已 in All

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

沒有取得房抄產證的房子可以轉讓。但如果確定無法取得房產證的，房產轉讓不受法律保襲護。一般情況下，只有取得房產證的房屋才能確定房屋產權人，才具有轉讓的條件。但如果房屋是合法取得的，以百後可以依法辦理度房:-轉賣房產證商品房拿到:我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

鋒利突厥人你這樣說只能說明你對歷史非常不瞭解，我先用一句話概括突厥被大唐雄兵打的有多慘：三次滅國，背井離鄉，遠赴西亞，打不過，俺躲著你還不行嗎？突厥的意思是中間慫起的頭盔。其來歷已經不可靠，可能有著匈奴、鮮卑或:-復國大唐:為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

小高層 60:小高層16層高樓間距60米哪一層比較好？首先需要明白，選擇層數居住與樓間距毫無關係，住在哪一層，肉眼看對面樓的距離，是相差不大的。設定樓間距60米，純粹是混淆視聽。其實，一幢樓的樓層總數確定的情況下，到底哪一層最佳？很簡單，取總層數乘以黃金:-樓間距層高

金銀花盆栽好養嗎？怎麼養？

金銀花可以盆栽，很好養的！金銀花，是忍冬科的常綠纏繞灌木，枝條柔韌修長，多攀爬或匍匐生長。金銀花生性強健，在我國的很多南方省份野外很多地區都能看到它的身影，葉子常年翠綠，到夏季開花，飄香四溢。所以，有:-金銀花盆栽:金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

長城真的無用嗎？在今天許多人認為長城無用，古代國家舉國之力建造的長城不過只是文物，就連康熙都曾作詩諷刺，原文如下：萬里經營到海涯，紛紛調發逐浮誇。當時用盡生民力，天下何曾屬爾家。-康熙但真的如此嗎？小:-匈奴抵禦長城:長城對於抵禦古代匈奴和蒙古人起到了多大作用？蒙古人

什麼樹可以嫁接臘梅？

臘梅只能嫁接在不同品種的臘梅上，其他的樹種不行！臘梅的繁殖可以用播種，壓條，嫁接，分株等繁殖方法。播種法因不易保持花卉的原有優良特性，且播種的優點是在於大量繁殖，而臘梅大都只需培植少量幾株，故一般都不:-臘梅嫁接:什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

堪憂五一假期:行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？事實上，因為教育培訓都是預收費用的模式。但凡有一點點規模的培訓機構老師。在上半年，帶課量是可以得到保證。:-課時量

在農村“立夏節”都有哪些民間習俗？

民間習俗農村:在農村“立夏節”都有哪些民間習俗？在農村“立夏節”都有哪些民間習俗一、農村立夏常見的習俗風俗活動：1、吃雞蛋“立夏吃蛋”習俗由來已久，俗話說“立夏吃了蛋，夏天不疰夏”。據說立夏開始天氣越來越熱，村裡小孩兒會有身體疲勞四肢無力的感覺，吃:-立夏節

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

失望分手看法:男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？你的這個問題特別的有趣，我覺得你先不要看你要怎麼做才讓他才能讓他對你的印象有所改變，你要去看為什麼是兩個月之後可以在一起，這兩個月他會用來做什麼，為什麼會有這兩個月？例如他的身體碰到了什麼樣的問題嗎？:-答應我

工程分包乙方人員傷殘誰承擔？

承擔:工程分包乙方人員傷殘誰承擔？分包乙方分包致人傷殘責任誰承擔？嚴格來說，需要了解更多傷殘原因才能區分的，作為非專業人士，自己發表一點淺見供題主參考：1、如果甲方是央企的話，他們合同中的責任、義務等條款內已經將自己的責任全部撇開了，更會:-乙方傷殘

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

實際上:有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？歷史人物聯繫這個詞貌似太寬泛了，就好像有一個調皮的答案說的，胡亥和溥儀相隔2000多年，牽強的找，也有聯繫：都是亡國之君不是。我想題主的意思是兩個看起來應該風馬牛不相及的人物，在歷史上居然是熟悉或是一個時代的:-毫不相關

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

法系車不保值，如果準備常開可以入手，性價比高，價格應該在二至三萬之間，二手車一車一況，一況一價，居體價格看車況。:-錢能水泡:13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？世嘉自動擋

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

17年駕駛證二手:22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？建議買日系二手車，開順了賣了，買新車，昂克賽拉無法再次出手時獲得好價格，而且也不省油，開完日系車直接換德系:-昂克賽拉

如何騎車去臺灣騎行？

騎車在臺灣沒有迴歸內地前，最好不要去臺灣，一是國內政策不允許你去臺灣，因為已停止了臺灣個人遊。二是你偷著去臺灣旅遊，安全沒有保障，偷渡客在哪裡也沒有安全保障的。以後內地政策允許個人去臺灣旅遊了，建議那時再:-騎行臺灣:如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

預算:本人預算5萬左右，想買一輛二手法系車！求推薦？ 5萬預算5萬元左右，想買一輛二手法系車？推薦東風標緻老款308車型。1 5萬元可以買標緻308車況好的，沒大事故呢，年限15年左右，公里數3萬左右，手動檔車型。2 標緻308車型，底盤調教紮實，跑高速穩定:-法系二手

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

道奇你好，好高興回答你的問題！14年進口馬自達5和10年月道奇酷威個人感覺馬自達5比較划算。新車價馬5報價29.99萬，酷威19.38萬兩款車都是原裝進口，馬5屬於日系，酷威屬於美系。兩款車不屬於同類車型:-酷威馬自達 14年:14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

特殊津貼高校人才就要重視，河南省高校人才更要重視，這個人才不是評出了的，而是推薦出來的，沒有推薦，連參評的資格都沒有。國務院特殊津貼人員推薦，不推薦是百分百沒希望，推薦了希望就非常，那麼是什麼是國務院特殊津貼:-河南大學並列 2020年:2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

李老貓說車為你非專業解答各種選車用車問題本田crv定位於一款緊湊級suv產品，主要對飈豐田榮放，日產奇駿，這款車整體市場表現非常突出，2019年全年累計銷量為18.44萬臺，平均月銷1.5萬以上，其深:-舒適版本田油耗:本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

1.世界經濟遭到重創疫情影響之下，各行各業基本屬於停工停產的狀態，在世界經濟趨於一體化的今天，停工停產勢必會造成一系列的連鎖反應，最後導致的結果可能會引發金融危機。2.世界格局可能發生改變美國仍是世界:-頭腦風暴控制:國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？疫情國外

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

如果有15萬元的預算，讓你選擇一臺空間和動力都很不錯的小型SUV，我覺得很多的讀者都會想到本田XRV這款車型。因為本田XRV確實太出色了，和同級別的其他盒子SUV車型相比，這款車在空間和動力上都有優勢:-xrv 自動:本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？本田豪華版

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

何去何從:現在存款有14萬，借了5萬還沒收回來，該做什麼好？續租存款利息率較低，可以投資較高收益的項目，比如投資基金，一般情況下可獲得6%一10%的回報。如果行情好可達到50%以上收益，去年不少基金超過這目標。目前受疫情影響，股市在低位震盪，也是基金投資的機會。一:-存款 2300

2070super和5700xt買哪個比較好？

如果是玩遊戲毫無疑問選擇n卡，也就是2070 suep。如果追求性價比可以選擇a卡，也就是5700xt. 為什麼遊戲選n卡呢？首先遊戲廠商針對n卡優化比較多，然後就是功耗小，然後N卡架構執行效率極高，:-:2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

二胎我是兩個孩子的媽媽，曾經的我和你一樣，生完寶寶我也抑鬱了，我知道抑鬱症真的很痛苦，產後的那段日子我整天都不開心，做什麼事也沒積極性，誰也不想搭理，別人給我說話我就覺得很煩。忍不住衝家人發脾氣。每當一個:-生完抑鬱:生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？發火

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

感覺:人這一生遇到的人和事為什麼感覺都像是必然的經歷？正所謂有因必有果，所以你今天的因，就會產生明天的果。所以這一切你就會覺得是必然的。生活中大部分是普通人大家的生活規律，生活方式，大致相同。當你看到別人家庭的果，自己家也產生同樣的果，你就會覺得這一切是:-人和經歷

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

校內:現在校內校外到底教的是美式英語還是英式英語還是混搭英語？校外英式答案肯定是不唯一的！美式英語現在是主流，少量英式發音也個別存在！但對於孩子來說，肯定是混搭英語，因為孩子肯定不是一直一位老師教下去，肯定會換老師！而老師的發音肯定是既有英式的，也有美式的！就連一些英語:-美式英語

上有老下有小，我們真的跳不出這個人生循環了嗎？

上有老魔咒:上有老下有小，我們真的跳不出這個人生循環了嗎？的確如此，儘管現在不結婚，晚婚的人很多，但是從人類繁洐生息的歷史和大多數人來看，成家立業，生兒育女，家庭仍是主流，一個人的生理，心理和生存需求決定了生存狀態，生兒育女，瞻養父母即是義務責任，也是生活動:-下有小

如果外面正在下小雨，你會突然想起了誰？

想起:如果外面正在下小雨，你會突然想起了誰？我最不忘，還是秋日的雨夜，天又涼了幾分，已經需要披上一件薄薄的外套了。臨窗而望，眼見窗臺上的幾株小植物，葉片上沾了幾滴小雨珠，我總喜歡，用小手電去照它們，這樣的小水滴看起來晶瑩晶瑩的，有一種清清涼涼的:-小雨

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

初中同學:初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？吃飯許久未見，意思就是交情不怎麼樣，無功不受祿，人家憑什麼那麼熱情，難道真的是多年一來忘不了咱們之間的同學情誼，倍感想念了嗎，不是請幫忙、做業務、就是借錢，十有八九十借錢。我建議還是不要去的好，大家都很忙:-許久未見

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

出口心理:現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？愛你更多的是心裡問題，可能對方還沒有優秀到你滿意的程度，更沒有到那種離不開的地步！愛情最終還是要回歸生活，而生活離不開兩個人的相處，父母終究會老，孩子終究會飛，所以選擇自己的伴侶尤為重要，你現在覺得噁心更:-喜歡你

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

再見王瀝川好看:劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？《遇見王瀝川》吧，高以翔的王瀝川太招人稀罕了。長相，身材，家世，人品，才能樣樣好，簡直完美，挑不出任何毛病，實在要說一個缺點的話，那就是太tm完美，天妒英才、才讓他飽受病魔折磨。偶像劇、深情帥氣的男主:-何以笙簫默

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

學歷是求職必備條件。有了工作不能停止對知識的探索。更高的學歷，可以讓你有更專業的技術能力和學習能力，可以讓你拓展自己的交際圈，可以讓你更知名。總之，活到老，學到老，學習對人總是有好處的，技多不壓身嘛！:-字節跳動:計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？讀研計算機專業

生完二胎的你們，現在有什麼感想？

二胎家庭日常是什麼樣的？是不是覺得家裡多了一個小人兒，溫馨多了？不存在的！生二胎根本是媽媽們的渡劫磨礪！以前週末睡到自然醒，現在全年無休，時刻警醒著，能睡一次懶覺跟過年似的，黑眼圈不說，頭髮呼啦啦地掉:-生完二胎感想:生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華北適合種植蠶豆，種蠶豆的面積大，在西北，華北，都在種植蠶豆，蠶豆莖稈根部有根瘤菌是種植其它農作物的好茬地，特別是土壤培養和防病蟲害起到作用。:-蠶豆種植適合:華北適合種植蠶豆嗎？華北

華為手機更新EMUI10.1系統後效果咋樣？

大家知道現在智能手機的性能不僅僅跟智能手機的硬件有關，還跟智能手機的系統軟件息息相關，在國產智能手機操作系統裡，小米的MIUI系統跟華為的EMUI系統都是比較優秀的操作系統。最近小米推出了小米MIUI:-咋樣華為華為手機更新:華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

蜜蜂爬到:大熱天蜜蜂老是爬到箱外結群正常嗎？盜蜂現在正是夏季，很多地方蜜源稀少，蜂群中可能缺蜜，也是胡蜂猖獗的時間，所以蜂群中是非常容易發生盜蜂的。在蜂群中發生盜蜂的時候，蜂群守衛蜂會增多，但是這種情況引發的蜜蜂在蜂箱外一般不會結團，只是蜜蜂來:-大熱天

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

最佳期霧都山客來回答您的問題。最近山客家鄉的村民正在進行辣椒移栽，確實有像題主提到的情形，辣椒苗移栽前長勢蔥蔥，嫩綠喜人，但是移栽後幾天內就出現萎蔫現象，細心觀察也不是被病蟲害危害。那究竟是什麼原因導致辣椒:-苗蔫辣椒咋回事:辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

最近這幾年手機在電子產品行業裡可謂是發展速度非常快，蘋果和華為兩大公司可以說也是，明爭暗鬥，產品一次比一次有賣點，前一段時間華為和蘋果還都推出了手機新品，兩家都在大力宣傳強調著拍照功能，像iPhone:-形態相機手機最終:手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

5寸手機支持:華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？很高興回答你的問題，刷頭條刷出來的問題，看到很多人回答，感覺還有一些觀點沒有寫出，所以我來回答一下。首先，華為為什麼不出小尺寸全面屏手機？其實並不只有華為一家沒有出小屏手機，放眼近期各大手機廠商發佈的:-華為

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

胡蘿蔔蔬菜:生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？第一種，黃瓜。這個瓜，可不是菜市場中堆放滿滿的青瓜。各位可要睜大眼睛看清楚了，這個黃瓜，青中帶黃，品種屬以前鄉下農戶少量種植的，形態上面來看這種瓜矮、短、圓，表面覆蓋有比較淡的細毛，經水輕輕沖洗之後整:-山芋

為什麼馬鈴薯不宜過早過遲播種？

不宜:為什麼馬鈴薯不宜過早過遲播種？播種過早為什麼馬鈴薯不宜過早過遲播種？馬鈴薯的種植主要是由於氣候條件的限制，過早出苗後容易遇到低溫被凍死，種植晚了容易遇到乾旱和高溫，影響產量。馬鈴薯種植時間的早晚必須根據種植地方的氣候條件來確定。馬鈴薯生長:-馬鈴薯

疫情愈發嚴重，原油為何反而大漲？

原油愈發:疫情愈發嚴重，原油為何反而大漲？疫情愈發嚴重和原油大漲沒有必然關係。但是資金總是從高處流向低處，原油價格跌的越多，投資價值越明顯，相對於其他產業更有投資價值。舉個例子：深圳南山房價均價大約6萬左右，寶安均價5萬左右，如果南山房價漲到:-疫情

生菜球很好吃，怎麼種植才能高產呢？

種植:生菜球很好吃，怎麼種植才能高產呢？高產對環境條件的要求、1.溫度生菜球為喜冷涼、忌高溫作物，種子在4度以上可發芽、以15～20度為發芽適溫。幼苗能耐較低溫度，日平均溫度12度時生長壯健，葉球生長最適溫度為13～16度。不過目前有些結球生菜:-生菜

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？

看下這個戶型三房改四房，改一個小房間，應該沒有問題。△原戶型圖這個戶型改四房，能改的方案比較多，但是修改以後是否好用，是一件值得考慮的事情。一、主臥室變為兩個臥室可以將主臥室改為兩個臥室，但是這樣的改動佔:-房改 122:裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？ 144

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

房子:大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？這個戶型砸牆，當然可以砸牆，但是在砸牆之前，要搞清楚為什麼要砸牆，砸牆以後有什麼優劣。△原戶型原戶型圖上的白色牆體部分不是承重牆，理論上說否可以砸掉。但是外牆和與旁邊戶型或者是公共區域的共用牆體和圖上:-幫忙

意蜂夏季喝什麼水降溫？

降溫意蜂夏季喝什麼水降溫？氣溫高，蜂巢溫度高的情況下，蜜蜂是通過採水的辦法掛在蜂箱的四壁來蒸發帶走熱量，降低蜂巢溫度同時也能幫助蜂群維持正常的溼度。在平常的情況下，蜜蜂是在室外採自然水的。夏季消耗的水量:-意蜂夏季:意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

黃瓜種子:黃瓜種子催芽後種植需要打底水嗎？你好很高興回答這個問題。答案：不用。1-2天可出芽。黃瓜種子催芽：選用飽滿的種子，用30℃水浸泡4小時後催芽。也可用100倍福爾馬林溶液浸泡種子10-20分鐘，洗淨後清水浸種3-4小時，然後於25-3:-催芽黃瓜打底

書友們展示一下自我感覺發揮較好的作品，一起學習？

自我較好這幅作品是參賽的，色彩的搭配，紙張的拼接都是自己設計完成的，一如既往的清新淡雅感覺。書體用的魏碑中楷書，增加了書寫的趣味性。:-書友展示:書友們展示一下自我感覺發揮較好的作品，一起學習？