教程｜用TensorFlow Estimator实现文本分类

2018-05-17 11:40:41 燈塔大數據

本文探讨了如何使用自定义的 TensorFlow Estimator、嵌入技术及 tf.layers 模块来处理文本分类任务，使用的数据集为 IMDB 评论数据集。通过本文你将学到如何使用 word2vec 词嵌入和迁移学习技术，在有标签数据稀缺时获得更好的模型性能。

本文主要内容如下：

使用 Datasets 装载数据
使用预封装好的评估器（estimator）构建基线
使用词嵌入技术
通过卷积层和 LSTM 层构建定制化的评估器
装载预训练好的词向量
使用 TensorBoard 评估并对比模型

本文选自介绍 TensorFlow 的 Datasets 和 Estimators 模块系列博文的第四部分。读者无需阅读所有之前的内容，如果想重温某些概念，可以查看以下链接：

第一部分重点讨论了预建评估器（https://developers.googleblog.com/2017/09/introducing-tensorflow-datasets.html）
第二部分讨论了特征列（https://developers.googleblog.com/2017/11/introducing-tensorflow-feature-columns.html）
第三部分讲解了如何创建一个自定义的评估器（https://developers.googleblog.com/2017/12/creating-custom-estimators-in-tensorflow.html）。

第四部分的内容将会建立在上述所有章节的基础上，我们将处理一系列不同的自然语言处理（NLP）问题。本文演示了如何使用自定义的 TensorFlow 评估器、嵌入技术及 tf.layers 模块（https://www.tensorflow.org/api_docs/python/tf/layers）来处理文本分类任务。在这篇文章中，我们会学习 word2vec 词嵌入和迁移学习技术，在有标签数据稀缺时获得更好的模型性能。

我们将展示相关的代码片段。这里是完整的 Jupyter Notebook 代码，你可以在本地或者 Google Colaboratory 上运行它。清晰的「.py」源文件可以通过以下链接获得：（https://github.com/eisenjulian/nlp_estimator_tutorial/blob/master/nlp_estimators.py）。

有一点需要注意的是，此代码只是为了演示评估器的功能是如何运行的，并没有为了获得最佳的性能进行进一步优化。

本文的任务

我们将使用的数据集是 IMDB 大规模电影评论数据集（http://ai.stanford.edu/~amaas/data/sentiment/），它包含 25,000 篇高度分化的电影评论作为训练数据，另有 25,000 篇作为测试数据。我们将使用这个数据集去训练一个能够预测一条评论是正面还是负面的二分类模型。

举例来说，这里有一条数据集中的负面评论（得到了 222 个赞）：

现在我喜欢意大利恐怖电影。越俗越好！然而，这并不是俗气的意大利电影。这是放了一周的有腐烂肉丸的意大利面酱汁。这电影从任何层面看都很业余！没有悬念，没有恐惧感，只有几滴血落在周围提醒你：你实际上在看恐怖电影。

Keras 为导入数据集提供了一个方便的处理程序，这个数据集也可以以一个序列化的 numpy 数组「.npz」文件的形式从这里（https://s3.amazonaws.com/text-datasets/imdb.npz）下载获得。文本分类中的标准做法是限制词汇表的规模以防止数据集变得过于稀疏且维度过高，从而防止过拟合。因此，每条评论由一系列单词索引组成，从「4」（在数据集中出现最频繁的单词「the」）一直到「4999」（代表单词「orange」）。索引「1」代表句子的开头，索引「2」被分配给所有未知的（也被称为「词汇表之外的」，即 OOV）单词。这些索引是通过在一个数据管道中进行预处理之后得到的。这个预处理的步骤包括数据清洗、正则化，并且首先对每个句子进行分词，接着根据频率构建一个字典对每个单词进行索引。

在内存中加载数据后，我们用「0」将每个句子填充到固定的长度进行对齐（这里长度为 200）。这样一来，我们就拥有了两个二维的 25,000*200 的数组分别作为训练和测试数组。

vocab_size = 5000 sentence_size = 200 (x_train_variable, y_train), (x_test_variable, y_test) = imdb.load_data(num_words=vocab_size) x_train = sequence.pad_sequences( x_train_variable, maxlen=sentence_size, padding='post', value=0)x_test = sequence.pad_sequences( x_test_variable, maxlen=sentence_size, padding='post', value=0)

输入函数

评估器框架使用输入函数将数据管道和模型本身分离。可以使用一些辅助方法来创建他们，无论你的数据是存储在一个「.csv」文件还是「pandas.DataFrame」中，也无论它是否存储在内存中。在我们的例子中，训练集合和测试集合都适用「Dataset.from_tensor_slices」读取数据。

x_len_train = np.array([min(len(x), sentence_size) for x in x_train_variable]) x\_len\_test = np.array([min(len(x), sentence_size) for x in x_test_variable])def parser(x, length, y): features = {"x": x, "len": length} return features, ydef train_input_fn(): dataset = tf.data.Dataset.from_tensor_slices((x_train, x_len_train, y_train)) dataset = dataset.shuffle(buffer_size=len(x_train_variable)) dataset = dataset.batch(100) dataset = dataset.map(parser) dataset = dataset.repeat() iterator = dataset.make_one_shot_iterator() return iterator.get_next()def eval_input_fn(): dataset = tf.data.Dataset.from_tensor_slices((x_test, x_len_test, y_test)) dataset = dataset.batch(100) dataset = dataset.map(parser) iterator = dataset.make_one_shot_iterator() return iterator.get_next()

我们通过随机化处理将训练数据打乱，并且没有预定义我们想要训练模型的迭代次数，这里我们仅仅需要对测试数据迭代一次就能进行模型的评估。我们也需要一个额外的「len」关键字去获取原始、未填充的序列的长度，我们将会在后面用到它们。

构建基线

通过尝试一些基础的基线来开始机器学习项目是一种很好的做法。这个基线越简单越好，因为有一个简单、鲁棒的基线至关重要，它可以帮助我们理解通过对模型增添额外的复杂性可以获得多大的性能提升。很有可能，一个简单的解决方案就足以满足我们的要求。

考虑到这一点，让我们首先尝试一个最简单的文本分类模型。这将会是一个稀疏的线性模型，它给每个单词赋予一个权重，并且将所有的结果相加，无论单词顺序如何。由于这个模型并不关心句子中单词的顺序，所以我们通常把它称为词袋方法（BOW）。让我们看看如何通过评估器（Estimator）实现这个模型。

我们从定义用做我们分类器输入的特征列开始。正如我们在第二部分中看到的，「categorical_column_with_identity」是对这个文本输入进行预处理的正确选择。如果我们拿到的是原始文本单词，其它的特征列「feature_columns」可以为我们做很多的预处理工作。我们现在可以使用预制好的「LinearClassifier」评估器了。

column = tf.feature_column.categorical_column_with_identity('x', vocab_size) classifier = tf.estimator.LinearClassifier( feature_columns=[column], model_dir=os.path.join(model_dir, 'bow_sparse'))

最终，我们创建了一个简单的函数来训练分类器并且另外创建了一个精确率-召回率曲线。由于我们不打算在这篇博文中取得最优的模型性能，所以我们仅仅对我们的模型训练 25,000 步。

def train_and_evaluate(classifier): classifier.train(input_fn=train_input_fn, steps=25000) eval_results = classifier.evaluate(input_fn=eval_input_fn) predictions = np.array([p['logistic'][0] for p in classifier.predict(input_fn=eval_input_fn)]) tf.reset_default_graph() # Add a PR summary in addition to the summaries that the classifier writes pr = summary_lib.pr_curve('precision_recall', predictions=predictions, labels=y_test.astype(bool), num_thresholds=21) with tf.Session() as sess: writer = tf.summary.FileWriter(os.path.join(classifier.model_dir, 'eval'), sess.graph) writer.add_summary(sess.run(pr), global_step=0) writer.close()train\_and\_evaluate(classifier)

选择一个简单模型的好处之一是，它的可解释性要强的多。一个模型越复杂，他就越难被检验，并且更容易像一个黑箱子一样工作。在这个例子中，我们可以从我们模型的上一个检查点装载权重，并且看看哪些单词相应的权重的绝对值最大。结果看起来就像我们所期望的那样。

# Load the tensor with the model weights weights = classifier.get_variable_value('linear/linear_model/x/weights').flatten() # Find biggest weights in absolute value extremes = np.concatenate((sorted_indexes[-8:], sorted_indexes[:8])) # word_inverted_index is a dictionary that maps from indexes back to tokens extreme_weights = sorted( [(weights[i], word_inverted_index[i - index_offset]) for i in extremes])# Create plot y_pos = np.arange(len(extreme_weights)) plt.bar(y_pos, [pair[0] for pair in extreme_weights], align='center', alpha=0.5) plt.xticks(y_pos, [pair[1] for pair in extreme_weights], rotation=45, ha='right') plt.ylabel('Weight') plt.title('Most significant tokens') plt.show()

正如我们看到的，像「refreshing」这样的拥有最大的正权值的单词显然与正面的语义相关，而拥有很大的负权重的单词不容置疑地会激发负面的情绪。我们可以对模型做一个简单但强而有力的修改去提升模型的能力，那就是根据单词的 tf-idf 值赋予它们权重。

嵌入

增加模型复杂性的下一个步骤是词嵌入。嵌入是稀疏高维数据的密集低维表示。它使得我们的模型能学习到每个单词的更有意义的表示，而不仅仅是一个索引。尽管单一的维度可能没有太大的意义，低维空间（当从一个足够大的语料库中学习时）已经被证实可以捕获诸如时态、复数、性别、关联主题等关系。我们可以通过将我们现有的特征列转换为「embedding_column」来增加词嵌入。模型可见的特征表示是每个单词的词嵌入的平均值（具体对「combiner」的讨论参见本文档：https://www.tensorflow.org/api_docs/python/tf/feature_column/embedding_column）可以将嵌入的特征插入预封装的 DNNClassifier 中。

这里我们要提醒一下那些观察力敏锐的人：一个「embedding_column」仅仅是一个将全连接层应用到稀疏的单词的二值特征向量的一种有效方法，它根据选择的组合器（combiner）乘以一个相应的常数。这样做的一个直接后果是，直接在「LinearClassifier」中使用一个「embedding_column」是没有任何意义的，因为之间没有非线性映射的两个连续的线性层不会给模型增添预测能力，当然，除非词嵌入是预训练好的。

embedding_size = 50 word\_embedding\_column = tf.feature_column.embedding_column( column, dimension=embedding_size)classifier = tf.estimator.DNNClassifier( hidden_units=[100], feature_columns=[word_embedding_column], model_dir=os.path.join(model_dir, 'bow_embeddings'))train\_and\_evaluate(classifier)

我们可以使用 TensorBoard 中的 t-SNE（https://en.wikipedia.org/wiki/T-distributed_stochastic_neighbor_embedding）将我们 50 维的词向量方案可视化为 R^3。我们估计相似的词彼此距离会比较接近。这可以称为一种检验我们的模型权重并且发现意想不到的表现的有效方法。

卷积

在这里，让模型变得更」深」，进一步增添更多的全连接层、并围绕层的规模和训练的函数进行操作，是一种可能的改进方法。然而，通过这样做，我们会增加额外的复杂性，并且忽略句子中的重要结构。实际上，单词并不是存在于真空中的（独立存在），它的意义是由它本身和与其相邻的单词组合而成的。

卷积是一种利用这种结构的方法，这类似于我们如何为图像分类建立显著的像素集合。从直觉上来说，特定的单词序列，或 n-gram，无论在句子中的整体位置如何，通常具有相同的含义。通过卷积操作引入一个结构先验，使我们能够对相邻单词之间的交互建模，从而给我们提供了一个更好的表示这种意义的方法。

下图展示了一个 d×m 维的过滤器矩阵F在每个 3-gram 单词窗口的滑动，去构建一个新的特征映射。此后，池化层通常被用于组合相邻的结果。

教程｜用TensorFlow Estimator实现文本分类

来源： Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks，Severyn 等著，[2015]。

让我们看看整个模型的框架。Dropout 层的使用是一种正则化技术，它使模型更不容易发生过拟合。

教程｜用TensorFlow Estimator实现文本分类

创建一个自定义评估器

正如我们在之前的博文中看到的，「tf.estimator」框架提供了一个训练机器学习模型的高级 API，定义了「train()」，「evaluate()」以及「predict()」操作，能够很方便地处理检查点、加载数据、初始化、服务、构建计算图（graph）和会话（session）。我们有一小部分预制评估器，就像我们之前用到的那些，但是很有可能你需要构建你自己的评估器。

要编写一个自定义的评估器意味着，你需要编写一个「model_fn(features, labels, mode, params)」函数，其返回值为一个 EstimatorSpec。你要做的第一步是将特征映射到我们的嵌入层中：

input_layer = tf.contrib.layers.embed_sequence( features['x'], vocab_size, embedding_size, initializer=params['embedding_initializer'])

接着我们使用「tf.layers」按顺序处理每一个输出。

training = (mode == tf.estimator.ModeKeys.TRAIN) dropout_emb = tf.layers.dropout(inputs=input_layer, rate=0.2, training=training)conv = tf.layers.conv1d( inputs=dropout_emb, filters=32, kernel_size=3, padding="same", activation=tf.nn.relu)pool = tf.reduce_max(input_tensor=conv, axis=1) hidden = tf.layers.dense(inputs=pool, units=250, activation=tf.nn.relu) dropout = tf.layers.dropout(inputs=hidden, rate=0.2, training=training) logits = tf.layers.dense(inputs=dropout_hidden, units=1)

最后我们会使用一个模型头「Head」对象去简化「model_fn」最后一个部分的编写。模型头「head」已经知道如何计算预测值、损失、训练操作（train_op）、度量并且导出这些输出，并且可以跨模型重用。这种方法也被用于预制评估器中，并为我们提供一个能够在所有模型上使用的统一的评估函数。我们将使用「binary_classification_head」，这是一个针对单标签二分类模型的头，它使用「sigmoid_cross_entropy_with_logits」作为底层的损失函数。

head = tf.contrib.estimator.binary_classification_head() optimizer = tf.train.AdamOptimizer() def _train_op_fn(loss): tf.summary.scalar('loss', loss) return optimizer.minimize( loss=loss, global_step=tf.train.get_global_step())return head.create_estimator_spec( features=features, labels=labels, mode=mode, logits=logits, train_op_fn=_train_op_fn)

运行这个模型和之前一样简单：

initializer = tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0)) params = {'embedding_initializer': initializer} cnn_classifier = tf.estimator.Estimator(model_fn=model_fn, model_dir=os.path.join(model_dir, 'cnn'), params=params)train\_and\_evaluate(cnn_classifier)

LSTM 网络

使用「Estimator」API 和相同的模型头，我们可以创建一个使用长短期记忆（LSTM）神经元而不是卷积神经元的分类器。像这样的递归模型是自然语言处理应用最成功的构建模块。一个 LSTM 按顺序处理整个文档，在其内存中存储当前状态的同时也通过它的神经元对序列进行递归操作。

与 CNN 相比，递归模型的缺点之一是：由于递归的性质，模型会会变得越来越深、越来越复杂，通常会导致训练时间加长，收敛性变差。LSTM（和一般的 RNN）可能会遇到像梯度弥散或梯度爆炸这样的收敛问题，也就是说，只要有足够的调优，他们就能够在许多问题取得目前最好的结果。一般说来，CNN 擅长于特征提取，而 RNN 则擅长依赖整个句子语义的任务，比如问答或机器翻译。

每个神经元一次处理一个词嵌入，并且根据依赖于嵌入向量 x_t 和之前的状态 h_t-1 的可微的计算更新它的内部状态。为了更好地理解 LSTM 的工作原理，可以参考 Chris Olah 的博文（https://colah.github.io/posts/2015-08-Understanding-LSTMs/）。

教程｜用TensorFlow Estimator实现文本分类

来源：Understanding LSTM Networks by Chris Olah

完整的 LSTM 模型可以表示成下面的简单流程图：

教程｜用TensorFlow Estimator实现文本分类

在本文的开头，我们将所有的文档都向上填充到了 200 个单词，这对于构建一个合适的张量是十分必要的。然而，当一个文档包含的单词少于 200 个时，我们不希望 LSTM 继续填充单词的处理，因为这样不会增加信息，还会降低性能。因此，我们还希望在填充之前，为我们的网络提供原始序列长度的信息。接下来，在模型的内部，它会将最后一个状态复制到序列的末尾。我们可以通过在我们的输入函数中添加「len」特征做到这一点。我们现在可以遵循上面的逻辑，用我们的 LSTM 神经元替代卷积、池化、平整化层。

lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(100) _, final_states = tf.nn.dynamic_rnn( lstm_cell, inputs, sequence_length=features['len'], dtype=tf.float32)logits = tf.layers.dense(inputs=final_states.h, units=1)

预训练的向量

我们之前展示过的绝大多数模型都依赖于将词嵌入作为第一层。到目前为止，我们已经随机地初始化了这个嵌入层。然而，许多之前的研究表明，在大量未标记的语料库上使用预训练的嵌入作为初始化是很有帮助的，特别是当只对少量标记示例进行训练时。最流行的预训练词嵌入技术是 word2vec。通过预训练的嵌入来利用未标注数据的知识是迁移学习的一个实例。为此，我们将展示如何在评估器「Estimator」中使用他们。我们将使用来自于另一个流行的模型「GloVe」的预训练向量。

embeddings = {} with open('glove.6B.50d.txt', 'r', encoding='utf-8') as f: for line in f: values = line.strip().split() w = values[0] vectors = np.asarray(values[1:], dtype='float32') embeddings[w] = vectors

在将向量从文件加载到内存之后，我们将他们使用和我们的词汇表相同的索引存储为一个 numpy 数组。创建的数组的大小为（5000，50）。在每个行索引中，它包含代表和我们的词汇表中索引相同的单词的 50 维向量，

embedding_matrix = np.random.uniform(-1, 1, size=(vocab_size, embedding_size)) for w, i in word_index.items(): v = embeddings.get(w) if v is not None and i < vocab_size: embedding_matrix[i] = v

最后，我们可以使用一个自定义的初始化函数，并且将结果传给「params」对象，再将这个对象不作任何修改直接用于我们的「cnn_model_fn」。

def my_initializer(shape=None, dtype=tf.float32, partition_info=None): assert dtype is tf.float32 return embedding_matrixparams = {'embedding_initializer': my_initializer} cnn\_pretrained\_classifier = tf.estimator.Estimator( model_fn=cnn_model_fn, model_dir=os.path.join(model_dir, 'cnn_pretrained'), params=params)train\_and\_evaluate(cnn_pretrained_classifier)

运行 TensorBorad

现在，我们可以启动 TensorBoard，将我们训练出来的模型进行比较，观察它们在训练时间和性能方面都有何差异。在终端上运行：

tensorboard --logdir={model_dir}

我们可以在训练和测试中可视化许多收集到的度量结果，包括每个模型在每一个训练步骤上的损失函数值，以及精确度-召回率曲线。这当然是为我们的用例选择最佳模型的最实用的方法，也是选择分类阈值的最佳方法。

教程｜用TensorFlow Estimator实现文本分类

得到预测结果

为了得到在新的句子上的预测结果，我们可以使用「Estimator」实例中的「predict」方法，它能为每个模型加载最新的检查点并且对不可见的示例进行评估。但是在将数据传给模型之前，我们必须进行清理、分词并且将每个单词映射到相应的索引上。具体代码如下：

def text_to_index(sentence): # Remove punctuation characters except for the apostrophe translator = str.maketrans('', '', string.punctuation.replace("'", '')) tokens = sentence.translate(translator).lower().split() return np.array([1] + [word_index[t] + index_offset if t in word_index else 2 for t in tokens])def print_predictions(sentences, classifier): indexes = [text_to_index(sentence) for sentence in sentences] x = sequence.pad_sequences(indexes, maxlen=sentence_size, padding='post', value=-1) length = np.array([min(len(x), sentence_size) for x in indexes]) predict_input_fn = tf.estimator.inputs.numpy_input_fn(x={"x": x, "len": length}, shuffle=False) predictions = [p['logistic'][0] for p in classifier.predict(input_fn=predict_input_fn)] print(predictions)

值得注意的是，检查点本身并不足以作出预测，为了将存储的权重映射到相应的张量（tensor）上，用于构建评估器的实际代码也是必需的。将保存的检查点和创建他们的代码分支关联起来是一种很好的做法。如果有兴趣将模型以一种完全可恢复的方式导出，可以查看「SaveModel」类，这对于通过使用 TensorFlow Serving 提供的 API 构建模型十分有用。

总结

在这篇博文中，我们探索了如何使用评估器（estimator）进行文本分类，特别是针对 IMDB 评论数据集。我们训练并且可视化了我们的词嵌入模型，也加载了预训练的嵌入模型。我们从一个简单的基线开始，成功构建了我们的卷积神经网络和长短期记忆神经网络。

更多细节请查看：

能在本地或 Colaboratory 上运行的 Jupyter notebook（https://github.com/eisenjulian/nlp_estimator_tutorial/blob/master/nlp_estimators.ipynb）
本文使用的完整源代码（https://github.com/eisenjulian/nlp_estimator_tutorial/blob/master/nlp_estimators.py）
TensorFlow 嵌入技术指南（https://www.tensorflow.org/programmers_guide/embedding）
TensorFlow 词向量表示教程（https://www.tensorflow.org/tutorials/word2vec）
NLTK 的原始文本处理（http://www.nltk.org/book/ch03.html）章节，讲述如何设计语言数据管道

原文链接：https://mp.weixin.qq.com/s/dyIL3-7yKLkcgCJx7r6Jfw

分享到:

閱讀更多 燈塔大數據 的文章

關鍵字: Word NLTK Google

TensorFlow 2.0简介

TensorFlow 2.0姿态估计快速入门

【GitHub热门推荐】TensorFlow Agents：Agents强化学习库

Faster-RCNN+TensorFlow 详细训练过程（附github源码）

[tensorflow]如何处理样本不均衡？

Tensorflow 学习笔记（一）TensorFlow入门

「tensorflow」浅谈什么是张量tensor

03.06 「tensorflow」浅谈什么是张量tensor

MacOSX 安装 TensorFlow

01.21 MacOSX 安装 TensorFlow

TensorFlow2学习二、TensorFlow Keras 构建简单网络

使用 TensorFlow 来实现一个简单的验证码识别过程

Tensorflow 2.0 信号处理

在浏览器中进行深度学习：TensorFlow.js (九）训练词向量

在浏览器中进行深度学习：TensorFlow.js (八）生成对抗网络

基于 TensorFlow.js 的迁移学习图像分类器

在浏览器中进行深度学习：TensorFlow.js (五）构建一个神经网络

在浏览器中进行深度学习：TensorFlow.js (二）线性回归

基于tesorflow Estimator Dataset API处理Input pipeline

TensorFlow v2.0实现逻辑斯谛回归

10.23 TensorFlow v2.0的基本张量操作

使用 TensorFlow 识别简单图像验证码

TensorFlow——实现简单的线性回归

人工智能 TensorFlow 必知必会编程概念整理

机器学习中的DCGAN-Tensorflow：用于更稳定的训练

谷歌开源机器学习数据集，可在 TensorFlow 直接调用

Effective TensorFlow Chapter7——理解执行顺序和控制依赖

02.04 TensorFlow Probability 概率编程入门级实操教程

要替代 TensorFlow？谷歌开源机器学习库 JAX

TensorFlow 官方简化版！谷歌开源机器学习库 JAX

TensorFlow 官方简化版，谷歌开源机器学习库 JAX

「译」Effective TensorFlow Chapter1——TensorFlow 基础

Swift for Tensorflow

基于tf的pose-estimation

TensorFlow Lite极简入门：构建移动应用程序进行图像分类

令人困惑的 TensorFlow！(II)

使用 tf.Transform 对 TensorFlow 管道模式进行预处理

模拟估算器:scikit-learn Estimator

tensorflow：多层LSTM代码分析

TensorFlow——多层 LSTM 通俗易懂版

TensorFlow进阶教程（二）:TensorFlow.js 入门指南

从零开始搭建深度学习服务器：TensorFlow + PyTorch + Torch

Tensorflow Graph概述

TensorFlow-实践方法

06.18 Windows10下Keras,Tensorflow,CNTK ,MXNet和PyTorch的GPU

Ubuntu 上安装 TensorFlow

05.16 「关键点」TensorFlow 可以这样区分类与操作？「附例子」

05.08 通过 TensorFlow 构建您的第一个深度学习分类器（以狗为例）！

人工智能开发（一）环境搭建-基于ubuntu16 Python3 tensorflow

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"

教程｜用TensorFlow Estimator实现文本分类

相關文章:

TensorFlow 2.0简介

TensorFlow 2.0姿态估计快速入门

【GitHub热门推荐】TensorFlow Agents：Agents强化学习库

Faster-RCNN+TensorFlow 详细训练过程（附github源码）

[tensorflow]如何处理样本不均衡？

Tensorflow 学习笔记（一）TensorFlow入门

「tensorflow」浅谈什么是张量tensor

03.06 「tensorflow」浅谈什么是张量tensor

MacOSX 安装 TensorFlow

01.21 MacOSX 安装 TensorFlow

TensorFlow2学习二、TensorFlow Keras 构建简单网络

使用 TensorFlow 来实现一个简单的验证码识别过程

Tensorflow 2.0 信号处理

在浏览器中进行深度学习：TensorFlow.js (九）训练词向量

在浏览器中进行深度学习：TensorFlow.js (八）生成对抗网络

基于 TensorFlow.js 的迁移学习图像分类器

在浏览器中进行深度学习：TensorFlow.js (五）构建一个神经网络

在浏览器中进行深度学习：TensorFlow.js (二）线性回归

基于tesorflow Estimator Dataset API处理Input pipeline

TensorFlow v2.0实现逻辑斯谛回归

10.23 TensorFlow v2.0的基本张量操作

使用 TensorFlow 识别简单图像验证码

TensorFlow——实现简单的线性回归

人工智能 TensorFlow 必知必会编程概念整理

机器学习中的DCGAN-Tensorflow：用于更稳定的训练

谷歌开源机器学习数据集，可在 TensorFlow 直接调用

Effective TensorFlow Chapter7——理解执行顺序和控制依赖

02.04 TensorFlow Probability 概率编程入门级实操教程

要替代 TensorFlow？谷歌开源机器学习库 JAX

TensorFlow 官方简化版！谷歌开源机器学习库 JAX

TensorFlow 官方简化版，谷歌开源机器学习库 JAX

「译」Effective TensorFlow Chapter1——TensorFlow 基础

Swift for Tensorflow

基于tf的pose-estimation

TensorFlow Lite极简入门：构建移动应用程序进行图像分类

令人困惑的 TensorFlow！(II)

使用 tf.Transform 对 TensorFlow 管道模式进行预处理

模拟估算器:scikit-learn Estimator

tensorflow：多层LSTM代码分析

TensorFlow——多层 LSTM 通俗易懂版

TensorFlow进阶教程（二）:TensorFlow.js 入门指南

从零开始搭建深度学习服务器：TensorFlow + PyTorch + Torch

Tensorflow Graph概述

TensorFlow-实践方法

06.18 Windows10下Keras,Tensorflow,CNTK ,MXNet和PyTorch的GPU

Ubuntu 上安装 TensorFlow

05.16 「关键点」TensorFlow 可以这样区分类与操作？「附例子」

05.08 通过 TensorFlow 构建您的第一个深度学习分类器（以狗为例）！

人工智能开发（一）环境搭建-基于ubuntu16 Python3 tensorflow

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪