理解 Java I

2020-04-03 11:14:12 黑帽子技術

说明

在讨论 Java I/O 之前要先讨论以下内容：

缓冲区操作
内核空间用户空间
虚拟内存
文件 I/O , 流 I/O
UNIX I/O 模型

理解了以上内容会对 I/O 有比较清晰的认识。

缓冲区操作

缓冲区是所有类型 I/O 的基础， I/O 就是把数据从缓冲区中移进或者移出。

I/O 过程是将数据在用户空间进程缓冲区和内核缓冲区之间进行移动，数据的来源是外部的 I/O 设备。当进程请求 I/O 操作时，会执行一个系统调用，将控制权移交给系统内核。比如 C/C++ 语言的底层函数 open() , read() , write() , close() , 要做的就是执行系统调用。当内核被调用时，它要找到进程所需的数据，并把数据传送到用户空间内指定的缓冲区。内核试图对数据进行高速缓存或者预读取，因此进程所需要的数据可能已经在内核空间中了，此时只需要把这些数据拷贝到用户空间中即可。如果数据不在内核空间中，那么内核空间要去读取数据，用户空间进程被挂起。

数据从内核空间到用户空间需要进行一次内存拷贝，无法直接将数据从I/O设备传送到用户空间。因为，硬件设备通常不能直接访问用户空间；像磁盘这种基于块存储的硬件设备操作的是固定大小的数据块，而用户进程请求的可能是任意大小的或非对齐的数据块。内核负责了对从I/O设备获取的数据进行处理。

内核空间、用户空间

用户空间是常规进程所在区域，内核空间是操作系统以及一些驱动所在区域。应用程序在用户模式下运行，操作系统在内核模式下运行。

每个用户模式进程都有各自专用的虚拟地址空间，在内核模式运行下的所有代码都称为“系统空间”的单个虚拟地址空间。用户模式进程的虚拟地址空间称为“用户空间”。用户模式下运行的代码可以访问用户空间，但是不能访问系统空间。内核模式下运行的代码可以访问系统空间和用户空间。

虚拟内存

从用户空间到内核空间 I/O 过程中会存在一次内存拷贝操作，利用虚拟内存技术可以避免这一次内存拷贝。

虚拟内存维基百科：虚拟内存是计算机系统内存管理的一种技术。它使得应用程序认为它拥有连续可用的内存（一个连续完整的地址空间），而实际上，它通常是被分隔成多个物理内存碎片，还有部分暂时存储在外部磁盘存储器上，在需要时进行数据交换。与没有使用虚拟内存技术的操作系统相比，使用这种技术的操作系统使得大型程序的编写变得更容易，对物理内存的使用也更有效率。

注意：虚拟内存不只是“用磁盘空间来扩展物理内存”的意思，这只是扩充内存级别已使其包含硬盘驱动器而已。把内存扩展到磁盘只是使用虚拟内存技术的一个结果，它的作用也可以通过覆盖或者把处于不活跃状态的程序以及他们的数据全部交换到磁盘上的方式来实现。对虚拟内存的定义是基于对地址空间的重定义的，即把地址空间定义为“连续的虚拟内存地址”，以借此“欺骗”程序，使他们以为自己正在使用一大块“连续”地址。

目前我大概的理解是，内核空间虚拟和用户空间虚拟映射的相同的物理内存区域，因为每一个进程的用户空间是独立的，内核空间可以操作任意用户空间。内核把数据存入这片内存区域后对用户进程来说也是可见的，这样就避免了内存拷贝。（不过我觉得这种理解应该是存在问题的，虚拟内存技术也不是一两句话能说清楚的，还需要以后学习研究）。

文件 I/O 、流 I/O

I/O 从广义上分为两大类，文件 I/O , 流 I/O 。文件 I/O 属于文件系统的范畴，文件系统与磁盘是迥然不同。磁盘只是数据存储的地方，磁盘是硬件设备并不理解文件的概念。文件系统是更高层次的抽象，是安排、解释磁盘数据的一种独特方式。文件系统定义了文件名、路径、文件属性等抽象概念。流 I/O 原理模仿了通道，I/O 字节流必须顺序存取，例如：控制台设备，打印机端口，网络连接。网络通信过程就是 Stream I/O ，主要学习研究这方面。

UNIX I/O 模型

阻塞 I/O （bloking I/O）
非阻塞 I/O（non-blocking I/O）
多路复用 I/O （multiplexing I/O）
信号驱动 I/O （signal-driven I/O）
异步 I/O （asynchronous I/O）

阻塞 I/O 模型

第①步应用程序触发操作系统读取数据；

第②步控制器移交给内核，如果有数据可读就进行读取，没有数据可读就等待；

第③步读取到数据，将数据从内核空间缓冲区拷贝到用户空间缓冲区；

第④步数据拷贝完成内核通知应用程序读取数据成功；

在这4步完成之前，应用程序进程将一直处于阻塞状态。

非阻塞 I/O 模型

非阻塞模式做的改进是，在第④步没有完成之前，轮询的执行第 ① 步，此时引用程序进程不会阻塞，在没有收到成功指示的时候，进程可以去做别的事情，当收到成功指示后再去处理读取到的数据即可，不需要一直阻塞等待。

多路复用 I/O 模型

多路复用 I/O 就是经常说的 select ， poll ， epoll 有写地方也称这种 I/O 方式为 event driven I/O 。多路复用 I/O 的好处就是一个进程可以处理多个网络连接 I/O，它的工作原理就是 select/poll/epoll 函数会不断的查询所监测的 socket 文件描述符中是否有 socket 准备好读写了，如果有，那么系统就会通知用户进程。

select 不会像阻塞I/O 那样长时间阻塞直到有数据可读， select 遍历所有的 socket 返回其中处于可读状态的。然后应用程序进程就可以对这些 socket 进行 I/O 操作，由于这些 socket 中已经有数据了，所以此时只需要进行内存拷贝，将数据从内核空间拷贝到用户空间中就完成了 I/O 操作。select 最大的缺陷是单个进程所打开的 socket 描述符是有一定限制的，它由 FD_SETSIZE 设置，默认是 1024 。对于需要成千上万个 TCP 连接的大型服务器来说太少了。epoll 并没有这个限制，它所支持的 FD 上限是操作系统的最大文件句柄数，例如在内存 1G 的机器上大约是 10万个句柄。select/poll 的另一个致命缺点，当拥有一个很大的 socket 集合时，由于网络延时或者链路空闲，任意时刻只有少部分的 socket 是“活跃”的，但是 select/poll 每次调用都会线性的扫描全部 socket 集合，导致了效率呈线性下降。epoll 不会存在这个问题，它只会对 “活跃” 的 socket 进行操作。

阻塞模式，和非阻塞模式一次都只能处理一个 I/O 操作。多路复用模型可以一次处理多个 I/O 操作。event driven 的思想体现在，可以选择处于不同状态的 socket ，比如 accept , connect , read , write , 更具不同的状态进行相应的处理。

信号驱动 I/O

Signal Driven I/O 的工作原理就是用户进程首先和 kernel 之间建立信号的通知机制，即用户进程告诉 kernel，如果 kernel 中数据准备好了，就通过 SIGIO 信号通知我。然后用户空间的进程就会调用 read 系统调用将准备好的数据从 kernel 拷贝到用户空间。

但是这种 I/O 模型存在一个非常重大的缺陷问题：SIGIO 这种信号对于每个进程来说只有一个！如果使该信号对进程中的两个描述符（这两个文件描述符都等待着 I/O 操作）都起作用，那么进程在接到此信号后就无法判别是哪一个文件描述符准备好了。所以

Signal Driven I/O 模型在现实中用的非常少。

异步 I/O

阻塞式 I/O Java 服务端通信模型

Java 是运行在 JVM 之上， JVM 运行在操作系统之上，JVM 是一个用户进程。 Java 应用程序并非是真的受着 I/O 的束缚。操作系统并非不能快速的传递数据。是因为 JVM 在 I/O 方面效率欠佳。操作系统与 Java 基于流的 I/O 模型有写不匹配。操作系统要移动的是大块的数据（缓冲区），而 JVM 的 I/O 类喜欢操作一小块数据 — 单一字节、几行文本。结果操作系统送来整块缓冲区的数据，Java I/O 流数据类再花大量时间把他们拆成小块，往往拷贝一小块就要往返几层对象。 JDK 在 1.4 之前是只支持阻塞式 I/O 的，Java 的网络编程也只能是基于阻塞式 I/O 的模式工作，为了避开 I/O 时线程阻塞的问题，只能采用多线程处理连接请求。

每当有一个客户端连接，服务端都要分配一个新的线程来处理这个客户端请求，随着客户端的增多服务端线程也线性增长，内存开销增大，CPU 上下文切换性能开销大。线程是 JVM 非常宝贵的系统资源，当线程数非常多以后，系统性能急剧下降。这种模式在高并发，大访问量的场景下举步维艰。

分享到:

閱讀更多 黑帽子技術 的文章

關鍵字: 理解 C语言说明

ArrayList哪种循环效率更好你真的清楚吗

JAVA List 集合深复制与潜复制

Java 源码分析-Byte类分析

java 动态调用类的方法

Java 实现线程的方式有几种方式？带有返回值的线程怎么实现？

Java—发送GET、POST请求工具

JAVA 转换树结构数据

java static关键字深入理解

Java HashMap源码学习

Java 循环队列原理与用法详解

Java-字符串

Java 程序中不使用第三个变量交换两个字符串

Java 随机生成中文名字

Java 内部类详解

03.08 Java 遍历List 集合的四种方法

Java HashMap遍历的四种方式

03.08 Java HashMap遍历的四种方式

Java 如何优雅的统计代码块耗时

Java：Serializable反序列化过程

03.02 Java HashMap 常用方法详解

Java 动态代理的简单使用和理解

一遍记住 Java 常用的八种排序算法与代码实现

01.30 Java Serializable：明明就一个空的接口嘛

java 线程池的原理及使用

多个角度全方位带你看透 Java 线程池（附学习参考思路）

「Java基础」Java 反射的几种方式

09.27 java 获取当前时间的三种方法

JAVA:什么情况下需要判空对象？

java 远程接口调用RIC 矩阵计算实现

Java 集合系列： Map架构，看完才知道逻辑思维的重要性

java 一步一步教你手写ReentrantLock(二）

Java 基础之详解 Java IO

Java 字段反射

Java NIO：NIO概述

Java 并发小结

Java NIO Buffer 分散和归集

Java NIO Buffer 实践与概念

java transient 关键字

java File类

Java NIO Demo

Java Web之HttpClient请求连接池连接池

08.16 Java 并发编程必看，为你解读 Java 读写锁实现原理

Java 内功修炼第一讲之谈谈对 Java 平台的理解

Java 学习——Java 多线程三大核心点

05.31 Java高级编程——Java IO的flush

02.03 java getDeclaredXXX和getXXX方法，你是如何用，如何选择的？

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"