深入分析 Java IO (一)概述

一、简介

说到 I/O,想必大家都不会陌生, I/O 英语全称:Input/Output,即 输入/输出,通常 指数据在内部存储器和外部存储器或其他周边设备之间的输入和输出。
比如我们常用的 SD卡、U盘、移动硬盘等等存储文件的硬件设备,当我们将其插入电脑的 usb 硬件接口时,我们就可以从电脑中读取设备中的信息或者写入信息,这个过程就涉及到 I/O 的操作。
当然,涉及 I/O 的操作,不仅仅局限于硬件设备的读写,还要网络数据的传输,比如,我们在电脑上用浏览器搜索互联网上的信息,这个过程也涉及到 I/O 的操作。
深入分析 Java IO (一)概述
文章图片

无论是从磁盘中读写文件,还是在网络中传输数据,可以说 I/O 主要为处理人机交互、机与机交互中获取和交换信息提供的一套解决方案。
在 Java 的 IO 体系中,类将近有 80 个,位于java.io包下,感觉很复杂,但是这些类大致可以分成四组:
  • 基于字节操作的 I/O 接口:InputStream 和 OutputStream
  • 基于字符操作的 I/O 接口:Writer 和 Reader
  • 基于磁盘操作的 I/O 接口:File
  • 基于网络操作的 I/O 接口:Socket
前两组主要从传输数据的数据格式不同,进行分组;后两组主要从传输数据的方式不同,进行分组。
虽然 Socket 类并不在 java.io包下,但是我们仍然把它们划分在一起,因为 I/O 的核心问题,要么是数据格式影响 I/O 操作,要么是传输方式影响 I/O 操作,也就是将什么样的数据写到什么地方的问题,I/O 只是人与机器或者机器与机器交互的手段,除了在它们能够完成这个交互功能外,我们关注的就是如何提高它的运行效率了,而数据格式和传输方式是影响效率最关键的因素。
本文后面,也是基于这两个点进行深入展开分析。
二、基于字节操作的接口 基于字节的输入和输出操作接口分别是:InputStream 和 OutputStream 。
2.1、字节输入流
InputStream 输入流的类继承层次如下图所示:
深入分析 Java IO (一)概述
文章图片

输入流根据数据节点类型和处理方式,分别可以划分出了若干个子类,如下图:
深入分析 Java IO (一)概述
文章图片

OutputStream 输出流的类层次结构也是类似。
2.2、字节输出流
OutputStream 输出流的类继承层次如下图所示:
深入分析 Java IO (一)概述
文章图片

输出流根据数据节点类型和处理方式,也分别可以划分出了若干个子类,如下图:
深入分析 Java IO (一)概述
文章图片

在这里就不详细的介绍各个子类的使用方法,有兴趣的朋友可以查看 JDK 的 API 说明文档,笔者也会在后期的文章会进行详细的介绍,这里只是重点想说一下,无论是输入还是输出,操作数据的方式可以组合使用,各个处理流的类并不是只操作固定的节点流,比如如下输出方式:
//将文件输出流包装到序列化输出流中,再将序列化输出流包装到缓冲中 OutputStream out = new BufferedOutputStream(new ObjectOutputStream(new FileOutputStream(new File("fileName")));

另外,输出流最终写到什么地方必须要指定,要么是写到硬盘中,要么是写到网络中,从图中可以发现,写网络实际上也是写文件,只不过写到网络中,需要经过底层操作系统将数据发送到其他的计算机中,而不是写入到本地硬盘中。
三、基于字符操作的接口 不管是磁盘还是网络传输,最小的存储单元都是字节,而不是字符,所以 I/O 操作的都是字节而不是字符,但是为什么要有操作字符的 I/O 接口呢?
这是因为我们的程序中通常操作的数据都是以字符形式,为了程序操作更方便而提供一个直接写字符的 I/O 接口,仅此而已。
基于字符的输入和输出操作接口分别是:Reader 和 Writer ,下图是字符的 I/O 操作接口涉及到的类结构图。
3.1、字符输入流
Reader 输入流的类继承层次如下图所示:
深入分析 Java IO (一)概述
文章图片

同样的,输入流根据数据节点类型和处理方式,分别可以划分出了若干个子类,如下图:
深入分析 Java IO (一)概述
文章图片

3.2、字符输出流
Writer 输出流的类继承层次如下图所示:
深入分析 Java IO (一)概述
文章图片

同样的,输出流根据数据节点类型和处理方式分类,分别可以划分出了若干个子类,如下图:
深入分析 Java IO (一)概述
文章图片

不管是 Reader 还是 Writer 类,它们都只定义了读取或写入数据字符的方式,也就是说要么是读要么是写,但是并没有规定数据要写到哪去,写到哪去就是我们后面要讨论的基于磁盘或网络的工作机制。
四、字节与字符的转化 刚刚我们说到,不管是磁盘还是网络传输,最小的存储单元都是字节,而不是字符,设计字符的原因是为了程序操作更方便,那么怎么将字符转化成字节或者将字节转化成字符呢?
InputStreamReader 和 OutputStreamWriter 就是转化桥梁。
4.1、输入流转化过程
输入流字符解码相关类结构的转化过程如下图所示:
深入分析 Java IO (一)概述
文章图片

从图上可以看到,InputStreamReader 类是字节到字符的转化桥梁, 其中StreamDecoder指的是一个解码操作类,Charset指的是字符集。
InputStream 到 Reader 的过程需要指定编码字符集,否则将采用操作系统默认字符集,很可能会出现乱码问题,StreamDecoder 则是完成字节到字符的解码的实现类。
打开源码部分,InputStream 到 Reader 转化过程
public class InputStreamReader extends Reader {private final StreamDecoder sd; /** * Creates an InputStreamReader that uses the default charset. * * @paraminAn InputStream */ public InputStreamReader(InputStream in) { super(in); try { sd = StreamDecoder.forInputStreamReader(in, this, (String)null); // ## check lock object } catch (UnsupportedEncodingException e) { // The default encoding should always be available throw new Error(e); } }

4.2、输出流转化过程
输出流转化过程也是类似,如下图所示:
深入分析 Java IO (一)概述
文章图片

通过 OutputStreamWriter 类完成字符到字节的编码过程,由 StreamEncoder 完成编码过程。
源码部分,Writer 到 OutputStream 转化过程:
public class OutputStreamWriter extends Writer {private final StreamEncoder se; public OutputStreamWriter(OutputStream out) { super(out); try { se = StreamEncoder.forOutputStreamWriter(out, this, (String)null); } catch (UnsupportedEncodingException e) { throw new Error(e); } }

五、基于磁盘操作的接口 前面介绍了Java I/O 的操作接口,这些接口主要定义了如何操作数据,以及介绍了操作数据格式的方式:字节流和字符流。
还有一个关键问题就是数据写到何处,其中一个主要的处理方式就是将数据持久化到物理磁盘。
我们知道数据在磁盘的唯一最小描述就是文件,也就是说上层应用程序只能通过文件来操作磁盘上的数据,文件也是操作系统和磁盘驱动器交互的一个最小单元。
深入分析 Java IO (一)概述
文章图片

在 Java I/O 体系中,File 类是唯一代表磁盘文件本身的对象。
File 类定义了一些与平台无关的方法来操作文件,包括检查一个文件是否存在、创建、删除文件、重命名文件、判断文件的读写权限是否存在、设置和查询文件的最近修改时间等等操作。
值得注意的是 Java 中通常的 File 并不代表一个真实存在的文件对象,当你通过指定一个路径描述符时,它就会返回一个代表这个路径相关联的一个虚拟对象,这个可能是一个真实存在的文件或者是一个包含多个文件的目录。
例如,读取一个文件内容,程序如下:
public static void main(String[] args) throws IOException { StringBuffer sb = new StringBuffer(); char[] chars = new char[1024]; FileReader f = new FileReader("fileName"); while (f.read()>0){ sb.append(chars); } sb.toString(); }

以上面的程序为例,从硬盘中读取一段文本字符,操作流程如下图:
深入分析 Java IO (一)概述
文章图片

我们再来看看源码执行流程。
当我们传入一个指定的文件名来创建 File 对象,通过 FileReader 来读取文件内容时,会自动创建一个FileInputStream对象来读取文件内容,也就是我们上文中所说的字节流来读取文件。
public class FileReader extends InputStreamReader {/** * Creates a new FileReader, given the name of the * file to read from. * * @param fileName the name of the file to read from * @exceptionFileNotFoundExceptionif the named file does not exist, *is a directory rather than a regular file, *or for some other reason cannot be opened for *reading. */ public FileReader(String fileName) throws FileNotFoundException { super(new FileInputStream(fileName)); }

紧接着,会创建一个FileDescriptor的对象,其实这个对象就是真正代表一个存在的文件对象的描述。可以通过FileInputStream对象调用getFD() 方法获取真正与底层操作系统关联的文件描述。
public class FileInputStream extends InputStream { /* 文件描述*/ private final FileDescriptor fd; /* 文件路径 */ private final String path; public FileInputStream(File file) throws FileNotFoundException { String name = (file != null ? file.getPath() : null); SecurityManager security = System.getSecurityManager(); if (security != null) { security.checkRead(name); } if (name == null) { throw new NullPointerException(); } if (file.isInvalid()) { throw new FileNotFoundException("Invalid file path"); } fd = new FileDescriptor(); fd.attach(this); path = name; open(name); }

由于我们需要读取的是字符格式,所以需要 StreamDecoder 类将byte解码为char格式,至于如何从磁盘驱动器上读取一段数据,由操作系统帮我们完成。
六、基于网络操作的接口 继续来说说数据写到何处的另一种处理方式:将数据写入互联网中以供其他电脑能访问。
6.1、Socket简介
在现实中,Socket 这个概念没有一个具体的实体,它是描述计算机之间完成相互通信一种抽象定义。
打个比方,可以把 Socket 比作为两个城市之间的交通工具,有了它,就可以在城市之间来回穿梭了。并且,交通工具有多种,每种交通工具也有相应的交通规则。Socket 也一样,也有多种。大部分情况下我们使用的都是基于 TCP/IP 的流套接字,它是一种稳定的通信协议。
典型的基于 Socket 通信的应用程序场景,如下图:
深入分析 Java IO (一)概述
文章图片

主机 A 的应用程序要想和主机 B 的应用程序通信,必须通过 Socket 建立连接,而建立 Socket 连接必须需要底层 TCP/IP 协议来建立 TCP 连接。
6.2、建立通信链路
我们知道网络层使用的 IP 协议可以帮助我们根据 IP 地址来找到目标主机,但是一台主机上可能运行着多个应用程序,如何才能与指定的应用程序通信就要通过 TCP 或 UPD 的地址也就是端口号来指定。这样就可以通过一个 Socket 实例代表唯一一个主机上的一个应用程序的通信链路了。
为了准确无误地把数据送达目标处,TCP 协议采用了三次握手策略,如下图:
【深入分析 Java IO (一)概述】深入分析 Java IO (一)概述
文章图片

其中,SYN 全称为 Synchronize Sequence Numbers,表示同步序列编号,是 TCP/IP 建立连接时使用的握手信号。
ACK 全称为 Acknowledge character,即确认字符,表示发来的数据已确认接收无误。
在客户机和服务器之间建立正常的 TCP 网络连接时,客户机首先发出一个 SYN 消息,服务器使用 SYN + ACK 应答表示接收到了这个消息,最后客户机再以 ACK 消息响应。
这样在客户机和服务器之间才能建立起可靠的 TCP 连接,数据才可以在客户机和服务器之间传递。
简单流程如下:
  • 发送端 –(发送带有 SYN 标志的数据包 )–> 接受端(第一次握手);
  • 接受端 –(发送带有 SYN + ACK 标志的数据包)–> 发送端(第二次握手);
  • 发送端 –(发送带有 ACK 标志的数据包) –> 接受端(第三次握手);
完成三次握手之后,客户端应用程序与服务器应用程序就可以开始传送数据了。
传输数据是我们建立连接的主要目的,如何通过 Socket 传输数据呢?
6.3、传输数据
当客户端要与服务端通信时,客户端首先要创建一个 Socket 实例,默认操作系统将为这个 Socket 实例分配一个没有被使用的本地端口号,并创建一个包含本地、远程地址和端口号的套接字数据结构,这个数据结构将一直保存在系统中直到这个连接关闭。
/** * 客户端 */ public class Client {public static void main(String[] args) throws IOException { Socket socket = new Socket("127.0.0.1", 9090); //向服务端发送数据 PrintStream ps = new PrintStream(new BufferedOutputStream(socket.getOutputStream())); //读取服务端返回的数据 BufferedReader br = new BufferedReader(new InputStreamReader(socket.getInputStream())); ps.println("hello word!!"); ps.flush(); String info = br.readLine(); System.out.println(info); ps.close(); br.close(); } }

与之对应的服务端,也将创建一个 ServerSocket 实例,ServerSocket 创建比较简单,只要指定的端口号没有被占用,一般实例创建都会成功,同时操作系统也会为 ServerSocket 实例创建一个底层数据结构,这个数据结构中包含指定监听的端口号和包含监听地址的通配符,通常情况下都是*即监听所有地址。
之后当调用 accept() 方法时,将进入阻塞状态,等待客户端的请求。
/** * 服务端 */ public class ServerTest {public static void main(String[] args) throws IOException { //初始化服务端端口9090 ServerSocket serverSocket = new ServerSocket(9090); System.out.println("服务端已启动,端口号为9090..."); //开启循环监听 while (true) { //等待客户端的连接 Socket accept = serverSocket.accept(); //将字节流转化为字符流,读取客户端发来的数据 BufferedReader br = new BufferedReader(new InputStreamReader(accept.getInputStream())); //一行一行的读取客户端的数据 String s = br.readLine(); System.out.println("服务端收到客户端的信息:" + s); } } }

我们先启动服务端程序,再运行客户端,服务端收到客户端发送的信息,服务端打印结果如下:
深入分析 Java IO (一)概述
文章图片

注意,客户端只有与服务端建立三次握手成功之后,才会发送数据,而 TCP/IP 握手过程,底层操作系统已经帮我们实现了!
当连接已经建立成功,服务端和客户端都会拥有一个 Socket 实例,每个 Socket 实例都有一个 InputStream 和 OutputStream,正如我们前面所说的,网络 I/O 都是以字节流传输的,Socket 正是通过这两个对象来交换数据。
当 Socket 对象创建时,操作系统将会为 InputStream 和 OutputStream 分别分配一定大小的缓冲区,数据的写入和读取都是通过这个缓存区完成的。
写入端将数据写到 OutputStream 对应的 SendQ 队列中,当队列填满时,数据将被发送到另一端 InputStream 的 RecvQ 队列中,如果这时 RecvQ 已经满了,那么 OutputStream 的 write 方法将会阻塞直到 RecvQ 队列有足够的空间容纳 SendQ 发送的数据。
值得特别注意的是,缓存区的大小以及写入端的速度和读取端的速度非常影响这个连接的数据传输效率,由于可能会发生阻塞,所以网络 I/O 与磁盘 I/O 在数据的写入和读取还要有一个协调的过程,如果两边同时传送数据时可能会产生死锁的问题。
如何提高网络 IO 传输效率、保证数据传输的可靠,已经成了工程师们急需解决的问题。
6.4、IO工作方式
在计算机中,IO 传输数据有三种工作方式,分别是 BIO、NIO、AIO。
下期我们再一个个分析这三种IO的特点及原理。
七、总结 本文阐述的内容较多,从 Java 基本 I/O 类库结构开始说起,主要介绍了 IO 的传输格式和传输方式,以及磁盘 I/O 和网络 I/O 的基本工作方式。

    推荐阅读