什么是LLVM-程序员必备技能

一、简介

LLVM项目的发展起源于2000年伊利诺伊大学 维克拉姆·艾夫 与 克里斯·拉特纳 的研究,他们想要为所有静态及动态语言创造出动态的编译技术。LLVM是以BSD许可来发展的开源软件。2005年,苹果计算机雇用了克里斯·拉特纳及他的团队为苹果计算机开发应用程序系统,LLVM为现今Mac OS X及iOS开发工具的一部分。

LLVM是编译器的基础设施,以C++写成,包含一系列模块化的编译器组件和工具链,用来开发编译器前端和后端。它是为了任意一种编程语言而写成的程序,利用虚拟技术创造出编译时期、链接时期、运行时期以及“闲置时期”的最优化。它最早以C/C++为实现对象,而当前它已支持包括ActionScript、Ada、D语言、Fortran、GLSL、Haskell、Java字节码、Objective-C、Swift、Python、Ruby、Rust、Scala以及C#等语言。

LLVM的命名最早源自于底层虚拟机(Low Level Virtual Machine)的首字母缩写,LLVM开始成长之后,成为众多编译工具及低级工具技术的统称,使得这个名字变得更不贴切,现今LLVM已单纯成为一个品牌,适用于LLVM下的所有项目,包含LLVM中介码(LLVM IR)、LLVM调试工具、LLVM C++标准库等。

二、描述

LLVM提供了完整编译系统的中间层,它会将中间语言(Intermediate Representation,IR)从编译器取出与最优化,最优化后的IR接着被转换及链接到目标平台的汇编语言。LLVM可以接受来自GCC工具链所编译的IR,包含它底下现存的编译器。

LLVM也可以在编译时期、链接时期,甚至是运行时期产生可重新定位的代码。

LLVM支持与语言无关的指令集架构及类型系统。LLVM允许代码被静态的编译,包含在传统的GCC系统底下,或是类似JAVA等后期编译才将IF编译成机器代码所使用的即时编译(JIT)技术。

它的类型系统包含基本类型(整数或是浮点数)及五个复合类型(指针、数组、向量、结构及函数),在LLVM具体语言的类型建制可以以结合基本类型来表示,举例来说,C++所使用的class可以被表示为结构、函数及函数指针的数组所组成。

LLVM JIT编译器可以最优化在运行时期时程序所不需要的静态分支。这个特色被使用在Mac OS X Leopard(v10.5)底下OpenGL的管线,OpenGL堆栈下的绘图程序被编译为IR,接着在机器上运行时被编译,当系统拥有高端GPU时,这段程序会进行极少的修改并将传递指令给GPU,当系统拥有低级的GPU时,LLVM将会编译更多的程序,使这段GPU无法运行的指令在本地端的中央处理器运行。LLVM增进了使用Intel GMA芯片等低端机器的性能。一个类似的系统发展于Gallium3D LLVMpipe,它已被合并到GNOME,使其可运行在没有GPU的环境。

根据2011年的一项测试,GCC在运行时期的性能平均比LLVM高10%。而2013年测试显示,LLVM可以编译出接近GCC相同性能的运行码。

编译器

LLVM已经成为多个编译器和代码生成相关子项目的母项目。

前端

LLVM最初被用来取代现有于GCC堆栈的代码产生器,许多GCC的前端已经可以与其运行,LLVM当前支持Ada、C语言、C++、D语言、Fortran、Haskell、Julia (编程语言)、Objective-C、Rust及Swift的编译,它使用许多的编译器,有些来自4.0.1及4.2的GCC。

LLVM引发一些人来为许多语言开发新的编译器,其中一个最引发注意的就是Clang,它是一个新的编译器,同时支持C、Objective-C以及C++。主要来自苹果计算机的支持,Clang的目的用以取代GCC系统底下的C/Objective-C编译器,在当代的系统,他较为容易与集成开发环境(IDE)集成,而且对于线程有更好的支持。Clang从3.8版本开始已经支持OpenMP。GCC底下Objective-C的开发已经停滞,而苹果计算机已经将其支持移至其他的维护分支。

中间端

LLVM的核心是中间端表达式(Intermediate Representation,IR),一种类似汇编的底层语言。IR是一种强类型的精简指令集,并对目标指令集进行了抽象。例如,目标指令集的函数调用惯例被抽象为callret指令加上明确的参数。另外,IR采用无限个数的暂存器,使用如%0,%1等形式表达。LLVM支持三种表达形式:人类可读的汇编,在C++中对象形式和序列化后的bitcode形式。

例如,一个简单的Hello World程序可以表达为如下的汇编形式:

@.str = internal constant [14 x i8] c"hello, world\0A\00"
declare i32 @printf(i8*, ...)
define i32 @main(i32 %argc, i8** %argv) nounwind {

entry:
%tmp1 = getelementptr [14 x i8], [14 x i8]* @.str, i32 0, i32 0
%tmp2 = call i32 (i8*, ...) @printf( i8* %tmp1 ) nounwind
ret i32 0
}

后端

至3.4版本的LLVM已经支持多种后端指令集,比如ARM、Qualcomm Hexagon、MIPS、Nvidia并行指令集(PTX;在LLVM文档中被称为NVPTX),PowerPC、AMD TeraScale[19]、AMD Graphics Core Next(GCN)、SPARC、z/Architecture(在LLVM文档中被称为SystemZ)、x86、x86-64和XCore。有部分平台功能并没有完全实现。但x86、x86-64、z/Architecture、ARM和PowerPC的基本所有功能都有实现。

LLVM机器码(MC)子项目是LLVM将机器指令从文字形式转换至机器码的形式。在之前LLVM依靠系统或是平台专门的工具链将汇编翻译为机器码。LLVM机器码的集成汇编器已经支持绝大多数LLVM的目标平台,如x86、x86-64、ARM和ARM64。对另一些平台,如几种MIPS平台,汇编器支持已经加入但仍在beta阶段。

链接器

lld链接器子项目旨在为LLVM开发一个内置的,平台独立的链接器,去除对所有第三方链接器的依赖。在2017年5月,lld已经支持ELF、PE/COFF、 和Mach-O。在lld支持不完全的情况下,用户可以使用其他项目,如GNU ld链接器。 lld支持链接时优化。当LLVM链接时优化被启用时,LLVM可以输出bitcode而不是本机代码,而本机代码生成由链接器优化处理。

什么是LLVM-程序员必备技能


分享到:


相關文章: