查询数据库操作,请求网络资源,读写文件操作
严重依赖CPU计算的程序, 圆周率计算,视频的解码等
当我们从Python官方网站下载并安装好Python 2.7后,我们就直接获得了一个官方版本的解释器:CPython。这个解释器是用C语言开发的,所以叫CPython。在命令行下运行python
就是启动CPython解释器。
CPython是使用最广的Python解释器。教程的所有代码也都在CPython下执行。
全局解释器锁,保证变量运算和读取,在同一时刻只有一个线程执行,即多核CPU只有一个线程被执行。
这个解释器锁是有必要的,因为cpython解释器的内存管理不是线程安全的, 即同一时刻,Python 主程序只允许有一个线程执行,所以 Python 的并发,是通过多线程的切换完成的。本质上是类似操作系统的 Mutex。每一个 Python 线程,在 CPython 解释器中执行时,都会先锁住自己的线程,阻止别的线程执行。
GIL虽然是一个假的多线程,但是在处理一些IO操作(文件读写,网络请求)可以提高效率,建议使用多线程提高效率。但CPU计算操作不建议使用多线程,建议使用多进程。
为了解决由此带来的 race condition 等问题,Python 便引入了全局解释器锁,也就是同一时刻,只允许一个线程执行。当然,在执行 I/O 操作时,如果一个线程被 block 了,全局解释器锁便会被释放,从而让另一个线程能够继续执行
一是设计者为了规避类似于内存管理这样的复杂的竞争风险问题(race condition);
二是因为 CPython 大量使用 C 语言库,但大部分 C 语言库都不是原生线程安全的(线程安全会降低性能和增加复杂度)
一个 GIL 在 Python 程序的工作示例。其中,Thread 1、2、3 轮流执行,每一个线程在开始执行时,都会锁住 GIL,以阻止别的线程执行;同样的,每一个线程执行完一段后,会释放 GIL,以允许别的线程开始利用资源。
CPython 中还有另一个机制,叫做 check_interval,意思是 CPython 解释器会去轮询检查线程 GIL 的锁住情况。每隔一段时间,Python 解释器就会强制当前线程去释放 GIL,这样别的线程才能有执行的机会。
GIL 的设计,主要是为了方便 CPython 解释器层面的编写者,而不是 Python 应用层面的程序员。作为 Python 的使用者,我们还是需要 lock 等工具,来确保线程安全。
n = 0 lock = threading.Lock() def foo(): global n with lock: n += 1
Python 的 GIL,是通过 CPython 的解释器加的限制。如果你的代码并不需要 CPython 解释器来执行,就不再受 GIL 的限制。
事实上,很多高性能应用场景都已经有大量的 C 实现的 Python 库,例如 NumPy 的矩阵运算,就都是通过 C 来实现的,并不受 GIL 影响。
所以,大部分应用情况下,你并不需要过多考虑 GIL。因为如果多线程计算成为性能瓶颈,往往已经有 Python 库来解决这个问题了。
换句话说,如果你的应用真的对性能有超级严格的要求,比如 100us 就对你的应用有很大影响,那我必须要说,Python 可能不是你的最优选择。
当然,可以理解的是,我们难以避免的有时候就是想临时给自己松松绑,摆脱 GIL,比如在深度学习应用里,大部分代码就都是 Python 的。在实际工作中,如果我们想实现一个自定义的微分算子,或者是一个特定硬件的加速器,那我们就不得不把这些关键性能(performance-critical)代码在 C++ 中实现(不再受 GIL 所限),然后再提供 Python 的调用接口。
总的来说,你只需要重点记住,绕过 GIL 的大致思路有这么两种就够了:
在python3中,GIL不使用ticks计数,改为使用计时器(执行时间达到阈值后interval=15毫秒,当前线程释放GIL),这样对CPU密集型程序更加友好,但依然没有解决GIL导致的同一时间只能执行一个线程的问题,所以效率依然不尽如人意。多核多线程比单核多线程更差,原因是单核下多线程,每次释放GIL,唤醒的那个线程都能获取到GIL锁,所以能够无缝执行,但多核下,CPU0释放GIL后,其他CPU上的线程都会进行竞争,但GIL可能会马上又被CPU0拿到,导致其他几个CPU上被唤醒后的线程会醒着等待到切换时间后又进入待调度状态,这样会造成线程颠簸(thrashing),导致效率更低。
经常会听到老手说:“python下想要充分利用多核CPU,就用多进程”,原因是什么呢?原因是:每个进程有各自独立的GIL,互不干扰,这样就可以真正意义上的并行执行,所以在python中,多进程的执行效率优于多线程(仅仅针对多核CPU而言)。所以我们能够得出结论:多核下,想做并行提升效率,比较通用的方法是使用多进程,能够有效提高执行效率。
IPython是基于CPython之上的一个交互式解释器,也就是说,IPython只是在交互方式上有所增强,但是执行Python代码的功能和CPython是完全一样的。好比很多国产浏览器虽然外观不同,但内核其实都是调用了IE。
CPython用>>>
作为提示符,而IPython用In [序号]:
作为提示符。
PyPy是另一个Python解释器,它的目标是执行速度。PyPy采用JIT技术,对Python代码进行动态编译(注意不是解释),所以可以显著提高Python代码的执行速度。
绝大部分Python代码都可以在PyPy下运行,但是PyPy和CPython有一些是不同的,这就导致相同的Python代码在两种解释器下执行可能会有不同的结果。如果你的代码要放到PyPy下执行,就需要了解PyPy和CPython的不同点
Jython是运行在Java平台上的Python解释器,可以直接把Python代码编译成Java字节码执行。
IronPython和Jython类似,只不过IronPython是运行在微软.Net平台上的Python解释器,可以直接把Python代码编译成.Net的字节码。
PyCodeObject和pyc文件。
我们在硬盘上看到的pyc自然不必多说,而其实PyCodeObject则是Python编译器真正编译成的结果。我们先简单知道就可以了,继续向下看。
当python程序运行时,编译的结果则是保存在位于内存中的PyCodeObject中,当Python程序运行结束时,Python解释器则将PyCodeObject写回到pyc文件中。
当python程序第二次运行时,首先程序会在硬盘中寻找pyc文件,如果找到,则直接载入,否则就重复上面的过程。
所以我们应该这样来定位PyCodeObject和pyc文件,我们说pyc文件其实是PyCodeObject的一种持久化保存方式。
$ sudo yum install -y https://centos7.iuscommunity.org/ius-release.rpm $ sudo yum update
Python 34
$ sudo yum install -y python34u python34u-libs python34u-devel python34u-pip $ which -a python3.4 /bin/python3.4 /usr/bin/python3.4
Python 35
$ sudo yum install -y python35u python35u-libs python35u-devel python35u-pip $ which -a python3.5 /bin/python3.5 /usr/bin/python3.5
单行注视:# 被注释内容
多行注释:""" 被注释内容 """, ''' 被注释内容 '''
input() 函数暂停程序运行,同时等待键盘输入;直到回车被按下,函数的参数即为提示语,输入的类型永远是字符串型(str)
sentinel = 'end' # 遇到这个就结束
lines = []
for line in iter(input, sentinel):
lines.append(line)
from functools import partial inputNew = partial(input,'Input something pls:\n') sentinel = 'end' # 遇到这个就结束 lines = [] for line in iter(inputNew, sentinel): lines.append(line)
设计一个层次清晰的目录结构,就是为了达到以下两点:
一个较好的Python工程目录结构,已经有一些得到了共识的目录结构。在Stackoverflow的这个问题上,能看到大家对Python目录结构的讨论。
假设你的项目名为foo, 我比较建议的最方便快捷目录结构这样就足够了:
Foo/ |-- bin/ | |-- foo | |-- conf/ | |-- foo/ | |-- tests/ | | |-- __init__.py | | |-- test_main.py | | | |-- __init__.py | |-- main.py | |-- docs/ | |-- conf.py | |-- docs.md | |-- setup.py |-- requirements.txt |-- README.md
bin/
: 存放项目的一些可执行文件,当然你可以起名script/
之类的也行。
conf/
: 存放配置文件
foo/
: 存放项目的所有源代码。(1) 源代码中的所有模块、包都应该放在此目录。不要置于顶层目录。(2) 其子目录tests/
存放单元测试代码; (3) 程序的入口最好命名为main.py
。
docs/
: 存放一些文档。
setup.py
: 安装、部署、打包的脚本。
requirements.txt
: 存放软件依赖的外部Python包列表。
README
: 项目说明文件。
目的是能简要描述该项目的信息,让读者快速了解这个项目。
它需要说明以下几个事项:
我觉得有以上几点是比较好的一个README
。在软件开发初期,由于开发过程中以上内容可能不明确或者发生变化,并不是一定要在一开始就将所有信息都补全。但是在项目完结的时候,是需要撰写这样的一个文档的。
可以参考Redis源码中Readme的写法,这里面简洁但是清晰的描述了Redis功能和源码结构。
用setup.py
来管理代码的打包、安装、部署问题。业界标准的写法是用Python流行的打包工具setuptools来管理这些事情。这种方式普遍应用于开源项目中。不过这里的核心思想不是用标准化的工具来解决这些问题,而是说,一个项目一定要有一个安装部署工具,能快速便捷的在一台新机器上将环境装好、代码部署好和将程序运行起来。
setuptools的文档比较庞大,刚接触的话,可能不太好找到切入点。学习技术的方式就是看他人是怎么用的,可以参考一下Python的一个Web框架,flask是如何写的: setup.py
当然,简单点自己写个安装脚本(deploy.sh
)替代setup.py
也未尝不可。
这个文件存在的目的是:
setup.py
安装依赖时漏掉软件包。这个文件的格式是每一行包含一个包依赖的说明,通常是flask>=0.10
这种格式,要求是这个格式能被pip
识别,这样就可以简单的通过 pip install -r requirements.txt
来把所有Python包依赖都装好了。具体格式说明: 点这里。
能够佐证这个思想的是,用过nginx和mysql的同学都知道,nginx、mysql这些程序都可以自由的指定用户配置。
所以,不应当在代码中直接import conf
来使用配置文件。上面目录结构中的conf.py
,是给出的一个配置样例,不是在写死在程序中直接引用的配置文件。可以通过给main.py
启动参数指定配置路径的方式来让程序读取配置内容。当然,这里的conf.py
你可以换个类似的名字,比如settings.py
。或者你也可以使用其他格式的内容来编写配置文件,比如settings.yaml
之类的。
如果你想写一个开源软件,目录该如何组织,可以参考这篇文章。
Python的某个对象的引用计数降为0时,说明没有任何引用指向改对象,该对象就要被垃圾回收
在垃圾回收的时候,Python不能执行其他的任何任务。当Python运行时,会记录其中分配对象(object allocation)和取消分配对象(object deallocaiton)的次数,当两者差值高于某个阀值的时候,垃圾回收会自动启动。
#700是垃圾回收的阀值,可以使用set_threshold方法重新设置 #后面两个10是与分代回收相关的阀值 In [36]: import gc In [37]: print(gc.get_threshold()) (700, 10, 10)
In [36]: import gc In [37]: print(gc.get_threshold()) (700, 10, 10) # 每10次0代垃圾回收,会配合一次1代垃圾回收;而每10次1代垃圾回收,会有一次2代垃圾回收
引用环的存在会给上面垃圾回收机制带来很大的困难。
创建两个表对象,并引用对方,构成引用环。删除a,b引用之后,这两个对象不可能再从程序中调用,就没有什么用处了。但是引用环的存在,这两个对象的引用计数都没有降到0,不会被垃圾回收。
In [39]: a = [] In [40]: b = [a] In [41]: a.append(b) In [42]: del a In [43]: del b
下面方法运行脚本,脚本结束后,会直接进入命令行。这样做的好处是脚本的对象不会被清空,可以通过命令行直接调用
$ python -i script.py
python -m cProfile -s time PYTHON_SCRIPT
Google Python Style Guide, 比PEP8 更严格的编程规范