时间复杂度
分析,统计算法的执行效率的一种指标
表示方法:大O表示法(高阶无穷小)
算法的执行效率,粗略地讲,就是算法代码执行的时间。为简化问题,我们假设每行代码的执行时间一样。
看下面一段代码
int cal(int n) {
int sum = 0;
int i = 1;
int j = 1;
for (; i <= n; ++i) {
j = 1;
for (; j <= n; ++j) {
sum = sum + i * j;
}
}
}
假设每个语句的执行时间是 unit_time,第 2、3、4 行代码,每行都需要 1 个 unit_time 的执行时间,第 5、6 行代码循环执行了 n 遍,需要 2n * unit_time 的执行时间,第 7、8 行代码循环执行了 n^{2} 遍,所以需要 2n*n^{2} * unit_time的执行时间。所以,整段代码总的执行时间
T(n)=(2n^{2}+2n+3)∗unit
我们看到:代码执行的时间与代码行数以及每行代码的执行次数成正比。于是我们定义
T(n)=O(f(n))
其中
f(n)=2n^{2}+2n+3
表示的是代码执行的次数总和。那么可以推出T(n)=O(2n^{2}+2n+3)
大 O 时间复杂度实际上并不具体表示代码真正的执行时间,而是表示代码执行时间随数据规模增长的变化趋势。
T(n)=O(2n^{2}+2n+3)分析方法
只关注循环执行次数最多的一段代码
加法法则:总复杂度等于量级最大的那段代码的复杂度
乘法法则:嵌套代码的复杂度等于嵌套内外代码复杂度的乘积
核心思想是比阶,其实就是高数中的极限的思想。
常见的几种复杂度
1.常数阶:O(1)
只要代码的执行时间不随 n 的增大而增长,这样代码的时间复杂度我们都记作 O(1) 。或者说,一般情况下,只要算法中不存在循环语句、递归语句,即使有成千上万行的代码,其时间复杂度也是O(1) 。
例如
int i = 8;
int j = 6;
int sum = i + j;
2.对数阶:O(\log n)
例如
i=1;
while (i <= n) {
i = i * k;// k为常数
}
设循环执行的次数为x,则
k^{x}=n
x=\log_k{n}=\log_k{2}*log{n}
前面的常数都可以去掉,因此,在对数阶时间复杂度的表示方法里,我们忽略对数的“底”,统一表示为 O(logn)。
3.线性阶:O(n)
int cal(int n) {
int sum = 0;
int i = 1;
for (; i <= n; ++i) {
sum = sum + i;
}
return sum;
}
4.线性对数阶:O(n\log n)
5.平方阶:O(n^{2})
复杂情况下的复杂度分析
1.最好,最坏情况时间复杂度
看下面一段代码
// n 表示数组 array 的长度
int find(int[] array, int n, int x) {
int i = 0;
int pos = -1;
for (; i < n; ++i) {
if (array[i] == x) {
pos = i;
break;
}
}
return pos;
}
查找的变量 x 可能出现在数组的任意位置。如果数组中第一个元素正好是要查找的变量 x,那就不需要继续遍历剩下的 n-1 个数据了,那时间复杂度就是 O(1) 。但如果数组中不存在变量 x,那我们就需要把整个数组都遍历一遍,时间复杂度就成了 O(n) 。所以,不同的情况下,这段代码的时间复杂度是不一样的。
最好情况时间复杂度就是,在最理想的情况下,执行这段代码的时间复杂度
最坏情况时间复杂度就是,在最糟糕的情况下,执行这段代码的时间复杂度
2.平均情况时间复杂度
上面的情况,我们没有考虑每种情况出现的概率,考虑概率进去,要查找的变量 x,要么在数组里,要么就不在数组里。这两种情况对应的概率统计起来很麻烦,为了方便,我们假设在数组中与不在数组中的概率都为 \frac{1}{2}。另外,要查找的数据出现在 0~n-1 这 n 个位置的概率也是一样的,为 \frac{1}{n}。所以,根据概率乘法法则,要查找的数据出现在 0~n-1 中任意位置的概率就是 \frac{1}{2n},当为最好情况时,1* \frac{1}{2n},当需要遍历2个位置时,2* \frac{1}{2n},则平均时间复杂度的计算为:{1\over2n}*(1+2+3+…+n)={ {3n+1}\over4}则平均情况时间复杂度为O(n) 。
3.均摊时间复杂度
看下面一段代码
// array 表示一个长度为 n 的数组
// 代码中的 array.length 就等于 n
int[] array = new int[n];
int count = 0;
void insert(int val) {
if (count == array.length) {
int sum = 0;
for (int i = 0; i < array.length; ++i) {
sum = sum + array[i];
}
array[0] = sum;
count = 1;
}
array[count] = val;
++count;
}
这段代码实现了一个往数组中插入数据的功能。当数组满了之后,也就是代码中的 count == array.length 时,我们用 for 循环遍历数组求和,并清空数组,将求和之后的 sum 值放到数组的第一个位置,然后再将新的数据插入。但如果数组一开始就有空闲空间,则直接将数据插入数组。
最理想的情况下,数组中有空闲空间,我们只需要将数据插入到数组下标为 count 的位置就可以了,所以最好情况时间复杂度为 O(1) 。最坏的情况下,数组中没有空闲空间了,我们需要先做一次数组的遍历求和,然后再将数据插入,所以最坏情况时间复杂度为O(n) 。
假设数组的长度是 n,根据数据插入的位置的不同,我们可以分为 n 种情况,每种情况的时间复杂度是O(1) 。除此之外,还有一种“额外”的情况,就是在数组没有空闲空间时插入一个数据,这个时候的时间复杂度是 O(n) 。而且,这 n+1 种情况发生的概率一样,都是 \frac{1}{n+1}。所以,根据加权平均的计算方法,我们求得的平均时间复杂度就是O(1) 。
{1\over{n+1} }*(1+1+…+1+n)={2n\over{n+1} }={2\over{1+{1\over{n}} } }首先,find() 函数在极端情况下,复杂度才为 O(1) 。但 insert() 在大部分情况下,时间复杂度都为 O(1) 。只有个别情况下,复杂度才比较高,为 O(n) 。这是 insert()第一个区别于 find() 的地方。
我们再来看第二个不同的地方。对于 insert() 函数来说,O(1) 时间复杂度的插入和 O(n) 时间复杂度的插入,出现的频率是非常有规律的,而且有一定的前后时序关系,一般都是一个O(n) 插入之后,紧跟着 n-1 个 O(1) 的插入操作,循环往复(有点像冲击响应😂)
针对这种特殊的场景,我们引入了一种更加简单的分析方法:摊还分析法,通过摊还分析得到的时间复杂度我们起了一个名字,叫均摊时间复杂度。
每一次 O(n) 的插入操作,都会跟着 n-1 次 O(1) 的插入操作,所以把耗时多的那次操作均摊到接下来的 n-1 次耗时少的操作上,均摊下来,这一组连续的操作的均摊时间复杂度就是 O(1) 。
对一个数据结构进行一组连续操作中,大部分情况下时间复杂度都很低,只有个别情况下时间复杂度比较高,而且这些操作之间存在前后连贯的时序关系,这个时候,我们就可以将这一组操作放在一块儿分析,看是否能将较高时间复杂度那次操作的耗时,平摊到其他那些时间复杂度比较低的操作上。而且,在能够应用均摊时间复杂度分析的场合,一般均摊时间复杂度就等于最好情况时间复杂度
空间复杂度
分析,统计算法的执行效率的一种指标,表示算法的存储空间与数据规模之间的增长关系
void print(int n) {
int i = 0;
int[] a = new int[n];
for (i; i <n; ++i) {
a[i] = i * i;
}
for (i = n-1; i >= 0; --i) {
print out a[i]
}
}
跟时间复杂度分析一样,我们可以看到,第 2 行代码中,我们申请了一个空间存储变量 i,但是它是常量阶的,跟数据规模 n 没有关系,所以我们可以忽略。第 3 行申请了一个大小为 n 的 int 类型数组,除此之外,剩下的代码都没有占用更多的空间,所以整段代码的空间复杂度就是 O(n) 。
Reference🍀
极客时间:王争-数据结构与算法之美,覃超-算法面试通关40讲