- Python基础
- 文件操作
- 模块与包
- 数据类型
- 企业面试题
- 15.python新式类和经典类的区别?
- 16.python中内置的数据结构有几种?
- 17.python如何实现单例模式?请写出两种实现方式?
- 18.反转一个整数,例如-123 --> -321
- 19.设计实现遍历目录与子目录,抓取.pyc文件
- 20.一行代码实现1-100之和
- 21.Python-遍历列表时删除元素的正确做法
- 22.字符串的操作题目
- 23.可变类型和不可变类型
- 24.is和==有什么区别?
- 25.求出列表所有奇数并构造新列表
- 26.用一行python代码写出1+2+3+10248
- 27.Python中变量的作用域?(变量查找顺序)
- 28.字符串”123″转换成123,不使用内置api,例如int()
- 29.Given an array of integers
- 30.python代码实现删除一个list里面的重复元素
- 31.统计一个文本中单词频次最高的10个单词?
- 32.请写出一个函数满足以下条件
- 33.使用单一的列表生成式来产生一个新的列表
- 34.用一行代码生成[1,4,9,16,25,36,49,64,81,100]
- 35.输入某年某月某日,判断这一天是这一年的第几天?
- 36.两个有序列表,l1,l2,对这两个列表进行合并不可使用extend
- 37.给定一个任意长度数组,实现一个函数
- 38.写一个函数找出一个整数数组中,第二大的数
- 39.阅读一下代码他们的输出结果是什么?
- 40.统计一段字符串中字符出现的次数
- 41.super函数的具体用法和场景
- Python高级
- 元类
- 内存管理与垃圾回收机制
- 函数
- 52.python常见的列表推导式?
- 53.简述read、readline、readlines的区别?
- 54.什么是Hash(散列函数)?
- 55.python函数重载机制?
- 56.写一个函数找出一个整数数组中,第二大的数
- 57.手写一个判断时间的装饰器
- 58.使用Python内置的filter()方法来过滤?
- 59.编写函数的4个原则
- 60.函数调用参数的传递方式是值传递还是引用传递?
- 61.如何在function里面设置一个全局变量
- 62.对缺省参数的理解 ?
- 63.Mysql怎么限制IP访问?
- 64.带参数的装饰器?
- 65.为什么函数名字可以当做参数用?
- 66.Python中pass语句的作用是什么?
- 67.有这样一段代码,print c会输出什么,为什么?
- 68.交换两个变量的值?
- 69.map函数和reduce函数?
- 70.回调函数,如何通信的?
- 71.Python主要的内置数据类型都有哪些? print dir( ‘a ’) 的输出?
- 72.map(lambda x:xx,[y for y in range(3)])的输出?
- 73.hasattr() getattr() setattr() 函数使用详解?
- 74.一句话解决阶乘函数?
- 75.什么是lambda函数? 有什么好处?
- 76.递归函数停止的条件?
- 77.下面这段代码的输出结果将是什么?请解释。
- 78.什么是lambda函数?它有什么好处?写一个匿名函数求两个数的和
- 设计模式
- 面向对象
- 正则表达式
- 94.请写出一段代码用正则匹配出ip?
- 95.a = “abbbccc”,用正则匹配为abccc,不管有多少b,就出现一次?
- 96.Python字符串查找和替换?
- 97.用Python匹配HTML g tag的时候,<.> 和 <.*?> 有什么区别
- 98.正则表达式贪婪与非贪婪模式的区别?
- 99.写出开头匹配字母和下划线,末尾是数字的正则表达式?
- 100.正则表达式操作
- 101.请匹配出变量A 中的json字符串。
- 102.怎么过滤评论中的表情?
- 103.简述Python里面search和match的区别
- 104.请写出匹配ip的Python正则表达式
- 105.Python里match与search的区别?
- 系统编程
- 106.进程总结
- 107.谈谈你对多进程,多线程,以及协程的理解,项目是否用?
- 108.Python异常使用场景有那些?
- 109.多线程共同操作同一个数据互斥锁同步?
- 110.什么是多线程竞争?
- 111.请介绍一下Python的线程同步?
- 112.解释以下什么是锁,有哪几种锁?
- 113.什么是死锁?
- 114.多线程交互访问数据,如果访问到了就不访问了?
- 115.什么是线程安全,什么是互斥锁?
- 116.说说下面几个概念:同步,异步,阻塞,非阻塞?
- 117.什么是僵尸进程和孤儿进程?怎么避免僵尸进程?
- 118.python中进程与线程的使用场景?
- 119.线程是并发还是并行,进程是并发还是并行?
- 120.并行(parallel)和并发(concurrency)?
- 121.IO密集型和CPU密集型区别?
- 122.python asyncio的原理?
- 网络编程
- 123.怎么实现强行关闭客户端和服务器之间的连接?
- 124.简述TCP和UDP的区别以及优缺点?
- 125.简述浏览器通过WSGI请求动态资源的过程?
- 126.描述用浏览器访问www.baidu.com的过程
- 127.Post和Get请求的区别?
- 128.cookie 和session 的区别?
- 129.列出你知道的HTTP协议的状态码,说出表示什么意思?
- 130.请简单说一下三次握手和四次挥手?
- 131.说一下什么是tcp的2MSL?
- 132.为什么客户端在TIME-WAIT状态必须等待2MSL的时间?
- 133.说说HTTP和HTTPS区别?
- 134.谈一下HTTP协议以及协议头部中表示数据类型的字段?
- 135.HTTP请求方法都有什么?
- 136.使用Socket套接字需要传入哪些参数 ?
- 137.HTTP常见请求头?
- 138.七层模型?
- 139.url的形式?
- Web
- Flask
- Django
- 142.什么是wsgi,uwsgi,uWSGI?
- 143.Django、Flask、Tornado的对比?
- 144.CORS 和 CSRF的区别?
- 145.Session,Cookie,JWT的理解
- 146.简述Django请求生命周期
- 147.用的restframework完成api发送时间时区
- 148.nginx,tomcat,apach到都是什么?
- 149.请给出你熟悉关系数据库范式有哪些,有什么作用?
- 150.简述QQ登陆过程
- 151.post 和 get的区别?
- 152.项目中日志的作用
- 153.django中间件的使用?
- 154.谈一下你对uWSGI和nginx的理解?
- 155.Python中三大框架各自的应用场景?
- 156.Django中哪里用到了线程?哪里用到了协程?哪里用到了进程?
- 157.有用过Django REST framework吗?
- 158.对cookies与session的了解?他们能单独用吗?
- 爬虫
- 159.试列出至少三种目前流行的大型数据库
- 160.列举您使用过的Python网络爬虫所用到的网络数据包?
- 161.爬取数据后使用哪个数据库存储数据的,为什么?
- 162.你用过的爬虫框架或者模块有哪些?优缺点?
- 163.写爬虫是用多进程好?还是多线程好?
- 164.常见的反爬虫和应对方法?
- 165.解析网页的解析器使用最多的是哪几个?
- 166.需要登录的网页,如何解决同时限制ip,cookie,session
- 167.验证码的解决?
- 168.使用最多的数据库,对他们的理解?
- 169.编写过哪些爬虫中间件?
- 170.“极验”滑动验证码如何破解?
- 171.爬虫多久爬一次,爬下来的数据是怎么存储?
- 172.cookie过期的处理问题?
- 173.动态加载又对及时性要求很高怎么处理?
- 174.HTTPS有什么优点和缺点?
- 175.HTTPS是如何实现安全传输数据的?
- 176.TTL,MSL,RTT各是什么?
- 177.谈一谈你对Selenium和PhantomJS了解
- 178.平常怎么使用代理的 ?
- 179.存放在数据库(redis、mysql等)。
- 180.怎么监控爬虫的状态?
- 181.描述下scrapy框架运行的机制?
- 182.谈谈你对Scrapy的理解?
- 183.怎么样让 scrapy 框架发送一个 post 请求(具体写出来)
- 184.怎么监控爬虫的状态 ?
- 185.怎么判断网站是否更新?
- 186.图片、视频爬取怎么绕过防盗连接
- 187.你爬出来的数据量大概有多大?大概多长时间爬一次?
- 188.用什么数据库存爬下来的数据?部署是你做的吗?怎么部署?
- 189.增量爬取
- 190.爬取下来的数据如何去重,说一下scrapy的具体的算法依据。
- 191.Scrapy的优缺点?
- 192.怎么设置爬取深度?
- 193.scrapy和scrapy-redis有什么区别?为什么选择redis数据库?
- 194.分布式爬虫主要解决什么问题?
- 195.什么是分布式存储?
- 196.你所知道的分布式爬虫方案有哪些?
- 197.scrapy-redis,有做过其他的分布式爬虫吗?
- 数据库
- MySQL
- Redis
- MongoDB
- 测试
- 数据结构
- 222.数组中出现次数超过一半的数字-Python版
- 223.求100以内的质数
- 224.无重复字符的最长子串-Python实现
- 225.通过2个5/6升得水壶从池塘得到3升水
- 226.什么是MD5加密,有什么特点?
- 227.什么是对称加密和非对称加密
- 228.冒泡排序的思想?
- 229.快速排序的思想?
- 230.如何判断单向链表中是否有环?
- 231.你知道哪些排序算法(一般是通过问题考算法)
- 232.斐波那契数列
- 233.如何翻转一个单链表?
- 234.青蛙跳台阶问题
- 235.两数之和 Two Sum
- 236.搜索旋转排序数组 Search in Rotated Sorted Array
- 237.Python实现一个Stack的数据结构
- 238.写一个二分查找
- 239.set 用 in 时间复杂度是多少,为什么?
- 240.列表中有n个正整数范围在[0,1000],进行排序;
- 241.面向对象编程中有组合和继承的方法实现新的类
- 大数据
def get_lines():
with open('file.txt','rb') as f:
return f.readlines()
if __name__ == '__main__':
for e in get_lines():
process(e) #处理每一行数据现在要处理一个大小为10G的文件,但是内存只有4G,如果在只修改get_lines 函数而其他代码保持不变的情况下,应该如何实现?需要考虑的问题都有那些?
def get_lines():
with open('file.txt','rb') as f:
for i in f:
yield iPandaaaa906提供的方法
from mmap import mmap
def get_lines(fp):
with open(fp,"r+") as f:
m = mmap(f.fileno(), 0)
tmp = 0
for i, char in enumerate(m):
if char==b"\n":
yield m[tmp:i+1].decode()
tmp = i+1
if __name__=="__main__":
for i in get_lines("fp_some_huge_file"):
print(i)要考虑的问题有:内存只有4G无法一次性读入10G文件,需要分批读入分批读入数据要记录每次读入数据的位置。分批每次读取数据的大小,太小会在读取操作花费过多时间。 https://stackoverflow.com/questions/30294146/python-fastest-way-to-process-large-file
def print_directory_contents(sPath):
"""
这个函数接收文件夹的名称作为输入参数
返回该文件夹中文件的路径
以及其包含文件夹中文件的路径
"""
import os
for s_child in os.listdir(s_path):
s_child_path = os.path.join(s_path, s_child)
if os.path.isdir(s_child_path):
print_directory_contents(s_child_path)
else:
print(s_child_path)import datetime
def dayofyear():
year = input("请输入年份: ")
month = input("请输入月份: ")
day = input("请输入天: ")
date1 = datetime.date(year=int(year),month=int(month),day=int(day))
date2 = datetime.date(year=int(year),month=1,day=1)
return (date1-date2).days+1import random
alist = [1,2,3,4,5]
random.shuffle(alist)
print(alist)sorted(d.items(),key=lambda x:x[1])d = {key:value for (key,value) in iterable}print("aStr"[::-1])str1 = "k:1|k1:2|k2:3|k3:4"
def str2dict(str1):
dict1 = {}
for iterms in str1.split('|'):
key,value = iterms.split(':')
dict1[key] = value
return dict1alist = [{'name':'a','age':20},{'name':'b','age':30},{'name':'c','age':25}]
def sort_by_age(list1):
return sorted(alist,key=lambda x:x['age'],reverse=True)list = ['a','b','c','d','e']
print(list[10:])代码将输出[],不会产生IndexError错误,就像所期望的那样,尝试用超出成员的个数的index来获取某个列表的成员。例如,尝试获取list[10]和之后的成员,会导致IndexError。然而,尝试获取列表的切片,开始的index超过了成员个数不会产生IndexError,而是仅仅返回一个空列表。这成为特别让人恶心的疑难杂症,因为运行的时候没有错误产生,导致Bug很难被追踪到。
print([x*11 for x in range(10)])list1 = [1,2,3]
list2 = [3,4,5]
set1 = set(list1)
set2 = set(list2)
print(set1 & set2)
print(set1 ^ set2)l1 = ['b','c','d','c','a','a']
l2 = list(set(l1))
print(l2)用list类的sort方法:
l1 = ['b','c','d','c','a','a']
l2 = list(set(l1))
l2.sort(key=l1.index)
print(l2)也可以这样写:
l1 = ['b','c','d','c','a','a']
l2 = sorted(set(l1),key=l1.index)
print(l2)也可以用遍历:
l1 = ['b','c','d','c','a','a']
l2 = []
for i in l1:
if not i in l2:
l2.append(i)
print(l2)A,B 中相同元素: print(set(A)&set(B))
A,B 中不同元素: print(set(A)^set(B))a. 在python里凡是继承了object的类,都是新式类 b. Python3里只有新式类 c. Python2里面继承object的是新式类,没有写父类的是经典类 d. 经典类目前在Python里基本没有应用
a. 整型 int、 长整型 long、浮点型 float、 复数 complex b. 字符串 str、 列表list、 元祖tuple c. 字典 dict 、 集合 set
第一种方法:使用装饰器
def singleton(cls):
instances = {}
def wrapper(*args, **kwargs):
if cls not in instances:
instances[cls] = cls(*args, **kwargs)
return instances[cls]
return wrapper
@singleton
class Foo(object):
pass
foo1 = Foo()
foo2 = Foo()
print foo1 is foo2 #True第二种方法:使用基类 New 是真正创建实例对象的方法,所以重写基类的new 方法,以此保证创建对象的时候只生成一个实例
class Singleton(object):
def __new__(cls,*args,**kwargs):
if not hasattr(cls,'_instance'):
cls._instance = super(Singleton,cls).__new__(cls,*args,**kwargs)
return cls._instance
class Foo(Singleton):
pass
foo1 = Foo()
foo2 = Foo()
print foo1 is foo2 #True第三种方法:元类,元类是用于创建类对象的类,类对象创建实例对象时一定要调用call方法,因此在调用call时候保证始终只创建一个实例即可,type是python的元类
class Singleton(type):
def __call__(cls,*args,**kwargs):
if not hasattr(cls,'_instance'):
cls._instance = super(Singleton,cls).__call__(*args,**kwargs)
return cls._instanceclass Foo(object):
__metaclass__ = Singleton
foo1 = Foo()
foo2 = Foo()
print foo1 is foo2 #Trueclass Solution(object):
def reverse(self,x):
if -10<x<10:
return x
str_x = str(x)
if str_x[0] !="-":
str_x = str_x[::-1]
x = int(str_x)
else:
str_x = str_x[1:][::-1]
x = int(str_x)
x = -x
return x if -2147483648<x<2147483647 else 0
if __name__ == '__main__':
s = Solution()
reverse_int = s.reverse(-120)
print(reverse_int)第一种方法:
import os
def get_files(dir,suffix):
res = []
for root,dirs,files in os.walk(dir):
for filename in files:
name,suf = os.path.splitext(filename)
if suf == suffix:
res.append(os.path.join(root,filename))
print(res)
get_files("./",'.pyc')第二种方法:
import os
def pick(obj):
try:
if obj.[-4:] == ".pyc":
print(obj)
except:
return None
def scan_path(ph):
file_list = os.listdir(ph)
for obj in file_list:
if os.path.isfile(obj):
pick(obj)
elif os.path.isdir(obj):
scan_path(obj)
if __name__=='__main__':
path = input('输入目录')
scan_path(path)第三种方法
from glob import iglob
def func(fp, postfix):
for i in iglob(f"{fp}/**/*{postfix}", recursive=True):
print(i)
if __name__ == "__main__":
postfix = ".pyc"
func("K:\Python_script", postfix) count = sum(range(0,101))
print(count)import datetime
class TimeException(Exception):
def __init__(self, exception_info):
super().__init__()
self.info = exception_info
def __str__(self):
return self.info
def timecheck(func):
def wrapper(*args, **kwargs):
if datetime.datetime.now().year == 2019:
func(*args, **kwargs)
else:
raise TimeException("函数已过时")
return wrapper
@timecheck
def test(name):
print("Hello {}, 2019 Happy".format(name))
if __name__ == "__main__":
test("backbp")[x for x in filter(lambda x: x % 2 == 0, range(10))] 设计模式是经过总结,优化的,对我们经常会碰到的一些编程问题的可重用解决方案。一个设计模式并不像一个类或一个库那样能够直接作用于我们的代码,反之,设计模式更为高级,它是一种必须在特定情形下实现的一种方法模板。 常见的是工厂模式和单例模式
#python2
class A(object):
__instance = None
def __new__(cls,*args,**kwargs):
if cls.__instance is None:
cls.__instance = objecet.__new__(cls)
return cls.__instance
else:
return cls.__instance单例模式应用的场景一般发现在以下条件下: 资源共享的情况下,避免由于资源操作时导致的性能或损耗等,如日志文件,应用配置。 控制资源的情况下,方便资源之间的互相通信。如线程池等,1,网站的计数器 2,应用配置 3.多线程池 4数据库配置 数据库连接池 5.应用程序的日志应用...
print([x*x for x in range(1, 11)])装饰器本质上是一个python函数,它可以让其他函数在不需要做任何代码变动的前提下增加额外功能,装饰器的返回值也是一个函数对象。
import time
from functools import wraps
def timeit(func):
@wraps(func)
def wrapper(*args, **kwargs):
start = time.clock()
ret = func(*args, **kwargs)
end = time.clock()
print('used:',end-start)
return ret
return wrapper
@timeit
def foo():
print('in foo()'foo())在函数内部再定义一个函数,并且这个函数用到了外边函数的变量,那么将这个函数以及用到的一些变量称之为闭包。
装饰器本质上是一个python函数或类,它可以在让其他函数在不需要做任何代码的变动的前提下增加额外的功能。装饰器的返回值也是一个函数的对象,它经常用于有切面需求的场景。比如:插入日志,性能测试,事务处理,缓存。权限的校验等场景,有了装饰器就可以抽离出大量的与函数功能本身无关的雷同代码并发并继续使用。 详细参考:https://manjusaka.itscoder.com/2018/02/23/something-about-decorator/
迭代器是遵循迭代协议的对象。用户可以使用 iter() 以从任何序列得到迭代器(如 list, tuple, dictionary, set 等)。另一个方法则是创建一个另一种形式的迭代器 —— generator 。要获取下一个元素,则使用成员函数 next()(Python 2)或函数 next() function (Python 3) 。当没有元素时,则引发 StopIteration 此例外。若要实现自己的迭代器,则只要实现 next()(Python 2)或 __next__()( Python 3)
生成器(Generator),只是在需要返回数据的时候使用yield语句。每次next()被调用时,生成器会返回它脱离的位置(它记忆语句最后一次执行的位置和所有的数据值)
区别: 生成器能做到迭代器能做的所有事,而且因为自动创建iter()和next()方法,生成器显得特别简洁,而且生成器也是高效的,使用生成器表达式取代列表解析可以同时节省内存。除了创建和保存程序状态的自动方法,当发生器终结时,还会自动抛出StopIteration异常。
官方介绍:https://docs.python.org/3/tutorial/classes.html#iterators
X= (i for i in range(10))
X是 generator类型
N =100
print ([[x for x in range(1,100)] [i:i+3] for i in range(0,100,3)])yield就是保存当前程序执行状态。你用for循环的时候,每次取一个元素的时候就会计算一次。用yield的函数叫generator,和iterator一样,它的好处是不用一次计算所有元素,而是用一次算一次,可以节省很多空间,generator每次计算需要上一次计算结果,所以用yield,否则一return,上次计算结果就没了
< 3360 div class="markdown-heading" dir="auto">