文件管理 · 2022年7月25日

pythoniskeyword|Python 的函数是怎么传递参数的

Ⅰ 如何配置个性化vim

""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""一般设定""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""设定默认解码setfenc=utf-8setfencs=utf-8,usc-bom,euc-jp,gb18030,gbk,gb2312,cp936"设置颜色colorschemedesert"setguifont=NimbusMonoL12"setguifont=WenQuanYiBitmapSong12"setguifont=Verdana10"setguifont=Courier11setguifont=BitstreamVeraSansMono10"不要使用vi的键盘模式,而是vim自己的setnocompatible"history文件中需要记录的行数sethistory=100"在处理未保存或只读文件的时候,弹出确认setconfirm"与windows共享剪贴板setclipboard+=unnamed"侦测文件类型filetypeon"载入文件类型插件filetypepluginon"为特定文件类型载入相关缩进文件filetypeindenton"保存全局变量setviminfo+=!"带有如下符号的单词不要被换行分割setiskeyword+=_,$,@,%,#,-"语法高亮syntaxon"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""高亮显示gtk关键字"""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""argbooleangpointerhighlightlinkgtkTypeType"高亮字符,让其不受100列限制highlightOverLengthctermbg=redctermfg=whiteguibg=redguifg=whitematchOverLength'\%101v.*'"状态行颜色highlightStatusLineguifg=SlateBlueguibg=YellowhighlightStatusLineNCguifg=Grayguibg=White""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""文件设置""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""不要备份文件(根据自己需要取舍)setnobackup"不要生成swap文件,当buffer被丢弃的时候隐藏它setlocalnoswapfilesetbufhidden=hide"字符间插入的像素行数目setlinespace=0"增强模式中的命令行自动完成操作setwildmenu"在状态行上显示光标所在位置的行号和列号setrulersetrulerformat=%20(%2*%<%f%=\%m%r\%3l\%c\%p%%%)"命令行(在状态行下)的高度,默认为1,这里是2setcmdheight=2"使回格键(backspace)正常处理indent,eol,start等setbackspace=2"允许backspace和光标键跨越行边界setwhichwrap+=<,>,h,l"可以在buffer的任何地方使用鼠标(类似office中在工作区双击鼠标定位)setmouse=asetselection=exclusivesetselectmode=mouse,key"启动的时候不显示那个援助索马里儿童的提示setshortmess=atI"通过使用:commands命令,告诉我们文件的哪一行被改变过setreport=0"不让vim发出讨厌的滴滴声setnoerrorbells"在被分割的窗口间显示空白,便于阅读setfillchars=vert:,stl:,stlnc:""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""搜索和匹配""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""高亮显示匹配的括号setshowmatch"匹配括号高亮的时间(单位是十分之一秒)setmatchtime=5"在搜索的时候忽略大小写setignorecase"不要高亮被搜索的句子(phrases)setnohlsearch"在搜索时,输入的词句的逐字符高亮(类似firefox的搜索)setincsearch"输入:setlist命令是应该显示些啥?setlistchars=tab:|,trail:.,extends:>,precedes:<,eol:$"光标移动到buffer的顶部和底部时保持3行距离setscrolloff=3"不要闪烁setnovisualbell"我的状态行显示的内容(包括文件类型和解码)setstatusline=%F%m%r%h%w[FORMAT=%{&ff}][TYPE=%Y][POS=%l,%v][%p%%]\%{strftime("%d/%m/%y-\%H:%M")}"总是显示状态行setlaststatus=2""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""文本格式和排版""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""自动格式化setformatoptions=tcrqn"继承前一行的缩进方式,特别适用于多行注释setautoindent"为C程序提供自动缩进setsmartindent"使用C样式的缩进setcindent"制表符为4settabstop=4"统一缩进为4setsofttabstop=4setshiftwidth=4"不要用空格代替制表符setnoexpandtab"不要换行setnowrap"在行和段开始处使用制表符setsmarttab""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""CTags的设定""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""按照名称排序letTlist_Sort_Type="name""在右侧显示窗口letTlist_Use_Right_Window=1"压缩方式letTlist_Compart_Format=1"如果只有一个buffer,kill窗口也kill掉bufferletTlist_Exist_OnlyWindow=1"不要关闭其他文件的tagsletTlist_File_Fold_Auto_Close=0"不要显示折叠树letTlist_Enable_Fold_Column=0""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""Autocommands""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""只在下列文件类型被侦测到的时候显示行号,普通文本文件不显示ifhas("autocmd") autocmdFileTypexml,html,c,cs,java,perl,shell,bash,cpp,python,vim,php,rubysetnumber autocmdFileTypexml,htmlvmap<C-o><ESC>'<i<!–<ESC>o<ESC>'>o–> autocmdFileTypejava,c,cpp,csvmap<C-o><ESC>'<o/*<ESC>'>o*/ autocmdFileTypehtml,text,php,vim,c,java,xml,bash,shell,perl,pythonsetlocaltextwidth=100 autocmdFiletypehtml,xml,xslsource$VIMRUNTIME/plugin/closetag.vim ifline("'"")>0&&line("'"")<=line("{1}quot;)| exe"normalg`""| endifendif"has("autocmd")"F5编译和运行C程序,F6编译和运行C++程序"请注意,下述代码在windows下使用会报错"需要去掉./这两个字符"C的编译和运行map<F5>:callCompileRunGcc()<CR>func!CompileRunGcc() exec"w" exec"!gcc%-o%<" exec"!./%<"endfunc"C++的编译和运行map<F6>:callCompileRunGpp()<CR>func!CompileRunGpp() exec"w" exec"!g++%-o%<" exec"!./%<"endfunc"能够漂亮地显示.NFO文件setencoding=utf-8function!SetFileEncodings(encodings) letb:myfileencodingsbak=&fileencodings let&fileencodings=a:encodingsendfunctionfunction!RestoreFileEncodings() let&fileencodings=b:myfileencodingsbak unletb:myfileencodingsbakendfunctionauBufReadPre*.nfocallSetFileEncodings('cp437')|setambiwidth=singleauBufReadPost*.nfocallRestoreFileEncodings()"高亮显示普通txt文件(需要txt.vim脚本)auBufRead,BufNewFile*setfiletypetxt"用空格键来开关折叠setfoldenable"setfoldmethod=manualsetfoldmethod=syntaxsetfoldlevel=100nnoremap<space>@=((foldclosed(line('.'))<0)?'zc':'zo')<CR>"minibufexpl插件的一般设置letg:miniBufExplMapWindowNavVim=1letg:miniBufExplMapWindowNavArrows=1letg:miniBufExplMapCTabSwitchBufs=1letg:miniBufExplModSelTarget=1"设置快捷方式Setmapleaderletmapleader=",""快捷加载,当输入",ss"时,加载.vimrc文件map<silent><leader>ss:source~/.vimrc<cr>"快速打开编辑.vimrc配置文件—>",ee"map<silent><leader>ee:e~/.vimrc<cr>"快速保存文件—>",w"map<silent><leader>w:w<cr>"快速保存并退出文件—>",w"map<silent><leader>wq:wq<cr>"自动命令,每次写入.vimrc后,都会执行这个自动命令,source一次~/.vimrcautocmd!bufwritepost.vimrcsource~/.vimrc

Ⅱ Python 代码运行出现 TypeError: 'encoding' is an invalid keyword argument for this function怎么办

和python版本有关,如果是2.7版本的话,需要引用io库。即:import iodictionary = io.open(path, 'r', encoding='utf-8')

Ⅲ python中help命令可以查看关键字信息吗

摘要
您好,很高兴解答您的问题,关于您这个问题,是可以通过HELP达到您的要求的哦。

Ⅳ 为什么python中会出现这个错误TypeError: 'name' is an invalid keyword argument for print()

如果你要print字典 去掉星号就可以星号的作用主要是方便你传参的时候传不定个数的参数你上面的dict都已经是固定的了,用星号没意义

Ⅳ Python使用sort_values函数报错'ascending' is an invalid keyword argument for print()

F = ('n'.join(open('C:\\Users\\Administrator\\Desktop\\ID.txt','r', encoding='gbk').readlines()[b:c]))

Ⅵ Python 的函数是怎么传递参数的

首先你要明白,Python的函数传递方式是赋值,而赋值是通过建立变量与对象的关联回实现的。答对于你的代码:执行 d = 2时,你在__main__里创建了d,并让它指向2这个整型对象。执行函数add(d)过程中:d被传递给add()函数后,在函数内部,num也指向了__main__中的2但执行num = num + 10之后,新建了对象12,并让num指向了这个新对象——12。如果你明白函数中的局部变量与__main__中变量的区别,那么很显然,在__main__中,d仍在指着2这个对象,它没有改变。因此,你打印d时得到了2。如果你想让输出为12,最简洁的办法是:在函数add()里增加return num调用函数时使用d = add(d)代码如下:def add(num):num += 10return numd = 2d = add(d)print d

Ⅶ python函数统计字符串中字母数学其他字符的个数

代码如下:



text = "Hello Python,Hello 2021."letter = 0digital = 0other = 0for i in text:if i.isalpha():letter += 1elif i.isdigit():digital += 1else:other += 1print('字母:{} 数字:{} 其他:{}'.format(letter,digital,other))


输出:

字母:16 数字:4 其他:4


下面是Python内置关于判断字符串类型的方法介绍:

str.isalnum()

如果字符串中的所有字符都是字母或数字且至少有一个字符,则返回True, 否则返回False。 如果c.isalpha(),c.isdecimal(),c.isdigit(),或c.isnumeric()之中有一个返回True,则字符“c“是字母或数字。

str.isalpha()

如果字符串中的所有字符都是字母,并且至少有一个字符,返回True,否则返回False。字母字符是指那些在 Unicode 字符数据库中定义为 "Letter" 的字符,即那些具有 "Lm"、"Lt"、"Lu"、"Ll" 或 "Lo" 之一的通用类别属性的字符。 注意,这与 Unicode 标准中定义的"字母"属性不同。

str.isascii()

如果字符串为空或字符串中的所有字符都是 ASCII ,返回True,否则返回False。ASCII 字符的码点范围是 U+0000-U+007F 。

3.7 新版功能.

str.isdecimal()

如果字符串中的所有字符都是十进制字符且该字符串至少有一个字符,则返回True, 否则返回False。十进制字符指那些可以用来组成10进制数字的字符,例如 U+0660 ,即阿拉伯字母数字0 。 严格地讲,十进制字符是 Unicode 通用类别 "Nd" 中的一个字符。

str.isdigit()

如果字符串中的所有字符都是数字,并且至少有一个字符,返回True,否则返回False。 数字包括十进制字符和需要特殊处理的数字,如兼容性上标数字。这包括了不能用来组成 10 进制数的数字,如 Kharosthi 数。 严格地讲,数字是指属性值为 Numeric_Type=Digit 或 Numeric_Type=Decimal 的字符。

str.isidentifier()

如果字符串是有效的标识符,返回True,依据语言定义,标识符和关键字节。

调用keyword.iskeyword()来检测字符串s是否为保留标识符,例如def和class。

Ⅷ python 新浪微博爬虫,求助

0x00. 起因因为参加学校大学生创新竞赛,研究有关微博博文表达的情绪,需要大量微博博文,而网上无论是国内的某度、csdn,还是国外谷歌、gayhub、codeproject等都找不到想要的程序,没办法只能自己写一个程序了。ps.在爬盟找到类似的程序,但是是windows下的,并且闭源,而且最终爬取保存的文件用notepad++打开有很多奇怪的问题,所以放弃了。0x01. 基础知识本程序由Python写成,所以基本的python知识是必须的。另外,如果你有一定的计算机网络基础,在前期准备时会有少走很多弯路。对于爬虫,需要明确几点:1. 对爬取对象分类,可以分为以下几种:第一种是不需要登录的,比如博主以前练手时爬的中国天气网,这种网页爬取难度较低,建议爬虫新手爬这类网页;第二种是需要登录的,如豆瓣、新浪微博,这些网页爬取难度较高;第三种独立于前两种,你想要的信息一般是动态刷新的,如AJAX或内嵌资源,这种爬虫难度最大,博主也没研究过,在此不细举(据同学说淘宝的商品评论就属于这类)。2. 如果同一个数据源有多种形式(比如电脑版、手机版、客户端等),优先选取较为“纯净的”展现。比如新浪微博,有网页版,也有手机版,而且手机版可以用电脑浏览器访问,这时我优先选手机版新浪微博。3. 爬虫一般是将网页下载到本地,再通过某些方式提取出感兴趣的信息。也就是说,爬取网页只完成了一半,你还要将你感兴趣的信息从下载下来的html文件中提取出来。这时就需要一些xml的知识了,在这个项目中,博主用的是XPath提取信息,另外可以使用XQuery等等其他技术,详情请访问w3cschool。4. 爬虫应该尽量模仿人类,现在网站反爬机制已经比较发达,从验证码到禁IP,爬虫技术和反爬技术可谓不断博弈。0x02. 开始决定了爬虫的目标之后,首先应该访问目标网页,明确目标网页属于上述几种爬虫的哪种,另外,记录为了得到感兴趣的信息你需要进行的步骤,如是否需要登录,如果需要登录,是否需要验证码;你要进行哪些操作才能获得希望得到的信息,是否需要提交某些表单;你希望得到的信息所在页面的url有什么规律等等。以下博文以博主项目为例,该项目爬取特定新浪微博用户从注册至今的所有微博博文和根据关键词爬取100页微博博文(大约1000条)。0x03. 收集必要信息首先访问目标网页,发现需要登录,进入登录页面如下新浪微博手机版登录页面注意url后半段有很多形如”%xx”的转义字符,本文后面将会讲到。从这个页面可以看到,登录新浪微博手机版需要填写账号、密码和验证码。这个验证码是近期(本文创作于2016.3.11)才需要提供的,如果不需要提供验证码的话,将有两种方法进行登录。第一种是填写账号密码之后执行js模拟点击“登录”按钮,博主之前写过一个Java爬虫就是利用这个方法,但是现在找不到工程了,在此不再赘述。第二种需要一定HTTP基础,提交包含所需信息的HTTP POST请求。我们需要Wireshark 工具来抓取登录微博时我们发出和接收的数据包。如下图我抓取了在登录时发出和接收的数据包Wireshark抓取结果1在搜索栏提供搜索条件”http”可得到所有http协议数据包,右侧info显示该数据包的缩略信息。图中蓝色一行是POST请求,并且info中有”login”,可以初步判断这个请求是登录时发出的第一个数据包,并且这个180.149.153.4应该是新浪微博手机版登录认证的服务器IP地址,此时我们并没有任何的cookie。在序号为30是数据包中有一个从该IP发出的HTTP数据包,里面有四个Set-Cookie字段,这些cookie将是我们爬虫的基础。Wireshark抓取结果2早在新浪微博服务器反爬机制升级之前,登录是不需要验证码的,通过提交POST请求,可以拿到这些cookie,在项目源码中的TestCookie.py中有示例代码。ps.如果没有wireshark或者不想这么麻烦的话,可以用浏览器的开发者工具,以chrome为例,在登录前打开开发者工具,转到Network,登录,可以看到发出和接收的数据,登录完成后可以看到cookies,如下图chrome开发者工具接下来访问所需页面,查看页面url是否有某种规律。由于本项目目标之一是获取某用户的全部微博,所以直接访问该用户的微博页面,以央视新闻 为例。央视新闻1图为央视新闻微博第一页,观察该页面的url可以发现,新浪微博手机版的微博页面url组成是 “weibo.cn/(displayID)?page=(pagenum)” 。这将成为我们爬虫拼接url的依据。接下来查看网页源码,找到我们希望得到的信息的位置。打开浏览器开发者工具,直接定位某条微博,可以发现它的位置,如下所示。xpath观察html代码发现,所有的微博都在<div>标签里,并且这个标签里有两个属性,其中class属性为”c”,和一个唯一的id属性值。得到这个信息有助于将所需信息提取出来。另外,还有一些需要特别注意的因素* 微博分为原创微博和转发微博* 按照发布时间至当前时间的差距,在页面上有”MM分钟前”、”今天HH:MM”、”mm月dd日 HH:MM”、”yyyy-mm-dd HH:MM:SS”等多种显示时间的方式* 手机版新浪微博一个页面大约显示10条微博,所以要注意对总共页数进行记录以上几点都是细节,在爬虫和提取的时候需要仔细考虑。0x04. 编码1.爬取用户微博本项目开发语言是Python 2.7,项目中用了一些第三方库,第三方库可以用pip的方法添加。既然程序自动登录的想法被验证码挡住了,想要访问特定用户微博页面,只能使用者提供cookies了。首先用到的是Python的request模块,它提供了带cookies的url请求。import requestprint request.get(url, cookies=cookies).content使用这段代码就可以打印带cookies的url请求页面结果。首先取得该用户微博页面数,通过检查网页源码,查找到表示页数的元素,通过XPath等技术提取出页数。页数项目使用lxml模块对html进行XPath提取。首先导入lxml模块,在项目里只用到了etree,所以from lxml import etree然后利用下面的方法返回页数def getpagenum(self):url = self.geturl(pagenum=1)html = requests.get(url, cookies=self.cook).content # Visit the first page to get the page number.selector = etree.HTML(html)pagenum = selector.xpath('//input[@name="mp"]/@value')[0]return int(pagenum)接下来就是不断地拼接url->访问url->下载网页。需要注意的是,由于新浪反爬机制的存在,同一cookies访问页面过于“频繁”的话会进入类似于“冷却期”,即返回一个无用页面,通过分析该无用页面发现,这个页面在特定的地方会出现特定的信息,通过XPath技术来检查这个特定地方是否出现了特定信息即可判断该页面是否对我们有用。def ispageneeded(html):selector = etree.HTML(html)try:title = selector.xpath('//title')[0]except:return Falsereturn title.text != '微博广场' and title.text != '微博'如果出现了无用页面,只需简单地重新访问即可,但是通过后期的实验发现,如果长期处于过频访问,返回的页面将全是无用页面,程序也将陷入死循环。为了避免程序陷入死循环,博主设置了尝试次数阈值trycount,超过这个阈值之后方法自动返回。下面代码片展示了单线程爬虫的方法。def startcrawling(self, startpage=1, trycount=20):attempt = 0try:os.mkdir(sys.path[0] + '/Weibo_raw/' + self.wanted)except Exception, e:print str(e)isdone = Falsewhile not isdone and attempt < trycount:try:pagenum = self.getpagenum()isdone = Trueexcept Exception, e:attempt += 1if attempt == trycount:return Falsei = startpagewhile i <= pagenum:attempt = 0isneeded = Falsehtml = ''while not isneeded and attempt < trycount:html = self.getpage(self.geturl(i))isneeded = self.ispageneeded(html)if not isneeded:attempt += 1if attempt == trycount:return Falseself.savehtml(sys.path[0] + '/Weibo_raw/' + self.wanted + '/' + str(i) + '.txt', html)print str(i) + '/' + str(pagenum – 1)i += 1return True考虑到程序的时间效率,在写好单线程爬虫之后,博主也写了多线程爬虫版本,基本思想是将微博页数除以线程数,如一个微博用户有100页微博,程序开10个线程,那么每个线程只负责10个页面的爬取,其他基本思想跟单线程类似,只需仔细处理边界值即可,在此不再赘述,感兴趣的同学可以直接看代码。另外,由于多线程的效率比较高,并发量特别大,所以服务器很容易就返回无效页面,此时trycount的设置就显得更重要了。博主在写这篇微博的时候,用一个新的cookies,多线程爬取现场测试了一下爬取北京邮电大学的微博,3976条微博全部爬取成功并提取博文,用时仅15s,实际可能跟cookies的新旧程度和网络环境有关,命令行设置如下,命令行意义在项目网址里有说明python main.py _T_WM=xxx; SUHB=xxx; SUB=xxx; gsid_CTandWM=xxx u bupt m 20 20爬取的工作以上基本介绍结束,接下来就是爬虫的第二部分,解析了。由于项目中提供了多线程爬取方法,而多线程一般是无序的,但微博博文是依靠时间排序的,所以项目采用了一种折衷的办法,将下载完成的页面保存在本地文件系统,每个页面以其页号为文件名,待爬取的工作结束后,再遍历文件夹内所有文件并解析。通过前面的观察,我们已经了解到微博博文存在的标签有什么特点了,利用XPath技术,将这个页面里所有有这个特点的标签全部提取出来已经不是难事了。在这再次提醒,微博分为转发微博和原创微博、时间表示方式。另外,由于我们的研究课题仅对微博文本感兴趣,所以配图不考虑。def startparsing(self, parsingtime=datetime.datetime.now()):basepath = sys.path[0] + '/Weibo_raw/' + self.uidfor filename in os.listdir(basepath):if filename.startswith('.'):continuepath = basepath + '/' + filenamef = open(path, 'r')html = f.read()selector = etree.HTML(html)weiboitems = selector.xpath('//div[@class="c"][@id]')for item in weiboitems:weibo = Weibo()weibo.id = item.xpath('./@id')[0]cmt = item.xpath('./div/span[@class="cmt"]')if len(cmt) != 0:weibo.isrepost = Trueweibo.content = cmt[0].textelse:weibo.isrepost = Falsectt = item.xpath('./div/span[@class="ctt"]')[0]if ctt.text is not None:weibo.content += ctt.textfor a in ctt.xpath('./a'):if a.text is not None:weibo.content += a.textif a.tail is not None:weibo.content += a.tailif len(cmt) != 0:reason = cmt[1].text.split(u'\xa0')if len(reason) != 1:weibo.repostreason = reason[0]ct = item.xpath('./div/span[@class="ct"]')[0]time = ct.text.split(u'\xa0')[0]weibo.time = self.gettime(self, time, parsingtime)self.weibos.append(weibo.__dict__)f.close()方法传递的参数parsingtime的设置初衷是,开发前期爬取和解析可能不是同时进行的(并不是严格的“同时”),微博时间显示是基于访问时间的,比如爬取时间是10:00,这时爬取到一条微博显示是5分钟前发布的,但如果解析时间是10:30,那么解析时间将错误,所以应该讲解析时间设置为10:00。到后期爬虫基本开发完毕,爬取工作和解析工作开始时间差距降低,时间差将是爬取过程时长,基本可以忽略。解析结果保存在一个列表里,最后将这个列表以json格式保存到文件系统里,删除过渡文件夹,完成。def save(self):f = open(sys.path[0] + '/Weibo_parsed/' + self.uid + '.txt', 'w')jsonstr = json.mps(self.weibos, indent=4, ensure_ascii=False)f.write(jsonstr)f.close()2.爬取关键词同样的,收集必要的信息。在微博手机版搜索页面敲入”python”,观察url,研究其规律。虽然第一页并无规律,但是第二页我们发现了规律,而且这个规律可以返回应用于第一页第一页第二页应用后第一页观察url可以发现,对于关键词的搜索,url中的变量只有keyword和page(事实上,hideSearchFrame对我们的搜索结果和爬虫都没有影响),所以在代码中我们就可以对这两个变量进行控制。另外,如果关键词是中文,那么url就需要对中文字符进行转换,如我们在搜索框敲入”开心”并搜索,发现url如下显示搜索开心但复制出来却为http://weibo.cn/search/mblog?hideSearchFrame=&keyword=%E5%BC%80%E5%BF%83&page=1幸好,python的urllib库有qoute方法处理中文转换的功能(如果是英文则不做转换),所以在拼接url前使用这个方法处理一下参数。另外,考虑到关键词搜索属于数据收集阶段使用的方法,所以在此只提供单线程下载网页,如有多线程需要,大家可以按照多线程爬取用户微博的方法自己改写。最后,对下载下来的网页进行提取并保存(我知道这样的模块设计有点奇怪,打算重(xin)构(qing)时(hao)时再改,就先这样吧)。def keywordcrawling(self, keyword):realkeyword = urllib.quote(keyword) # Handle the keyword in Chinese.try:os.mkdir(sys.path[0] + '/keywords')except Exception, e:print str(e)weibos = []try:highpoints = re.compile(u'[\U00010000-\U0010ffff]') # Handle emoji, but it seems doesn't work.except re.error:highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')pagenum = 0isneeded = Falsewhile not isneeded:html = self.getpage('http://weibo.cn/search/mblog?keyword=%s&page=1' % realkeyword)isneeded = self.ispageneeded(html)if isneeded:selector = etree.HTML(html)try:pagenum = int(selector.xpath('//input[@name="mp"]/@value')[0])except:pagenum = 1for i in range(1, pagenum + 1):try:isneeded = Falsewhile not isneeded:html = self.getpage('http://weibo.cn/search/mblog?keyword=%s&page=%s' % (realkeyword, str(i)))isneeded = self.ispageneeded(html)selector = etree.HTML(html)weiboitems = selector.xpath('//div[@class="c"][@id]')for item in weiboitems:cmt = item.xpath('./div/span[@class="cmt"]')if (len(cmt)) == 0:ctt = item.xpath('./div/span[@class="ctt"]')[0]if ctt.text is not None:text = etree.tostring(ctt, method='text', encoding="unicode")tail = ctt.tailif text.endswith(tail):index = -len(tail)text = text[1:index]text = highpoints.sub(u'\u25FD', text) # Emoji handling, seems doesn't work.weibotext = textweibos.append(weibotext)print str(i) + '/' + str(pagenum)except Exception, e:print str(e)f = open(sys.path[0] + '/keywords/' + keyword + '.txt', 'w')try:f.write(json.mps(weibos,indent=4,ensure_ascii=False))except Exception,ex:print str(ex)finally:f.close()博主之前从未写过任何爬虫程序,为了获取新浪微博博文,博主先后写了3个不同的爬虫程序,有Python,有Java,爬虫不能用了是很正常的,不要气馁,爬虫程序和反爬机制一直都在不断博弈中,道高一尺魔高一丈。另. 转载请告知博主,如果觉得博主帅的话就可以不用告知了