国产高清网站_亚洲一区二区综合_成人久久18免费网站_国产成人久久精品激情

您現(xiàn)在所在的位置:首頁 >關(guān)于奇酷 > 媒體報(bào)道 > 年關(guān)到了,欠下的Python爬蟲“亂碼”改完了嗎?!

年關(guān)到了,欠下的Python爬蟲“亂碼”改完了嗎?!

來源:奇酷教育 發(fā)表于:

現(xiàn)指的是指快過年了,Python爬取網(wǎng)站時,欠下的亂碼還沒有改完!

  所謂年關(guān),指農(nóng)歷年底。舊時欠租、負(fù)債的人在這時需要清償債務(wù),過年像過關(guān)一樣,所以稱為年關(guān)。
 
  現(xiàn)指的是指快過年了,Python爬取網(wǎng)站時,欠下的亂碼還沒有改完!
 
  一、亂碼問題的出現(xiàn)
 
  以爬取51job網(wǎng)站舉例,講講為何會出現(xiàn)“亂碼”問題,如何解決它以及其背后的機(jī)制。
 
  代碼示例:
  顯示結(jié)果:
 
  打印res.text時,發(fā)現(xiàn)了什么?中文亂碼!!!不過發(fā)現(xiàn),網(wǎng)頁的字符集類型采用的gbk編碼格式。
 
  我們知道Requests 會基于 HTTP 頭部對響應(yīng)的編碼作出有根據(jù)的推測。當(dāng)你訪問 r.text 之時,Requests 會使用其推測的文本編碼。你可以找出 Requests 使用了什么編碼,并且能夠使用r.encoding 屬性來改變它。
 
  接下來,我們一起通過resquests的一些用法,來看看Requests 會基于 HTTP 頭部對響應(yīng)的編碼方式。
 
  輸出結(jié)果為:
 
  可以發(fā)現(xiàn)Requests 推測的文本編碼(也就是網(wǎng)頁返回即爬取下來后的編碼轉(zhuǎn)換)與源網(wǎng)頁編碼不一致,由此可知其正是導(dǎo)致亂碼原因。
 
  二、亂碼背后的奧秘
 
  當(dāng)源網(wǎng)頁編碼和爬取下來后的編碼轉(zhuǎn)換不一致時,如源網(wǎng)頁為gbk編碼的字節(jié)流,而我們抓取下后程序直接使用utf-8進(jìn)行編碼并輸出到存儲文件中,這必然會引起亂碼,即當(dāng)源網(wǎng)頁編碼和抓取下來后程序直接使用處理編碼一致時,則不會出現(xiàn)亂碼,此時再進(jìn)行統(tǒng)一的字符編碼也就不會出現(xiàn)亂碼了。最終爬取的所有網(wǎng)頁無論何種編碼格式,都轉(zhuǎn)化為utf-8格式進(jìn)行存儲。
 
  注意:區(qū)分源網(wǎng)編碼A-gbk、程序直接使用的編碼B-ISO-8859-1、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。
 
  在此,我們拓展講講unicode、ISO-8859-1、gbk2312、gbk、utf-8等之間的區(qū)別聯(lián)系,大概如下:
 
  最早的編碼是iso8859-1,和ascii編碼相似。但為了方便表示各種各樣的語言,逐漸出現(xiàn)了很多標(biāo)準(zhǔn)編碼。iso8859-1屬于單字節(jié)編碼,最多能表示的字符范圍是0-255,應(yīng)用于英文系列。很明顯,iso8859-1編碼表示的字符范圍很窄,無法表示中文字符。
 
  年中國人民通過對 ASCII 編碼的中文擴(kuò)充改造,產(chǎn)生了 GB2312 編碼,可以表示6000多個常用漢字。但漢字實(shí)在是太多了,包括繁體和各種字符,于是產(chǎn)生了 GBK 編碼,它包括了 GB2312 中的編碼,同時擴(kuò)充了很多。中國又是個多民族國家,各個民族幾乎都有自己獨(dú)立的語言系統(tǒng),為了表示那些字符,繼續(xù)把 GBK 編碼擴(kuò)充為 GB18030 編碼。每個國家都像中國一樣,把自己的語言編碼,于是出現(xiàn)了各種各樣的編碼,如果你不安裝相應(yīng)的編碼,就無法解釋相應(yīng)編碼想表達(dá)的內(nèi)容。終于,有個叫 ISO 的組織看不下去了。他們一起創(chuàng)造了一種編碼 UNICODE ,這種編碼非常大,大到可以容納世界上任何一個文字和標(biāo)志。所以只要電腦上有 UNICODE 這種編碼系統(tǒng),無論是全球哪種文字,只需要保存文件的時候,保存成 UNICODE 編碼就可以被其他電腦正常解釋。UNICODE 在網(wǎng)絡(luò)傳輸中,出現(xiàn)了兩個標(biāo)準(zhǔn) UTF-8 和 UTF-16,分別每次傳輸 8個位和 16個位。于是就會有人產(chǎn)生疑問,UTF-8 既然能保存那么多文字、符號,為什么國內(nèi)還有這么多使用 GBK 等編碼的人?因?yàn)?UTF-8 等編碼體積比較大,占電腦空間比較多,如果面向的使用人群絕大部分都是中國人,用 GBK 等編碼也可以。
 
  也可以這樣來理解:字符串是由字符構(gòu)成,字符在計(jì)算機(jī)硬件中通過二進(jìn)制形式存儲,這種二進(jìn)制形式就是編碼。如果直接使用 “字符串??字符??二進(jìn)制表示(編碼)” ,會增加不同類型編碼之間轉(zhuǎn)換的復(fù)雜性。所以引入了一個抽象層,“字符串??字符??與存儲無關(guān)的表示??二進(jìn)制表示(編碼)” ,這樣,可以用一種與存儲無關(guān)的形式表示字符,不同的編碼之間轉(zhuǎn)換時可以先轉(zhuǎn)換到這個抽象層,然后再轉(zhuǎn)換為其他編碼形式。在這里,unicode 就是 “與存儲無關(guān)的表示”,utf—8 就是 “二進(jìn)制表示”。
 
  三、亂碼的解決方法
 
  根據(jù)原因來找解決方法,就非常簡單了。
 
  方法一:直接指定res.encoding
 
  方法二:
 
  通過res.apparent_encoding屬性指定
 
  方法三:通過編碼、解碼的方式
 
  輸出結(jié)果:

 
  基本思路三步走:確定源網(wǎng)頁的編碼A---gbk、程序通過編碼B---ISO-8859-1對源網(wǎng)頁數(shù)據(jù)還原、統(tǒng)一轉(zhuǎn)換字符的編碼C-utf-8。至于為啥為出現(xiàn)統(tǒng)一轉(zhuǎn)碼這一步呢? 網(wǎng)絡(luò)爬蟲系統(tǒng)數(shù)據(jù)來源很多,不可能使用數(shù)據(jù)時,再轉(zhuǎn)化為其原始的數(shù)據(jù),假使這樣做是很廢事的。所以一般的爬蟲系統(tǒng)都要對抓取下來的結(jié)果進(jìn)行統(tǒng)一編碼,從而在使用時做到一致對外,方便使用。
 
  比如如果我們想講網(wǎng)頁數(shù)據(jù)保存下來,則會將起轉(zhuǎn)為utf-8,代碼如下:

 
  四、總結(jié)
 
  關(guān)于網(wǎng)絡(luò)爬蟲亂碼問題,本文不僅給出了一個解決方案,還深入到其中的原理,由此問題引申出很多有意思的問題,如,utf-8、gbk、gb2312的編碼方式怎樣的?為什么這樣轉(zhuǎn)化就可以解決問題?
 
  文章精選
 
  圍觀
 
  爬蟲實(shí)戰(zhàn)丨高能預(yù)警!抖音小姐姐視頻集來了!
 
  熱文
 
  天Python訓(xùn)練營;干貨+實(shí)戰(zhàn)萬元禮包免費(fèi)領(lǐng)!
 
  學(xué)習(xí)像闖關(guān)太難,戳原文底部人生三級跳
国产高清网站_亚洲一区二区综合_成人久久18免费网站_国产成人久久精品激情

    <sup id="ys8cw"><kbd id="ys8cw"></kbd></sup>

    <sup id="ys8cw"><font id="ys8cw"><output id="ys8cw"></output></font></sup>

    91在线精品一区二区三区| 欧美日韩国产免费| 国产乱子伦视频一区二区三区 | 美脚の诱脚舐め脚责91| 一区二区三区四区av| 国产精品免费看片| 欧美国产在线观看| 久久久蜜桃精品| 精品久久久网站| 欧美成va人片在线观看| 欧美成人一级视频| 精品久久国产字幕高潮| 欧美mv日韩mv亚洲| 欧美tickle裸体挠脚心vk| 欧美电影免费观看完整版| 欧美精品vⅰdeose4hd| 欧美色综合网站| 91精品国产手机| 日韩视频免费观看高清完整版 | 国产精品国产三级国产aⅴ无密码| xf在线a精品一区二区视频网站| 欧美mv日韩mv亚洲| 精品av久久707| 国产欧美精品一区二区色综合 | 蜜桃av噜噜一区二区三区小说| 午夜久久电影网| 蜜桃视频在线观看一区| 久草中文综合在线| 国产精品一品视频| av电影在线观看一区| 色婷婷激情综合| 欧美日韩一二区| 日韩免费观看高清完整版| 久久综合九色综合欧美亚洲| 久久久久一区二区三区四区| 国产精品你懂的在线欣赏| 亚洲欧美激情视频在线观看一区二区三区| 亚洲另类在线制服丝袜| 亚洲.国产.中文慕字在线| 另类小说欧美激情| 国产成人综合精品三级| 色悠悠亚洲一区二区| 欧美猛男超大videosgay| 精品国产麻豆免费人成网站| 国产精品久久久久久久久快鸭 | 图片区小说区国产精品视频| 免费欧美高清视频| 国产aⅴ精品一区二区三区色成熟| 日韩欧美精品在线视频| 国产精品色呦呦| 亚洲国产cao| 国内成人自拍视频| 日本高清不卡aⅴ免费网站| 欧美精品一级二级三级| 国产日产欧美精品一区二区三区| 亚洲日本va午夜在线影院| 天天做天天摸天天爽国产一区| 国产精品一二三四| 欧美色网站导航| 久久精品一区二区三区av| 亚洲欧美韩国综合色| 久久国产人妖系列| 日本韩国欧美在线| 久久久www成人免费毛片麻豆 | 国产三级精品三级| 亚洲午夜羞羞片| 国产成人午夜99999| 在线观看一区二区视频| 欧美精品一区男女天堂| 一区二区高清免费观看影视大全 | 99久久婷婷国产综合精品电影| 3d动漫精品啪啪一区二区竹菊| 国产精品高潮呻吟| 美腿丝袜在线亚洲一区| 一本色道久久综合亚洲aⅴ蜜桃| 欧美大片一区二区| 一区二区欧美在线观看| 国产成人精品综合在线观看| 欧美日韩国产美| 有码一区二区三区| 国产69精品久久777的优势| 日韩欧美一二三区| 天天做天天摸天天爽国产一区| 色综合一区二区三区| 国产亚洲婷婷免费| 精一区二区三区| 日韩一区二区三区视频在线| 亚洲成人免费影院| 色88888久久久久久影院野外| 中文字幕国产一区| 国产一区二区三区观看| 欧美电影免费观看高清完整版在 | 波多野结衣91| 国产亚洲精品bt天堂精选| 激情欧美日韩一区二区| 91精品国产综合久久久久久久 | 欧美亚洲国产bt| 精品裸体舞一区二区三区| 午夜精品福利一区二区三区蜜桃| 在线免费av一区| 国产午夜亚洲精品羞羞网站| 日韩精品成人一区二区在线| 91丨国产丨九色丨pron| 国产午夜一区二区三区| 麻豆精品国产传媒mv男同| 6080亚洲精品一区二区| 亚洲国产毛片aaaaa无费看| 国产精品一二一区| 日韩欧美国产综合| 日韩av一区二区三区四区| 色噜噜狠狠成人中文综合| 亚洲精品视频在线| 不卡av电影在线播放| 国产性做久久久久久| 久久99热国产| 欧美不卡在线视频| 日本成人在线网站| 欧美不卡一区二区三区四区| 免费一区二区视频| 在线免费观看成人短视频| 亚洲精品国产无套在线观| 一区在线观看免费| 国产精品一品视频| 精品少妇一区二区三区免费观看 | 天天爽夜夜爽夜夜爽精品视频| 色999日韩国产欧美一区二区| 亚洲欧美国产三级| eeuss影院一区二区三区| 国产精品福利影院| 北岛玲一区二区三区四区| 一色屋精品亚洲香蕉网站| 99re亚洲国产精品| 亚洲线精品一区二区三区八戒| 欧美日韩精品福利| 日韩影院免费视频| 日本高清不卡视频| 亚洲国产欧美一区二区三区丁香婷| 97se亚洲国产综合自在线观| 中文字幕佐山爱一区二区免费| 91免费看片在线观看| 综合分类小说区另类春色亚洲小说欧美| 91美女在线观看| 亚洲国产婷婷综合在线精品| 不卡区在线中文字幕| 亚洲乱码国产乱码精品精小说| 欧美亚洲国产bt| 亚洲欧洲性图库| 日韩一区二区三区三四区视频在线观看| 麻豆国产精品官网| 日韩亚洲欧美在线观看| 精品亚洲porn| 亚洲色图色小说| 99久免费精品视频在线观看| 亚洲一区二区在线免费观看视频 | 欧美精品777| 国产一区二区视频在线| 国产精品私人自拍| 欧美色网一区二区| 国产99一区视频免费| 亚洲视频每日更新| 91精品国产一区二区三区| 国产精品原创巨作av| 欧美国产日本视频| 91精品国产手机| 国产91在线观看丝袜| 亚洲视频资源在线| 欧美老女人第四色| 99精品在线观看视频| 爽爽淫人综合网网站| 久久久精品tv| 欧美日韩免费观看一区三区| 日韩av成人高清| 一区二区三区在线播放| 精品国产网站在线观看| 91丨porny丨首页| 老司机精品视频线观看86 | 日韩成人一区二区| 精品国产一区二区三区四区四| 一本大道久久a久久精品综合| 蜜桃在线一区二区三区| 久久婷婷成人综合色| 欧美四级电影在线观看| 国产精品69毛片高清亚洲| 婷婷六月综合网| 亚洲欧美综合网| 久久蜜桃一区二区| 欧美色成人综合| 国产制服丝袜一区| 亚洲国产成人91porn| 国产精品天干天干在观线| 欧美日韩高清一区二区不卡| 成人97人人超碰人人99| 国产精品亚洲视频| 天堂精品中文字幕在线| 一色屋精品亚洲香蕉网站| 精品国产污污免费网站入口 | 欧美日韩国产经典色站一区二区三区| 国产成人av一区二区三区在线| 天天av天天翘天天综合网 | 高潮精品一区videoshd|