2021年6月16日

美图录爬虫

2021年6月16日 15 条评论

****************************************************************************************************
       _           _             ____                           
  ___ | |__   __ _| |__  _   _  / __ \ _ __ ___   __ _ _ __ ___ 
 / _ \| '_ \ / _` | '_ \| | | |/ / _` | '_ ` _ \ / _` | '__/ __|
| (_) | |_) | (_| | |_) | |_| | | (_| | | | | | | (_| | |  \__ \
 \___/|_.__/ \__,_|_.__/ \__, |\ \__,_|_| |_| |_|\__,_|_|  |___/
                         |___/  \____/                          

美图录爬虫
Verson: 21.6.15
Blog: http://www.h4ck.org.cn
****************************************************************************************************
****************************************************************************************************
[*] 2021-06-16 21:00:11 CAT: 开始分析分类信息......
[*] 2021-06-16 21:00:11 泳装: http://www.meitulu.cn/t/yongzhuang/
[*] 2021-06-16 21:00:11 可爱: http://www.meitulu.cn/t/keai/
[*] 2021-06-16 21:00:11 日本美女: http://www.meitulu.cn/t/ribenmeinv/

业余爱好『Favourite』

BeautifulSoup4 中文乱码

2021年6月16日没有评论

BeautifulSoup4解析页面的时候发现有一部分内容是乱码，刚开始还以为是pycharm的问题，后来发现可能问题不是出在pycharm上，因为普通的print打印的中文是没有问题的。测试代码如下：

def proxy_get(url):
    if is_use_proxy:
        socks.set_default_proxy(socks.SOCKS5, PROXY_HOST, PROXY_PORT)
        socket.socket = socks.socksocket
    req = requests.get(url, headers=HEADERS)
    return req.text


def get_sub_pages_test(url):
    '''
    http://www.meitulu.cn/t/shishen/
    :param url:
    :return:
    '''
    bs = BeautifulSoup(proxy_get(url), "html.parser")
    boxes = bs.find('div', class_='boxs')
    lis = boxes.find_all('li')
    log_text('PAGE', '开始分析页面链接', is_begin=True)
    for l in lis:
        p = l.find('p', class_='p_title')
        print( p.text)

本站所破解的程序仅限于分析研究使用，不可用于非法用途，如果喜欢该软件请购买正版。由于程序所造成的损失本人概不负责。(Findu App由于阿里旺信服务关闭，暂时停止推荐，如果想和我一块开发，请联系我~~)

QQ：382291381
QQ群：777692920

本站其他域名列表(301跳转本站)：

da.bi oba.by nai.dog lang.bi lang.ma h4ck.ws loli.gifts danteng.me zhongxiaojie.com zhongxiaojie.cn

满心 on 龙葵: “第一张很赞，好看” 11 月 17, 11:27
Lvtu on 我的足迹【终极完整版】 — 我又更新啦！！！: “我也是用的BD地图，说实话，感觉BD地图…” 11 月 17, 11:00
Lvtu on ❤️闺蜜圈（大姨妈记录） APP/H5/小程序[置顶] — 4.0.19（更新时间：2025.11.14）: “膜拜大神~~” 11 月 17, 10:53
obaby on ※呢喃/Msg※: “加好啦” 11 月 17, 10:38
手里有只毛毛虫 on ※呢喃/Msg※: “姐姐姐姐，加个友链呗！ (:curts…” 11 月 17, 09:53
obaby on 龙葵: “嘻嘻，我也喜欢” 11 月 17, 09:03
obaby on 龙葵: “各种扫描器，太常见了，尤其是用户量大的系…” 11 月 17, 09:02
obaby on 龙葵: “这个东西其实蛮常见的，不过可能很多人没吃…” 11 月 17, 09:02

2021 年 6 月
日	一	二	三	四	五	六
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

美图录 爬虫

BeautifulSoup4 中文乱码

美图录爬虫