8 月 2018

获取网页中所有的文字

2018年8月17日没有评论

# encoding=utf8

import sys

reload(sys)

sys.setdefaultencoding('utf8')

import re
import requests
from bs4 import BeautifulSoup


html = requests.get('https://mp.weixin.qq.com/s?src=11×tamp=1533887718&ver=1051&signature=Xszdx5nmmHyebcH0MXxyHi7-jDwGoNDUDXCHJzPVic68tXGRSTiM3CStUDfSR*aALaC3nK3Ez4e33uLR5ir1pLgy3vEvWXWOvVXgAbsXMn5fB-HWboOW26GH*KMRVhgX&new=1')
soup = BeautifulSoup(html.text, "html5lib")
data = soup.findAll(text=True)


def visible(element):
    if element.parent.name in ['style', 'script', '[document]', 'head', 'title']:
        return False
    elif re.match('', str(element.encode('utf-8'))):
        return False
    return True


result = filter(visible, data)

with open('res.txt', "w+") as p:
    for i in result:
        print(str(i))
        p.write(str(i))


print list(result)

本站所破解的程序仅限于分析研究使用，不可用于非法用途，如果喜欢该软件请购买正版。由于程序所造成的损失本人概不负责。(Findu App由于阿里旺信服务关闭，暂时停止推荐，如果想和我一块开发，请联系我~~)

QQ：382291381
QQ群：777692920

本站其他域名列表(301跳转本站)：

da.bi oba.by nai.dog lang.bi lang.ma h4ck.ws loli.gifts danteng.me zhongxiaojie.com zhongxiaojie.cn

obaby on 龙葵: “是啊，说不定什么时候就嗝屁了” 11 月 17, 15:57
梦 on 龙葵: “到目前位置已经熬死了无数的服务，好用的，…” 11 月 17, 15:48
obaby on 龙葵: “开源系统各种版本不兼容，常规操作了属于。” 11 月 17, 14:19
dujun on 龙葵: “看到升级我第一念头是真烦，又要迁移数据库…” 11 月 17, 14:13
obaby on 龙葵: “(:dance:)” 11 月 17, 13:09
obaby on 我的足迹【终极完整版】 — 我又更新啦！！！: “丑不丑的我倒是觉得也没啥，这弹窗贼啦恶心” 11 月 17, 13:09
obaby on ❤️闺蜜圈（大姨妈记录） APP/H5/小程序[置顶] — 4.0.19（更新时间：2025.11.14）: “欢迎使用哦～～” 11 月 17, 13:09
满心 on 龙葵: “第一张很赞，好看” 11 月 17, 11:27

2018 年 8 月
日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31