套图网爬虫[预览版] 23.07.02–天啦噜,有人来砸姐姐场子啦!

之前有人在评论区留言,想让姐姐加一个网站爬虫。但是呢,随便搂了一眼发现是wp的系统,和之前做的页面完全不兼容啊。就没想做,结果好嘛。这两天有人在后台留言了,说感谢提供的网址,然后ta自己写了一个。最重要的是还不共享,这姐姐能忍?叔能忍,婶不能忍啊!!

再然后,姐姐就用了半小时改造了下代码,一个新的爬虫就粗线啦~~~噜噜噜

已经测试功能:
1.整站爬取
2.搜索功能
未测试功能:
分类爬取

参数说明,跟其他的爬虫是一样的哦,姐姐就是这么百搭(主要是真不想从头写)

C:\Users\obaby>F:\Pycharm_Projects\meitulu-spider\dist\taotu.uk.exe
****************************************************************************************************
       _           _             ____
  ___ | |__   __ _| |__  _   _  / __ \ _ __ ___   __ _ _ __ ___
 / _ \| '_ \ / _` | '_ \| | | |/ / _` | '_ ` _ \ / _` | '__/ __|
| (_) | |_) | (_| | |_) | |_| | | (_| | | | | | | (_| | |  \__ \
 \___/|_.__/ \__,_|_.__/ \__, |\ \__,_|_| |_| |_|\__,_|_|  |___/
                         |___/  \____/

套图网爬虫[预览版] 23.07.02
当前服务器地址:https://taotu.uk
Blog: http://oba.by
姐姐的上面的域名怎样啊?说不好的不让用!!哼!!
****************************************************************************************************
USAGE:
spider -h <help> -a <all> -q <search>
Arguments:
         -a <download all site images>
         -q <query the image with keywords>
         -h <display help text, just this>
Option Arguments:
         -p <image download path>
         -r <random index category list>
         -c <single category url>
         -e <early stop, work in site crawl mode only>
         -s <site url eg: https://www.xrmnw.cc (no last backslash "/")>
****************************************************************************************************

文件哈希:

名称: taotu.uk_win_20230702.7z
大小: 15471940 字节 (14 MiB)
CRC32: A492DA4E
CRC64: 07A719FBD7E8F3DE
SHA256: 2a6456d5eeab6f2a9f6b2134ca293dc804fa2650a3852c9d6b81bacdd15d22fb
SHA1: c28978445257c9677eff8e5fe43d8b74567f3057
BLAKE2sp: aca78e762fd6594c09c01aac0ddbeb58b2331645aa9fb92691e0a759dd0e0213s

使用方法:

https://h4ck.org.cn/2023/06/%E5%A6%82%E4%BD%95%E8%BF%90%E8%A1%8C%E5%91%BD%E4%BB%A4%E8%A1%8C%E5%B7%A5%E5%85%B7-%E7%A7%91%E6%99%AE%E5%90%91/

下载链接:

网站主题更新,该版本已经无法下载,需要新版本请留言

☆版权☆

* 网站名称:obaby@mars
* 网址:https://lang.ma/
* 个性:https://oba.by/
* 本文标题: 《套图网爬虫[预览版] 23.07.02–天啦噜,有人来砸姐姐场子啦!》
* 本文链接:https://lang.ma/2023/07/12389
* 短链接:https://oba.by/?p=12389
* 转载文章请标明文章来源,原文标题以及原文链接。请遵从 《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。


You may also like

17 comments

  1.  Level 5
    Opera 99 Opera 99 Mac OS X 10.15 Mac OS X 10.15 cn北京市 联通

    其实我一直不理解,为啥你孜孜不倦的写爬虫,,,我了解的,一般都是干黑产的人,一天到晚的爬这些,然后做网站,赚钱,,,,

      1.  Level 5
        Opera 99 Opera 99 Mac OS X 10.15 Mac OS X 10.15 cn北京市 联通

        黑产确实不好做,现在黑产做的都是吃牢饭买卖,打工人受不了这个惊吓。

        1. 公主 Queen 
          Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省青岛市 移动

          一条万能律条《非法入侵计算机系统罪》,想怎么定义怎么定义。 laugh

    1. 公主 Queen 
      Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省青岛市 移动

      另外,黑产这个东西也没什么思路。不好干,果断还是不干了吧。

  2. Level 5
    Google Chrome 114 Google Chrome 114 Windows 10 Windows 10 us美国 惠普公司

    大佬这技术是信手拈来啊。

    1. 公主 Queen 
      Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省青岛市 移动

      :-(关键是别说一半啊,写了个爬虫还不发。这就很讨厌呢

    1. 公主 Queen 
      Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省济南市 移动

      最主要的原因可能是太千篇一律了吧,连整形现在都流水线生产了。标准的蛇精脸,所以也正常。现在偶尔瞄一眼国产电视剧,我都分不清谁是谁。 dance

  3.  Level 6
    Google Chrome 114 Google Chrome 114 Mac OS X 10.15 Mac OS X 10.15 cn浙江省衢州市 移动

    这个网站也好,图片不用分页

    1. 公主 Queen 
      Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn山东省青岛市 移动

      嗯嗯,比较简洁。不过说实话,wp的分页机制确实是不大好用。

  4.  Level 4
    Microsoft Edge 114 Microsoft Edge 114 Windows 10 Windows 10 cn广东省深圳市 电信

    确实无法下了,要更新才行

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注