套图网爬虫[预览版] 23.07.07

更新日志:
兼容新版网站主题

参数说明:
C:\Users\obaby>F:\Pycharm_Projects\meitulu-spider\dist\taotu.uk.exe
****************************************************************************************************
       _           _             ____
  ___ | |__   __ _| |__  _   _  / __ \ _ __ ___   __ _ _ __ ___
 / _ \| '_ \ / _` | '_ \| | | |/ / _` | '_ ` _ \ / _` | '__/ __|
| (_) | |_) | (_| | |_) | |_| | | (_| | | | | | | (_| | |  \__ \
 \___/|_.__/ \__,_|_.__/ \__, |\ \__,_|_| |_| |_|\__,_|_|  |___/
                         |___/  \____/

套图网爬虫[预览版] 23.07.07
当前服务器地址:https://taotu.uk
Blog: http://oba.by
姐姐的上面的域名怎样啊?说不好的不让用!!哼!!
****************************************************************************************************
USAGE:
spider -h <help> -a <all> -q <search>
Arguments:
         -a <download all site images>
         -q <query the image with keywords>
         -h <display help text, just this>
Option Arguments:
         -p <image download path>
         -r <random index category list>
         -c <single category url>
         -e <early stop, work in site crawl mode only>
         -s <site url eg: https://www.xrmnw.cc (no last backslash "/")>
****************************************************************************************************

文件哈希:

名称: taotu.uk_win_20230707.7z
大小: 15471894 字节 (14 MiB)
CRC32: AC1F40AE
CRC64: F38F73BB09A04B25
SHA256: 144697e661dd9dc6cdc051f169513bb746b9b583d1b0affc659866f3e3570562
SHA1: 135b4b7a3cb21e3427ae8c4c0c3eefbf3bc17889
BLAKE2sp: d100ea89e4de1ae4f9e1746a92b0c395c70c062f8bd6340fb93849be140ad3dc

使用方法:

https://h4ck.org.cn/2023/06/%E5%A6%82%E4%BD%95%E8%BF%90%E8%A1%8C%E5%91%BD%E4%BB%A4%E8%A1%8C%E5%B7%A5%E5%85%B7-%E7%A7%91%E6%99%AE%E5%90%91/

下载地址:

温馨提示: 此处隐藏内容需要发表评论,并且审核通过后才能查看。
(发表评论请勾选 在此浏览器中保存我的显示名称、邮箱地址和网站地址,以便下次评论时使用。
(请仔细检查自己的昵称和评论内容,以免被识别为垃圾评论而导致无法正常审核。)

 

 

☆版权☆

* 网站名称:obaby@mars
* 网址:https://oba.by/
* 个性:https://oba.by/
* 本文标题: 《套图网爬虫[预览版] 23.07.07》
* 本文链接:https://www.oba.by/2023/07/12448
* 短链接:https://oba.by/?p=12448
* 转载文章请标明文章来源,原文标题以及原文链接。请遵从 《署名-非商业性使用-相同方式共享 2.5 中国大陆 (CC BY-NC-SA 2.5 CN) 》许可协议。


You may also like

33 comments

    1. 公主 Queen 
      Google Chrome 112 Google Chrome 112 Windows 10 Windows 10 cn中国–山东–临沂 联通

      可以看随机小姐姐,目前已经有一千多张图片了。哈哈

  1.  Level 1
    Microsoft Edge 106 Microsoft Edge 106 Windows 10 Windows 10 cn中国–安徽–淮南 电信

    感谢博主及时更新

  2.   Level 7
    Safari 16 Safari 16 iPhone iOS 16.5.1 iPhone iOS 16.5.1 cn中国–浙江–杭州 电信

    taotu.uk这个网站是不是突然改版了,我看你第一篇文章进去看不是这样的,看不出是博客站,现在就是明显的博客,分类不方便了。

  3. Level 1
    Microsoft Edge 114 Microsoft Edge 114 Windows 10 Windows 10 cn中国–四川–成都 电信

    假设一个文件100MB,怎么实现根据已下载的大小来做出一个进度条呢?我现在卡在怎么去获取已下载的大小这里 cry

    1. 公主 Queen 
      Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn中国–山东–青岛 移动

      可以使用tqdm 这个库,或者自己写:

      def save_image_from_url_with_progress_old(url, cnt):
          with closing(proxy_get_content_stream(url)) as response:
              chunk_size = 1024  # 单次请求最大值
              content_size = int(response.headers['content-length'])  # 内容体总大小
              data_count = 0
              with open(cnt, "wb") as file:
                  for data in response.iter_content(chunk_size=chunk_size):
                      file.write(data)
                      data_count = data_count + len(data)
                      now_position = (data_count / content_size) * 100
                      # print("\r[D] 下载进度: %s %d%%(%d/%d)" % (int(now_position) * '▊' + (100 - int(now_position)) * ' ',
                      #                                       now_position,
                      #                                       data_count,
                      #                                       content_size,), end=" ")
                      if 0 <= int(now_position) < 33:
                          progress_msg = Fore.RED + int(now_position) * '▊' + (100 - int(now_position)) * ' ' + Fore.RESET
                      elif 33 <= int(now_position) < 66:
                          progress_msg = Fore.YELLOW + int(now_position) * '▊' + (100 - int(now_position)) * ' ' + Fore.RESET
                      else:
                          progress_msg = Fore.GREEN + int(now_position) * '▊' + (100 - int(now_position)) * ' ' + Fore.RESET
                      download_size = str(int(data_count / 1024)) + 'KB'
                      image_size = str(int(content_size / 1024)) + 'KB'
                      print("\r[D] 下载进度: %s %d%%(%s/%s)" % (
                          progress_msg,
                          now_position,
                          download_size,
                          image_size,), end=" ")
              print('')
      
      1. Level 1
        Microsoft Edge 114 Microsoft Edge 114 Windows 10 Windows 10 cn中国–四川–成都 电信

        好的我试试,感谢!!!

  4.  Level 1
    Google Chrome 86 Google Chrome 86 Windows 10 Windows 10 cn中国–北京–北京 联通

    好东西,感谢分享

  5. Level 1
    Google Chrome 114 Google Chrome 114 Windows 10 Windows 10 cn中国–河北–石家庄 联通

    超级快的更新速度,收藏癖大喜 heart

  6.  Level 3
    Google Chrome 103 Google Chrome 103 Windows 10 Windows 10 cn中国–安徽–合肥–巢湖市 电信

    支持,我是来看图的。

  7. Level 1
    Google Chrome 114 Google Chrome 114 Windows 10 Windows 10 cn中国–河北–石家庄 联通

    姐姐,这个在下载某些图片的时候保存格式是.webp,但是这个下载的.webp文件却打不开 unknw

    1. 公主 Queen 
      Google Chrome 114 Google Chrome 114 Android 10 Android 10 fr法国

      这种是图片链接失效了,服务器返回的404页面保存为图片了。记事本打开看一下就明白了。这种图片直接删除吧。没办法恢复的,因为它本身就不是图片。

      1. Level 1
        Google Chrome 114 Google Chrome 114 Windows 10 Windows 10 cn中国–河北–石家庄 联通

        好的,谢谢姐姐 heart

    2. Level 1
      Google Chrome 114 Google Chrome 114 Windows 10 Windows 10 cn中国–河北–石家庄 联通

      .webp文件都只有1~4kb的样子 mda

      1. 公主 Queen 
        Google Chrome 102 Google Chrome 102 Mac OS X 10.15 Mac OS X 10.15 cn中国–山东–青岛 移动

        看这篇文章https://oba.by/?p=11509 可以批量处理这种图片。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注