Python简单的爬虫外包项目如何实现?

嗯,其实已经不能算爬虫了。因为相当于需要爬取数据的信息是手动输入的。

是这样的,我的工作中每天需要查询一些公司的信息,主要来源是大约十个政府网站的相应数据(大概就是企业信用信息系统、裁判文书网、组织机构代码中心这些网站)。然后粘帖到公司系统里面。我知道这估计是程序员最痛恨的一种工作,重复又简单。我也一样。所以我想找人帮我用程序处理这件事。

流程就是帮忙编写一个程序,当公司系统向它提交一个 get 请求的时候,请求里包含了公司全称或者执业许可证号,然后程序自动向那十个政府网站查询公司信息,然后将特定的字段返回给公司系统,并且保存一份到数据库。 我知道难题在于

1.验证码。可以接入打码平台。有个别网站用滑块的需要你们帮忙想想办法:)

2.维护。网站肯定时不时就会更新的,因此我会将维护一并外包,当然,价格分开算。

3.单 IP 频率限制。这个不用担心,查询频率一般不够 1 分钟一次。

交付的时候需要提供源码。之所以发在这个节点是因为我希望是 python 写的(纯粹出于个人喜好,没有别的意思) 各位觉得多少钱愿意做呢?


Python简单的爬虫外包项目如何实现?

19 回复

良心&吉利价,8888😂


要接个简单的爬虫外包,核心就三步:抓数据、解析数据、存数据。用 requests 拿网页,BeautifulSouplxml 解析,最后用 pandas 或直接写文件存下来。

给你个最基础的模板,爬个豆瓣电影Top250的例子:

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

def simple_spider():
    headers = {'User-Agent': 'Mozilla/5.0'}
    base_url = 'https://movie.douban.com/top250'
    all_data = []

    for start in range(0, 250, 25):
        url = f'{base_url}?start={start}'
        resp = requests.get(url, headers=headers)
        soup = BeautifulSoup(resp.text, 'html.parser')

        for item in soup.find_all('div', class_='item'):
            title = item.find('span', class_='title').text
            rating = item.find('span', class_='rating_num').text
            all_data.append([title, rating])

        time.sleep(1)  # 礼貌性延迟

    df = pd.DataFrame(all_data, columns=['片名', '评分'])
    df.to_csv('douban_top250.csv', index=False, encoding='utf-8-sig')
    print(f'爬完了,存了 {len(df)} 条数据')

if __name__ == '__main__':
    simple_spider()

跑之前装下库:pip install requests beautifulsoup4 pandas。这代码干了三件事:1.循环翻页构造URL;2.用CSS选择器抓标题和评分;3.存成CSV。

实际接活时,重点跟客户确认清楚:要爬哪个网站、具体字段、数据量、更新频率。注意看网站的 robots.txt,别瞎爬。复杂点的网站可能需要加 Session 维持登录,或者用 Selenium 处理动态加载。

简单爬虫就这套路,清晰直接最重要。

没问题,找我吧
ahahah

有这样一份工作真好
想到前一阵国外的那个新闻了,自己写个自动化程序代替每天的手工劳作,然后大把时间陪老婆孩子,哈哈哈

10000 不算维护 找我

呃……不是开玩笑的啦
可以联系我么,q 号看用户名

请问你联系方式多少

滑块 大家是如何解决的?

如果 lz 能接受 nodejs 的话,可以联系我。微信同 id

PS:前百度前端,现在在 Amazon

难点在第一条吧

怎么解决,说一下大概,萌新表示不懂。主要是滑块这种验证码。

geetest 的破解满天飞,但是一更新你得跟着改,所以说这样一个需求如果在包了维护费的情况下突然有个版本他验证码的轨迹不好搞了 就会巨亏,入不敷出。例如全国企业公示系统里不同的地区验证码的版本也不同,例如江苏的你手划的快一点都可能被吃掉,成功率低。但向 lz 这种 1 分钟 1 次的需求,可以理解为对抓取速度没有要求,你把轨迹设置成巨慢的好了。但这些还是肛正面的,绕的话就和滑块无关了。

非常感谢大家的回复,已经有几位联系我啦。太多人我顾不过来,各位请收下我的感谢~

天眼查那种网站?

记得商标查询网站就是滑块验证的

我给 LZ 提供另外一种思路:chrome 插件,选中关键字,右键菜单批量打开查询网站的页面( URL 带关键字),滑块手动,其他自动:复制、黏贴、保存成一个文件等等

9999 可以来找我,有一套差不多的系统

验证码就是为了防爬虫的嘛,这要是这种爬虫多了的话会不会升级验证码呢,比 12306 那种更复杂的。。。

回到顶部