使用requests+lxml结合爬取的链家租房信息数据,翻页我直接使用循环去访问的,链接翻页的改变就是相对应的'pg1'。
主要使用xpath匹配了房源名称、房源大小、地点、价格等字段信息,获取各个字段之后连接了我的本地数据库,然后一条一条从插入数据库。
数据库的连接得填好自己想要存进去的数据库账号。
就这些了,有不懂的欢迎评论,下面附上代码:
import requests from lxml import etree import pymysql import time headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36', } def parse_lianjia_data(url): data = requests.get(url,headers=headers) response = etree.HTML(data.content) length = response.xpath("//ul[@id='house-lst']/li") print(len(length)) for i in range(len(length)): print("=========================") print(url) item = {} try: house_name = response.xpath("//li[@data-index='"+str(i)+"']//h2//text()") print(house_name) item['house_name'] = ''.join(house_name).strip() house_size = response.xpath("//li
数据库urlhtmlsqlappwindowschromeapplemozillawebparsemysql