dta0502 / nbsprc-spider Goto Github PK
View Code? Open in Web Editor NEW国家统计用区划代码和城乡划分代码---爬虫及数据
License: Apache License 2.0
国家统计用区划代码和城乡划分代码---爬虫及数据
License: Apache License 2.0
楼主代码说明很清晰,赞一个。
目前核对缺失的数据如下,分享一下:
编码 | 省份 | 市 | 区县 |
---|---|---|---|
150801 | 内蒙古自治区 | 巴彦淖尔市 | 市辖区 |
150802 | 内蒙古自治区 | 巴彦淖尔市 | 临河区 |
150821 | 内蒙古自治区 | 巴彦淖尔市 | 五原县 |
150822 | 内蒙古自治区 | 巴彦淖尔市 | 磴口县 |
150823 | 内蒙古自治区 | 巴彦淖尔市 | 乌拉特前旗 |
150824 | 内蒙古自治区 | 巴彦淖尔市 | 乌拉特中旗 |
150825 | 内蒙古自治区 | 巴彦淖尔市 | 乌拉特后旗 |
150826 | 内蒙古自治区 | 巴彦淖尔市 | 杭锦后旗 |
330301 | 浙江省 | 温州市 | 市辖区 |
330302 | 浙江省 | 温州市 | 鹿城区 |
330303 | 浙江省 | 温州市 | 龙湾区 |
330304 | 浙江省 | 温州市 | 瓯海区 |
330305 | 浙江省 | 温州市 | 洞头区 |
330324 | 浙江省 | 温州市 | 永嘉县 |
330326 | 浙江省 | 温州市 | 平阳县 |
330327 | 浙江省 | 温州市 | 苍南县 |
330328 | 浙江省 | 温州市 | 文成县 |
330329 | 浙江省 | 温州市 | 泰顺县 |
330381 | 浙江省 | 温州市 | 瑞安市 |
330382 | 浙江省 | 温州市 | 乐清市 |
350527 | 福建省 | 泉州市 | 金门县 |
632801 | 青海省 | 海西蒙古族藏族自治州 | 格尔木市 |
632802 | 青海省 | 海西蒙古族藏族自治州 | 德令哈市 |
632821 | 青海省 | 海西蒙古族藏族自治州 | 乌兰县 |
632822 | 青海省 | 海西蒙古族藏族自治州 | 都兰县 |
632823 | 青海省 | 海西蒙古族藏族自治州 | 天峻县 |
编码是GBK。也url改为了2022年。但是中文省市县名字是不像乱码的乱码。求解。
好像爬取2016的又没问题。
Hi,这个很有用。最近我需要2013年的区域代码,但是刚入门python,所以不知道应该在哪里做相应的修改。谢谢。
你好,使用代码过程中遇到了两个问题,不知道是否有解决的办法。
问题1:爬取过程中遇到“http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/36/3605.html
requests fail, retry!”
或者“Exception in thread Thread-8:
Traceback (most recent call last):
File "C:\Users\hp\AppData\Local\Programs\Python\Python37\lib\threading.py", line 926, in _bootstrap_inner
self.run()
File "C:\Users\hp\AppData\Local\Programs\Python\Python37\lib\threading.py", line 870, in run
self._target(*self._args, **self._kwargs)
File "C:/Users/hp/Desktop/python/pythonProject3/main.py", line 83, in getData
countyList = selector.xpath('//tr[@Class="countytr"]')
AttributeError: 'NoneType' object has no attribute 'xpath'”
我认为这可能是由于我爬取的次数过多,才出现这种情况。经过一段时间之后,再跑程序,该问题就解决了。不知道有没有更好的解决方法。
问题2:有一些行政区划代码没有链接,爬取的结果中没有包括这些码值,如“350527000000-金门县”、“350501000000-市辖区”。
大佬我关注你的博客很久了, 非常 nice, 给了我很大的帮助, 非常感谢. 但是现在客访问不了,博客那里没有issue, 我就跑到这里来提了. 还有希望修复一下博客吗,
抓取2017版最新数据,发现部分区域名称存在乱码情况,
国家统计局页面源码的编码定义为gb2312,实际为gbk
因此 需要手工指定编码
def getUrl(url,num_retries = 5):
ua = UserAgent()
headers = {'User-Agent':ua.random}
try:
response = requests.get(url,headers = headers)
response.encoding = "GBK"
data = response.text
print(url)
return data
except Exception as e:
if num_retries > 0:
time.sleep(10)
print(url)
print("requests fail, retry!")
return getUrl(url,num_retries-1) #递归调用
else:
print("retry fail!")
print("error: %s" % e + " " + url)
return #返回空值,程序运行报错`
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.