Python爬取考研数据一切985高校、六成211高校均可调剂_网易订阅(python爬取资产负债表)

　　又到了一年一度的考研出分时刻啦，近期有不少兄弟让笔者他们分析如何提前做好调剂。复试与调剂老是密不可以分。今日，给我们共享一些调剂的重要常识点，期望你在调剂的时分，能理解调剂的趋势与规则。
　　或许，我们关于调剂的形象，就是只需等候招生单位的复试告诉就可以了，其实这是差错的，这儿会阅历许多流程，如选择打扫，但究竟抉择权仍是在导师的手里，每年都会有五分之一的考生抵达了分数线，却倒在了调剂上。那么具体缘由有哪些呢？
　　作者|小康康
　　修改 | 胡巍巍
　　来历 | csdn（id：csdnnews）

　　考研调剂中的机缘与风险
　　一、在获取调剂信息的时分，呈现重要的延误，没有及时获取一手信息，致使许多人提前联络导师，赢得好形象。
　　二、成果合格，获取的调剂信息太少，没有去到自个心仪的高校，而被逼进行无法的选择。
　　三、调剂信息量太大，我们都晓得1-4月是调剂信息的迸发期，每天盯着许多的内容，不免会有所遗失，没有做好信息的快速选择，致使匆忙应对调剂、而忽略了本身的匹配性。
　　以上这三种被刷的概率是最大的，所以，必定要评价好自个的归纳才能，调剂也是一门技能活，认清自个，选择适合才是王道。下面再罗列一些调剂的技巧。
　　要想成功调剂，首要要掌控调剂的第一手信息，能及时地获取到哪所高校的专业招生人数缺乏，而且契合你的条件，是很有必要的。一起，调剂也是有需求的，如下，
　　一、具有国家规则的复试资历；
　　二、入学考试统考类别中的俩科要与调剂专业的考试类别完全相同，两科的专业考试类别要相同或附近（专业不对口，调剂成功的机率为零）；
　　三、优先思考本专业界部的调剂，再思考跨专业调剂，最终是跨校调剂；
　　四、征询高校研招办招认招生人数是不是已满，满的不要思考了（获取第一手招生空缺信息很重要）；
　　五、不要等候复试成果，各校的复试时刻有差异，简略失掉调剂的机缘。

调剂数据爬虫selenium开发实战
　　网上有许多网站都在发布调剂信息，其间大大都实验室的一手调剂信息都是发布在论坛的，再有许多网站修改转手copy自个的网站里，那么今日就要说一说怎么去获取调剂数据并进行分析。
　　这篇文章只获取数据并进行数据分析，以协助我们非常好的晓得调剂局势。
　　选择我国考研网站上发布调剂查询页面，其页面作用大致如图所示：

　　先对页面规划进行分析，可以看出是【信息流】+【粗->细】+【翻页】的规划。
　　关于这种规划，选用python+selenium进行爬虫开发。
　　selenium是一个用于web使用程序查验的东西。selenium查验直接运转在阅读器中，就像真实的用户在操作相同。撑持的阅读器包括ie（7, 8, 9, 10, 11）、mozilla 、firefox、safari、谷歌 chrome、opera等。
　　这个东西的首要功用包括：查验与阅读器的兼容性——查验你的使用程序看是不是可以极好地作业在不一样阅读器和操作体系之上。查验体系功用——创建回归查验查验软件功用和用户需要。撑持主动录制动作和主动生成 .net、java、perl等不一样言语的查验脚本。
　　大学称号、专业称号以及调剂标题称号，均在列表中。那么：
　　第一步：获取【信息流地址的html元素】
　　经过对html进行解析，可以发现一切的信息流的都是div标签包裹的，其一起特征都是 font14” 。

　　由此想到selenium中的一个接口find_elements_by_xpath，那么xpath是啥呢？
　　xpath即为xml途径言语（xml path language），它是一种用来断定xml文档中某有些方位的言语。取节点 xpath运用处径表达式在xml文档中选择节点。节点是经过沿着途径或step来选择的。
　　下面列出了最有用的途径表达式：
　　表达式
　　描绘
　　nodename
　　选择此节点的一切子节点。
　　/
　　从根节点选择。
　　//
　　从匹配选择的其时节点选择文档中的节点，而不思考它们的方位。
　　.
　　选择其时节点。
　　..
　　选择其时节点的父节点。
　　@
　　选择特征。
　　鄙人面的表格中，已列出了一些途径表达式以及表达式的成果：
　　途径表达式
　　成果
　　bookstore
　　选择 bookstore 元素的一切子节点。
　　/bookstore
　　选择根元素 bookstore。
　　注释：假定途径开始于正斜杠( / )，则此途径一向代表到某元素的必定途径！
　　bookstore/book
　　选择归于 bookstore 的子元素的一切 book 元素。
　　//book
　　选择一切 book 子元素，而不管它们在文档中的方位。
　　bookstore//book
　　选择归于 bookstore 元素的子孙的一切 book 元素，而不管它们位于 bookstore 之下的啥方位。
　　//@lang
　　选择名为 lang 的一切特征。
　　经过xpath，可以根据标签中的子特征以及层级规划进行自界说的精密选择。
　　那么，关于这儿的信息流xpath，大约怎么去写代码呢？
　　可以看到信息是归于div的，class均为info-item font14，所以可以得出：
　　到这儿，就得到了调剂的一切信息流板块，接下来要做的是关于每一个信息流板块单独解析，拿出其间的标签与超联接。

　　可以看到信息流的子项如下图所示，这个时分，可以根据，根据

　　代码如下所示：
　　之后，点开一个概况页，查看调剂的内容：

　　可以看到页面的排版如上，所需要的调剂内容就是图中红框标识出来的，这儿对页面进行html解析，发现红框的html标签为div， font14” 。

　　同理，还用上奇特的xpath来进行抓取。
　　并用innerhtml特征获取页

面格局字符串。
　　就这样，就结束了调剂根柢数据的抓取，把数据存到一个数据表里，进行分析。

　　sql编程与数据分析
　　因为数据存在的mysql数据库中，为了便利和更直观的展示出数据分析的思路和进程，这儿选用的sql语句进行数据查询与获取。
　　1.学校层次分析
　　首要分析，历年调剂高校的层次【985 211 双非】。
　　sql代码为：

　　成果为：

　　之后，为了便利计算高校的层次分布，在外部再套上一层group by语句进行分类：

　　成果如下图所示，可以看出许多调剂学校来自于双非高校，可是思考到211大学的总量为112所，985大学总量为39所，可以看出，接近62%的211高校都发布了调剂信息，一切的985高校都发布过调剂信息。
　　可以得出，调剂中仍是有很大很大机缘可以进入211，985高校的，每个高校都会发布招生机缘，可是能不能把捉住！就要看自个了！

　　这可以就是，机缘就在眼前，能不能掌控就看自个了。用matplotlib画出来的饼状图如下图所示：

　　2.学校类型分析
　　接下来，看看各大高校的学校品种，都是啥类型的学校，这个简略，一个sql处置。

　　哇，可以看到言语、政法、体育类的高校，调剂信息很少，都是个位数。而首要是理工、归纳类型的高校调剂机缘比照多，小同学们，这下在搜集高校调剂信息的时分，就可以更有侧要点了。
　　经过matplotlib制造出这个饼状图像：

　　3.学校地域分析
　　同理，对调剂学校地址的省市进行数据分析，得出如下柱状图：

　　可以看到调剂机缘广泛全国，只需你细心掌控，必定可以去的了自个抱负的城市，寻找抱负的ta！
　　4.专业/技能/领域分析
　　经过对专业进行分类选择，制造出专业云图，经过jieba分词，与自建词典集结类似词语聚类算法，发现调剂中一共触及的【技能/专业/领域】词汇抵达6006种，真可谓是类别广大啊，也是每个小众学科的福音。
　　其间几大抢手专业和研讨方向如下所示：经管仍是调剂中最吃香的专业，其次就是理工科了。自己就是生物医学工程专业出世的，在这儿看到了自个的专业，还挺欣喜。

　　总结
　　经过从selenium爬虫开发，到数据库select查询，再到matplotlib图表制造，只是经过三大进程，就可以发现考研调剂是一个机缘与风险并存的大作业，在这儿全国一切985和超对折的211，几乎悉数的高校都在向你翻畅怀有，每一个考生需要有充分的耐性去把捉住归于自个的机缘，不悲观，不骄不躁。