Archives: 爬取网易财经中股票的历史交易数据

Advertisement

利用bs4和requests爬取股票历史交易数据

最近在学习优达学院的一门机器学习的课程,主要讲解利用机器学习分析股票数据,然后.课程网址在这里:https://classroom.udacity.com/courses/ud501 所以需要大量的股票数据,我就先百度了一下,发现网易财经的数据很全,暴露的也很好,所以的数据都是放在一个<table>标签中, 所以我就决定爬网易财经了,开始着手写爬虫. 首先,是构造url. 假如我要查询中国石油(601857)的2016年度的第三季度的交易数据,url是这样的. http://quotes.mo

WebCollector爬取CSDN博客

新闻.博客爬取是数据采集中常见的需求,也是最容易实现的需求.一些开发者利用HttpClient和Jsoup等工具也可以实现这个需求,但大多数实现的是一个单线程爬虫,并且在URL去重和断点爬取这些功能上控制地不好,爬虫框架可以很好地解决这些问题,开源爬虫框架往往都自带稳定的线程池.URL去重机制和断点续爬功能. 爬虫框架往往也会自带网页解析功能,支持xpath或css选择器(底层多用Jsoup实现). 使用爬虫框架,用户只需要告诉框架大致的爬取范围,以及每个页面的抽取规则,即可完成对网页的爬取,并

python爬虫实例-爬取北邮研究生成绩

做了许多爬虫的小练习,都是比较简单的爬虫程序,像下小说啊,爬取一个网站内所有的页面之类的.基本上都是看着别人的需求,按照别人的思路,来写程序. 心想,能不能自己构思,弄一个自己的小程序,解决自己的实际需求.楼主还是个学生,恰好这学期期末了,可以在学校的网站上查询自己的成绩了,于是就想着能不能自己做一个爬虫,从自己学校的网站上爬取一些自己的信息呢? 说干就干,于是开始琢磨网站的结构.网页的URL.请求数据包一类的.首先先来查询成绩的整个流程吧! 需求: 这是学校成绩查询的网址 http://yjx

用Python 爬虫爬取贴吧图片

之前一直在看机器学习,遇到了一些需要爬取数据的内容,于是稍微看了看Python爬虫,在此适当做一个记录.我也没有深入研究爬虫,大部分均是参考了网上的资源. 先推荐两个Python爬虫的教程,网址分别是http://cuiqingcai.com/1052.html 和 http://ddswhu.com/2015/03/25/python-downloadhelper-premium/ ,我就是看这两个当做基本的入门. 有兴趣才有动力,既然学了爬虫,那就先爬取美女照片吧.当然,这里先并不是爬取好友

爬取北邮的讲座消息

很遗憾,之前没有坚持做下去,暑假的事情有点多和杂,开学后,准备重启这个项目,那么之前的写的东西,算是记录下自己曾经想法,很多并没有去实现,比如数据库,我现在还是使用mysql. 恩 鄙视下自己 不过 ,最初的目的,已经实现,可以爬取消息.那么现在接下来一周的工作就是完善这个爬取,并可以定制化爬取bbs 的消息.开学后,北邮公告栏改版了,所以公告栏的爬取推后一周进行. -----------------------------------------------------------------

Python爬虫——爬取网页中的图片小试牛刀

Preface:以往爬取文本,这次需要爬取图片pdf,先上手一个例子,爬取pdf,先取得url,然后通过urllib.urlretrieve函数将url的网页内容远程下载到本地,第一个参数为url,第二个参数为文件名(代码中有误),第三个参数为回调函数,可以显示下载进度.另外,当需要爬取动态网站的图片时,用urllib.urlretrieve满足不了我们的要去需要"get",使用request.get(). #============================= 示例: 图片:

第二次阅读作业感想——在混沌的英文中爬取软件工程的哲学 刘宇翔

第二次阅读作业,第一次一口气读完好几篇英文技术论文.在不断的翻译中匍匐前进,在各种生涩的单词中爬取软件工程的哲学.在这里简单谈一下我对这几篇文章的看理解和看法. <No Silver Bullet: Essence and Accidents of Software Engineering>介绍了软件工程要几个不可避免的问题,主要有复杂性(complexity),软件整合(conformity),可变性(changeability)和不可见性(invisibility).作者接着对几种解决软件

拷问紫金矿业:董事长身价何以暴涨200倍_网易财经

最新报道:"中国黄金第一股紫金矿业"掌门人陈景河持有紫金矿业11459.4万股,按照4月25日紫金矿业收盘价计算,其个人财富将逼近16亿元. 这位"金山财主"持有的股权中的相当部分是通过金山贸易转手获得,陈景河与金山究竟有怎样的关系,那些0.1元之股价的数次转让背后又有怎样的来龙去脉呢?对此,网易财经抛出"金山财主"三大拷问,希望紫金矿业能给出答案.[附:紫金矿业IPO专题] 资本市场上从来不缺造富神话,但从经理人成为股东,陈景河却算是个典范.

爬取了豆瓣11W+网页,获取了5W+有效书籍信息

爬取了豆瓣11W+网页,获取了5W+有效书籍信息 标签:爬虫 Python 之前写了一篇博文:利用爬虫获取豆瓣上可能喜欢的书籍,这篇博文中的爬虫可以以给定的url为原点,慢慢的向外扩散爬取书籍信息,可以获取到自己可能喜欢的书籍,但是有一个大缺点,就是只能提供一个初始url,即以一本书为基础进行推荐,而不能针对一个用户喜欢的所有书籍进行推荐. 后来想了想,可以把所有的书籍信息爬取下来,然后根据推荐算法推荐书籍.说干就干,一边调试一边爬取,一个礼拜就爬完了"大部分的"有效书籍信息. 本文主

爬取知乎60万用户信息之后的简单分析

爬取知乎60万用户信息之后的简单分析 标签 : webporter 爬取知乎60万用户信息之后的简单分析 动机 思路 数据验证 关心的数据 性别分布 粉丝最多的用户top10 员工最多的公司top10 校友最多的学校top10 人数最多的地方top10 top10行业分布 top10职业分布 结语 使用 Java+Elasticsearch+Kibana 爬取了知乎 60 万用户数据,做了简单的可视化分析. 项目源码 GitHub - webporter 动机 在知乎上看到有个叫 @路人甲 的大

记一次企业级爬虫系统升级改造(四):爬取微信公众号文章(通过搜狗与新榜等第三方平台)

首先表示抱歉,年底大家都懂的,又涉及SupportYun系统V1.0上线.故而第四篇文章来的有点晚了些~~~对关注的朋友说声sorry! SupportYun系统当前一览: 首先说一下,文章的进度一直是延后于系统开发进度的. 当前系统V1.0 已经正式上线服役了,这就给大家欣赏几个主要界面~~ 哈哈~这是系统主页,极简风格.主体框架使用的是 B-JUI ,偶然间看到的一个开源框架,相信它的作者会把它做得越来越好! 这是数据列表的功能页面,大家对这个table应该非常熟悉哈,我使用的是easyUI

python动态网页爬取——四六级成绩批量爬取

需求: 四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页.我使用的是学信网,好了,网站截图如下: 网站的代码如下: 1 <form method="get" name="form1" id="form1" action="/cet/query"> 2 3 <table

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文

1.前言 最新在公司做一个项目,需要一些文章类的数据,当时就想到了用网络爬虫去一些技术性的网站爬一些,当然我经常去的就是博客园,于是就有下面的这篇文章. 程序源码:CSDN下载地址 2.准备工作 我需要把我从博客园爬取的数据,保存起来,最好的方式当然是保存到数据库中去了,好了我们先建一个数据库,在来一张表,保存我们的数据,其实都很简单的了啊,如下图所示 BlogArticleId博文自增ID,BlogTitle博文标题,BlogUrl博文地址,BlogAuthor博文作者,BlogTime博文发

豌豆荚这种动态生成内容的网页,应该怎么爬取呢?

网页地址如下: 安卓游戏排行榜 详细说明 上边的地址,是豌豆荚的游戏排行榜,我想爬取游戏列表的TOP100,我用的是requests和BeautifulSoup这两个库 代码如下: import requests from bs4 import BeautifulSoup as bs URL = 'http://www.wandoujia.com/top/game' re = requests.get(URL).text soup = bs(re) result = soup.find_all(

PHP 爬取网页的时候遇到JS定时跳转

抓取到的网页内容为 <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> <meta http-equiv="pragma" content="no-cache" /> <meta http-equiv="cache-control" co

Python爬取CSDN博客专家系列——移动开发

注明:小编亲测,只要把第一部分里面的url修改,即可抓取博客专家里边所有的专家的博客内容和标题,后续小编还会对此代码改进,敬请期待 文章分为两部分:Python爬虫爬取移动开发专家的姓名和博客首页地址,爬取每个专家的所有博客存放在已该专家名字命名的txt文件中 说明:本爬虫主要是采用BeautifulSoup和少量的正则匹配,在第一部分抓取完毕后需要将文件格式改为ANSI,代码如下: 第一部分: 第二部分: 结果如下图:

使用scrapy框架爬取自己的博文(3)

既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_post_body 的字段p中,xpath秒杀搞定的节奏. sel.xpath('//div[@id= "cnblogs_post_body"]/p/text()').extract() 直接在scrapy框架下运行的话一来慢,二来错了范围太大也不知道哪里的问题,用ipython的shel

scrapy定制爬虫-爬取javascript——乾颐堂

很多网站都使用javascript...网页内容由js动态生成,一些js事件触发的页面内容变化,链接打开.甚至有些网站在没有js的情况下根本不工作,取而代之返回你一条类似"请打开浏览器js"之类的内容. 对javascript的支持有四种解决方案: 1,写代码模拟相关js逻辑. 2,调用一个有界面的浏览器,类似各种广泛用于测试的,selenium这类. 3,使用一个无界面的浏览器,各种基于webkit的,casperjs,phantomjs等等. 4,结合一个js执行引擎,自己实现一个

使用urllib进行网页爬取

# coding=gbk # 抓取开奖号码 # url:http://datachart.500.com/dlt/zoushi/jbzs_foreback.shtml ''' 对网页逐行迭代,找到目标行时在往下读一行,两行提取一期开奖号码 ''' import re from urllib import urlopen # winnumbers = {} # 期数:中奖号码 f = open('中奖号码.txt','w') webpage = urlopen('http://datachart.