网络爬虫的开题报告_网络爬虫 python 毕业论文呢

⑴ 网络爬虫 python 毕业论文呢

做爬虫,特别是python写说容易挺容易,说难也挺难的,
举个栗子简单的:将http://paste.ubuntu.com上面的所有代码爬下来
写个for循环,调用urllib2的几个函数就成了,基本10行到20行以内的代码
难度0

情景:
1.网站服务器很卡,有些页面打不开,urlopen直接就无限卡死在了某些页面上(2.6以后urlopen有了timeout)
2.爬下来的网站出现乱码,你得分析网页的编码
3.网页用了gzip压缩,你是要在header里面约定好默认不压缩还是页面下载完毕后自己解压
4.你的爬虫太快了,被服务器要求停下来喝口茶
5.服务器不喜欢被爬虫爬,会对对header头部浏览器信息进行分析,如何伪造
6.爬虫整体的设计,用bfs爬还是dfs爬
7.如何用有效的数据结构储存url使得爬过的页面不被重复爬到
8.比如1024之类的网站(逃，你得登录后才能爬到它的内容,如何获取cookies

以上问题都是写爬虫很常见的,由于python强大的库,略微加了一些代码而已
难度1

情景:
1.还是cookies问题,网站肯定会有一个地方是log out，爬虫爬的过程中怎样避免爬到各种Log out导致session失效
2.如果有验证码才能爬到的地方,如何绕开或者识别验证码
3.嫌速度太慢,开50个线程一起爬网站数据

难度2

情景:
1.对于复杂的页面,如何有效的提取它的链接,需要对正则表达式非常熟练
2.有些标签是用Js动态生成的，js本身可以是加密的,甚至奇葩一点是jsfuck,如何爬到这些

难度3

总之爬虫最重要的还是模拟浏览器的行为,具体程序有多复杂,由你想实现的功能和被爬的网站本身所决定
爬虫写得不多,暂时能想到的就这么多，欢迎补充

⑵ 求网络爬虫参考文献

主题网络爬虫研究综述
摘要: 首先给出了主题网络爬虫的定义和研究目标; 然后系统分析了近年来国内外主题爬虫的研究方法和技
术, 包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法, 并比较了
各种方法优缺点; 最后对未来的研究方向进行了展望。
关键词: 主题网络爬虫; 信息检索; Web 挖掘
中图分类号: TP391 文献标志码: A 文章编号: 1001- 3695( 2007) 10- 0026- 04
Survey on topic-focused Web crawler
LIU Jin-hong, LUYu-liang
( Dept. of Network, PLA Electric Engineer Institute, Hefei 230037, China)
Abstract: This paper gave the goal of focused crawling, then comprehensively analyzed the recent advances of the relevant researches
and applications about focused-crawler, included focused crawling methods based on text contents, link analyses’
methods, classifier-guided methods and other focused methods. Finally pointed out the future direction of focused crawling.
Key words: topic-focused crawler; information retrieval; Web mining
0 引言
随着网络上海量信息的爆炸式增长, 通用搜索引擎面临着
索引规模、更新速度和个性化需求等多方面的挑战[ 1, 2] 。面对
这些挑战, 适应特定主题和个性化搜索的主题网络爬虫( focused
crawler or topical crawler) 应运而生[ 3, 4] 。基于主题网络
爬虫的搜索引擎( 即第四代搜索引擎) 已经成为当前搜索引擎
和Web 信息挖掘中的一个研究热点和难点。
通用网络爬虫的目标就是尽可能多地采集信息页面, 而在
这一过程中它并不太在意页面采集的顺序和被采集页面的相
关主题。这需要消耗非常多的系统资源和网络带宽, 并且对这
些资源的消耗并没有换来采集页面的较高利用率。主题网络
爬虫则是指尽可能快地爬行、采集尽可能多的与预先定义好的
主题相关的网页。主题网络爬虫可以通过对整个Web 按主题
分块采集, 并将不同块的采集结果整合到一起, 以提高整个
Web 的采集覆盖率和页面利用率。
1 主题爬虫的定义和研究目标
定义1 网络爬虫是一个自动提取网页的程序, 它为搜索
引擎从Web 上下载网页, 是搜索引擎的重要组成部分。通用
网络爬虫从一个或若干初始网页的URL 开始, 获得初始网页
上的URL 列表; 在抓取网页的过程中, 不断从当前页面上抽取
新的URL 放入待爬行队列, 直到满足系统的停止条件。
定义2 主题网络爬虫就是根据一定的网页分析算法过
滤与主题无关的链接, 保留主题相关的链接并将其放入待抓取
的URL 队列中; 然后根据一定的搜索策略从队列中选择下一
步要抓取的网页URL, 并重复上述过程, 直到达到系统的某一
条件时停止。所有被网络爬虫抓取的网页将会被系统存储, 进
行一定的分析、过滤, 并建立索引, 对于主题网络爬虫来说, 这
一过程所得到的分析结果还可能对后续的抓取过程进行反馈
和指导。
定义3 如果网页p 中包含超链接l, 则p 称为链接l 的父
网页。
定义4 如果超链接l 指向网页t, 则网页t 称为子网页,
又称为目标网页。
主题网络爬虫的基本思路就是按照事先给出的主题, 分析
超链接和已经下载的网页内容, 预测下一个待抓取的URL 以
及当前网页的主题相关度, 保证尽可能多地爬行、下载与主题
相关的网页, 尽可能少地下载无关网页。相对于通用网络爬
虫, 主题网络爬虫需要解决以下四个主要问题:
a) 如何描述或定义感兴趣的主题( 即抓取目标) ?
b) 怎样决定待爬行URL的访问次序? 许多主题网络爬虫
根据己下载网页的相关度, 按照一定原则将相关度进行衰减,
分配给该网页中的子网页, 而后将其插入到优先级队列中。此
时的爬行次序就不是简单地以深度优先或广度优先顺序, 而是
按照相关度大小排序, 优先访问相关度大的URL。不同主题
网络爬虫之间的区别之一就是如何计算URL的爬行次序。
c) 如何判断一个网页是否与主题相关? 对于待爬行或己
下载的网页可以获取它的文本内容, 所以可以采用文本挖掘技
术来实现。因此不同主题网络爬虫间的区别之二就是如何计
算当前爬行网页的主题相关度。

⑶ 网络爬虫的技术研究

基于目标数据模式的爬虫针对的是网页上的数据，所抓取的数据一般要符合一定的模式，或者可以转化或映射为目标数据模式。
另一种描述方式是建立目标领域的本体或词典，用于从语义角度分析不同特征在某一主题中的重要程度。

⑷ 网络爬虫的产生背景

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine)，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性，如：
(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。
(2)通用搜索引擎的目标是尽可能大的网络覆盖率，有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
(3)万维网数据形式的丰富和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。
(4)通用搜索引擎大多提供基于关键字的检索，难以支持根据语义信息提出的查询。
为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的链接，获取所需要的信息。与通用爬虫(general?purpose web crawler)不同，聚焦爬虫并不追求大的覆盖，而将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。
1 聚焦爬虫工作原理以及关键技术概述
网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
相对于通用网络爬虫，聚焦爬虫还需要解决三个主要问题：
(1) 对抓取目标的描述或定义；
(2) 对网页或数据的分析与过滤；
(3) 对URL的搜索策略。
抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。
2 抓取目标描述
现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为：
（1）预先给定的初始抓取种子样本；
（2）预先给定的网页分类目录和与分类目录对应的种子样本，如Yahoo!分类结构等；
（3）通过用户行为确定的抓取目标样例，分为：
（a) 用户浏览过程中显示标注的抓取样本；
（b) 通过用户日志挖掘得到访问模式及相关样本。
其中，网页特征可以是网页的内容特征，也可以是网页的链接结构特征，等等。

网络爬虫的开题报告

与网络爬虫的开题报告相关的内容