《网络爬虫全解析——技术、原理与实践》_罗刚_扫描版[PDF]

《网络爬虫全解析——技术、原理与实践》封面图片

内容简介: 本书介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。另外,本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。*后,以实战为例,介绍了如何抓取微信和微博[……]阅读全文