培训以数据采集与分析应用为背景,先从python基础出发,讲解python语言语法基础,具体包括:分支结构、函数基本操作、类创建及使用、文件基本操作、数据库操作及网络模块。接着介绍以python为基础的常用数据采集技术,具体包括:常用爬虫框架Scrapy框架、Pyspider框架及丰富的实际采集案例;针对复杂站点及网页爬取时需要使用到的selenium及phantomjs。最后,以“新闻数据采集及处理”综合实例贯穿连接以上内容,展示数据采集及分析处理的完整过程,具体包括:数据采集及清洗、构建关键词库、设计正负面算法等。