博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
动态网页爬取
阅读量:7176 次
发布时间:2019-06-29

本文共 843 字,大约阅读时间需要 2 分钟。

hot3.png

1.Selenium模拟浏览器获取动态网页数据

@1.下载需要的jar和浏览器驱动。

需要Selenium所需的jar、浏览器驱动、浏览器版本需要匹配版本匹配可以参考这篇文章:;

我用的是chrome浏览器,chromedriver下载地址(不需要翻墙):。

 

将下载的驱动放到谷歌浏览器的安装目录下

这里写图片描述

Selenium jar包下载网址

092354_xiIM_3369787.png

@2.编写代码

        // 第一步: 设置chromedriver地址。一定要指定驱动的位置。
        System.setProperty("webdriver.chrome.driver",
                "C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe");
        // 第二步:初始化驱动
        WebDriver driver = new ChromeDriver();
        // 第三步:获取目标网页
        driver.get("http://live.titan007.com/");
        
        // 第四步:解析。以下就可以进行解了。使用webMagic、jsoup等进行必要的解析。
 
        Document document = Jsoup.parse(driver.getPageSource());
        
        String html = document.body().select("tbody").get(1).html();
        Elements select = document.body().select("tbody").get(6).select("tr");
        
        for (Element element : select) {
            
            System.out.println("html:"+element.html());
            System.out.println();
            
        }

 

 

 

转载于:https://my.oschina.net/u/3369787/blog/1543377

你可能感兴趣的文章
MySQL 复制介绍及搭建
查看>>
Openstack组件日志中添加request_id
查看>>
idea快捷键之 surround with
查看>>
idea闪退无法启动
查看>>
iOS角度与弧度转换
查看>>
linux定时任务
查看>>
扩展OpenStack的nova metadata api
查看>>
文件下载响应头 header 属性设置
查看>>
PHP技术-实现一个最简单的模板分离
查看>>
set,map基础
查看>>
iOS NSString大写转小写、MD5 加密、Array ascii 排序
查看>>
javax.mail.MessagingException 501 5.5.4 Invalid domain name
查看>>
redis key 对应操作
查看>>
JavaScript 小技巧 自己总结
查看>>
scrapinghub 爬取amztracker页面信息
查看>>
Mysql添加远程访问权限
查看>>
WebGIS--ArcGIS系列开发四:Server链接
查看>>
让自家系统瘫痪,这事我也干过
查看>>
404 Error on Fonts in Tomcat/Java Web App
查看>>
获取服务器ip
查看>>