java如何抓取网页内容

作者:kgmucom   在线用户:23
风之恋奇迹私服技术网是一家提供最新互联网编程技术网站

我们在闲暇之余的时候都会把刚学的java小知识运用一遍,在学习的过程中就会有小伙伴们好奇,java如何抓取内容呢?那么接下来我们就一起去看看java抓取网页内容的实现方法。

 

package test;

 

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.net.Authenticator;

import java.net.HttpURLConnection;

import java.net.PasswordAuthentication;

import java.net.URL;

import java.net.URLConnection;

import java.util.Properties;

 

public class URLTest {

 // 一个public方法,返回字符串,错误则返回"error open url"

 public static String getContent(String strUrl) {

  try {

   URL url = new URL(strUrl);

   BufferedReader br = new BufferedReader(new InputStreamReader(url

     .openStream()));

   String s = "";

   StringBuffer sb = new StringBuffer("");

   while ((s = br.readLine()) != null) {

    sb.append(s + "/r/n");

   }

   br.close();

   return sb.toString();

  } catch (Exception e) {

   return "error open url:" + strUrl;

  }

 }

 

 public static void initProxy(String host, int port, final String username,

   final String password) {

  Authenticator.setDefault(new Authenticator() {

   protected PasswordAuthentication getPasswordAuthentication() {

    return new PasswordAuthentication(username,

      new String(password).toCharArray());

   }

  });

  System.setProperty("http.proxyType", "4");

  System.setProperty("http.proxyPort", Integer.toString(port));

  System.setProperty("http.proxyHost", host);

  System.setProperty("http.proxySet", "true");

 }

 

 public static void main(String[] args) throws IOException {

   String url = "http://www.aizhan.com";

   String proxy = "http://192.168.22.81";

   int port = 80;

   String username = "username";

   String password = "password";

   String curLine = "";

   String content = "";

   URL server = new URL(url);

   initProxy(proxy, port, username, password);

   HttpURLConnection connection = (HttpURLConnection) server

   .openConnection();

   connection.connect();

   InputStream is = connection.getInputStream();

   BufferedReader reader = new BufferedReader(new

   InputStreamReader(is));

   while ((curLine = reader.readLine()) != null) {

   content = content + curLine+ "/r/n";

   }

   System.out.println("content= " + content);

   is.close();

   System.out.println(getContent(url));

 }

}       

上文就是小编教大家java如何抓取网页内容的方法,如果有什么不清楚可以留言给我。如果觉得我写得不错的话,请给我一个大拇指,谢谢!

提供最全面的奇迹sf开服版本和最新的奇迹私服开服技术信息,奇迹私服文库让每一位奇迹私服玩家找到自己需要的版本技术文章

上一篇:详解JAVA 多线程爬虫实例

下一篇:详解Spring Boot配置排序依赖技巧

请发表您的评论