시리즈물/데이터 수집을 위한 크롤링

[크롤링] 데이터 수집을 위한 크롤링 4편 : Java의 설치와 간단한 Jsoup 예제

포도알77 2019. 3. 2. 09:09
 데이터 수집을 위한 크롤링 연속 포스팅 

[크롤링] 데이터 수집을 위한 크롤링 1편 : 크롤링이란 무엇인가?

[크롤링] 데이터 수집을 위한 크롤링 2편 : 크롤링에 필요한 필수 요소들

[크롤링] 데이터 수집을 위한 크롤링 3편 : JSON, 더 자세한 설명

[크롤링] 데이터 수집을 위한 크롤링 4편 : Java의 설치와 간단한 Jsoup 예제

[크롤링] 데이터 수집을 위한 크롤링 5편 : Yahoo 파이낸스를 이용한 환율 크롤링

1. Java 설치

 크롤링을 위한 언어로 Java와 JSoup 라이브러리를 이용한다. 

 만약 자신이 편리한 언어가 있다면 해당 언어를 사용해도 무방하다. Jsoup의 경우 Java 버전 라이브러리이며, 해당 언어에 맞는 크롤링 라이브러리가 존재할 것이다. 

 Java를 설치하는 전체 과정은 3가지로 나눌 수 있다. 1) Java용 SDK 설치, 2) Java IDE 설치, 3) 환경 변수 설정. 자바를 설치해본 사람들은 알겠지만, 매뉴얼처럼 제공되는 설치 방법이 모두 사람마다 달라 (특히 환경변수 설정부분) 여러 블로그를 참고하게 되면, 더 고생할 수 있다는 점을 기억해두자. (최근에는 IDE 설치시 환경 변수까지 세팅해준다고는 하던데..)  


(1) JAVA SDK 설치 JDK는 JAVA Development Kit의 약어로 자바 라이브러리 설치 도구 정도로 기억해도 좋다. 링크는 아래와 같으며, 최신 버전 JDK를 설치하자.



 JDK 다운로드 페이지 링크



 자신의 운영체제에 알맞는 JDK를 다운로드받으면 된다. 32비트 윈도우는 Windows x86, 64비트의 경우 Windows x64이며, 테이블 상단의 약관 동의 버튼을 눌러 설치하면 된다.





   (2) IDE 설치 Java IDE로 이클립스를 사용할 예정이다. 이클립스는 아래에서 다운로드 받을 수 있다.

이클립스 다운로드



 아마 이클립스 포톤 버전일 것이며, 반드시 JDK를 설치하고 실행하여야 정상 동작한다는 점을 유의하자.


 설치 이후 아래의 순서로 진행하면 된다. 예전에는 인스톨러가 없었는데 요즘에 나와서 더 간편해졌다.

 







 3) 환경 변수 편집


 환경 변수의 경우, 내용이 길어질 수 있으므로 아래의 링크를 통해서 설치하도록 하자. (나의 경우, 환경 변수 설정이 안보이는데 잘되서.. 전에 깔아서 그런가.. 안되는분은 댓글 남겨주세요 :)



[Java] Java 개발을 위한, JDK와 Eclipse 설치 2/3



 아무튼 이렇게 모든 준비가 끝났다면, 이제 간단한 자바 프로그래밍을 해보자.





2. 이클립스 활용과 간단한 Java 프로그램

지금까지 자바와 이클립스를 설치했으므로, 정상동작 확인을 위해서 간단한 자바프로그램(그래봐야 헬로월드)를 만들어보자.

   (1) 이클립스를 실행하자. 
   (2) 실행시에 어느 폴더에 프로젝트를 저장할지 묻는 팝업이 열린다. 편리한 곳을 설정하자.




(3) 이클립스가 켜지면, 월컴 탭을 꺼버리자.



 



(4) 새로운 프로젝트를 만들자.  




좌측 패키지 익스플로러에 우클릭 -> New -> Java Project를 선택하자.






원하는 프로젝트 이름을 입력하자.



만들어진 프로젝트의 src 폴더를 우클릭 -> New -> Class를 선택하자.




원하는 클래스 이름을 입력하자.






중간에 보이는 클래스이름.java 탭에 코드을 입력하자.

만약 클래스 이름이 다르다면, public static void~부터 3줄만 긁어다 붙이면 된다.



public class HelloWorld {
	public static void main(String[] args) {
		System.out.println("Hello World");
	}
}


만약 실행이 바로 안된다면, 상단 실행 모양의 Run Configuration을 선택하자.






이후 Java Application의 New Configuration을 선택해서, Main Class에 방금 만든 Class 이름을 입력한 다음, Run 버튼을 클릭하자.






Java 프로그램이 정상 실행되었다면, 하단의 Console 탭이 선택되면서, Hello World가 출력된다.



3. Jsoup 설치

2번까지는 기본적인 설치 방법이고, 대부분의 전공자들은 이미 자바가 설치되어 있으니 뛰어 넘었지 않을까 싶다. 이번에는 Jsoup 라이브러리를 다운로드하여 설치하는 과정을 설명한다.  

 Jsoup의 다운로드 링크는 아래와 같다.


 

Jsoup 다운로드 링크



 3개의 Jar 파일을 다운로드 하여야 하는데, 반약 귀찮다면 아래의 3개의 링크를 다운로드 해도 된다.

jsoup-1.11.3.jar

jsoup-1.11.3-sources.jar

jsoup-1.11.3-javadoc.jar



 다운로드한 파일은 적당한 위치에 모아서 저장해두자.



 그리고 기존의 프로젝트로 돌아와서, 패키지 익스플로러상의 프로젝트 이름을 우클릭하여 Property -> Java Build Path 탭 -> Libraries를 선택한 다음, Add External JARs를 선택하여 방금 다운로드한 Jar 파일 3개를 추가하자.



그리고 아래의 코드를 입력하여, 확인해보자.

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class HelloWorld{
    public static void main(String[] args) throws Exception{
        String URL = "https://jcdgods.tistory.com/320";
        Document doc = Jsoup.connect(URL).get();
        Elements elem = doc.select("div.article");
        String str = elem.text();
        System.out.println(str);
    }
}


정상적으로 실행된다면, Jsoup이 정상 설치된 것이다.


다음에는 환율 정보를 예로 들어 HTML을 파싱하는 크롤링 프로그램을 만들어보려고 한다. 다소 내용이 길수도, 어려울 수 있으니 여러번 이클립스를 실행하여 기본적인 것에 익숙해지자.



 데이터 수집을 위한 크롤링 연속 포스팅 

[크롤링] 데이터 수집을 위한 크롤링 1편 : 크롤링이란 무엇인가?

[크롤링] 데이터 수집을 위한 크롤링 2편 : 크롤링에 필요한 필수 요소들

[크롤링] 데이터 수집을 위한 크롤링 3편 : JSON, 더 자세한 설명

[크롤링] 데이터 수집을 위한 크롤링 4편 : Java의 설치와 간단한 Jsoup 예제

[크롤링] 데이터 수집을 위한 크롤링 5편 : Yahoo 파이낸스를 이용한 환율 크롤링



페이스북으로 공유카카오톡으로 공유카카오스토리로 공유트위터로 공유URL 복사