데이터 수집을 위한 크롤링 연속 포스팅 [크롤링] 데이터 수집을 위한 크롤링 1편 : 크롤링이란 무엇인가? [크롤링] 데이터 수집을 위한 크롤링 2편 : 크롤링에 필요한 필수 요소들 [크롤링] 데이터 수집을 위한 크롤링 3편 : JSON, 더 자세한 설명 [크롤링] 데이터 수집을 위한 크롤링 4편 : Java의 설치와 간단한 Jsoup 예제 [크롤링] 데이터 수집을 위한 크롤링 5편 : Yahoo 파이낸스를 이용한 환율 크롤링
1. Java 설치
크롤링을 위한 언어로 Java와 JSoup 라이브러리를 이용한다.(1) JAVA SDK 설치 JDK는 JAVA Development Kit의 약어로 자바 라이브러리 설치 도구 정도로 기억해도 좋다. 링크는 아래와 같으며, 최신 버전 JDK를 설치하자.
아마 이클립스 포톤 버전일 것이며, 반드시 JDK를 설치하고 실행하여야 정상 동작한다는 점을 유의하자.
설치 이후 아래의 순서로 진행하면 된다. 예전에는 인스톨러가 없었는데 요즘에 나와서 더 간편해졌다.
3) 환경 변수 편집
환경 변수의 경우, 내용이 길어질 수 있으므로 아래의 링크를 통해서 설치하도록 하자. (나의 경우, 환경 변수 설정이 안보이는데 잘되서.. 전에 깔아서 그런가.. 안되는분은 댓글 남겨주세요 :)
[Java] Java 개발을 위한, JDK와 Eclipse 설치 2/3
아무튼 이렇게 모든 준비가 끝났다면, 이제 간단한 자바 프로그래밍을 해보자.
2. 이클립스 활용과 간단한 Java 프로그램
지금까지 자바와 이클립스를 설치했으므로, 정상동작 확인을 위해서 간단한 자바프로그램(그래봐야 헬로월드)를 만들어보자.
좌측 패키지 익스플로러에 우클릭 -> New -> Java Project를 선택하자.
원하는 프로젝트 이름을 입력하자.
만들어진 프로젝트의 src 폴더를 우클릭 -> New -> Class를 선택하자.
원하는 클래스 이름을 입력하자.
중간에 보이는 클래스이름.java 탭에 코드을 입력하자.
만약 클래스 이름이 다르다면, public static void~부터 3줄만 긁어다 붙이면 된다.
public class HelloWorld {
public static void main(String[] args) {
System.out.println("Hello World");
}
}
만약 실행이 바로 안된다면, 상단 실행 모양의 Run Configuration을 선택하자.
이후 Java Application의 New Configuration을 선택해서, Main Class에 방금 만든 Class 이름을 입력한 다음, Run 버튼을 클릭하자.
Java 프로그램이 정상 실행되었다면, 하단의 Console 탭이 선택되면서, Hello World가 출력된다.
3. Jsoup 설치
2번까지는 기본적인 설치 방법이고, 대부분의 전공자들은 이미 자바가 설치되어 있으니 뛰어 넘었지 않을까 싶다. 이번에는 Jsoup 라이브러리를 다운로드하여 설치하는 과정을 설명한다.3개의 Jar 파일을 다운로드 하여야 하는데, 반약 귀찮다면 아래의 3개의 링크를 다운로드 해도 된다.
다운로드한 파일은 적당한 위치에 모아서 저장해두자.
그리고 기존의 프로젝트로 돌아와서, 패키지 익스플로러상의 프로젝트 이름을 우클릭하여 Property -> Java Build Path 탭 -> Libraries를 선택한 다음, Add External JARs를 선택하여 방금 다운로드한 Jar 파일 3개를 추가하자.
그리고 아래의 코드를 입력하여, 확인해보자.
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class HelloWorld{
public static void main(String[] args) throws Exception{
String URL = "https://jcdgods.tistory.com/320";
Document doc = Jsoup.connect(URL).get();
Elements elem = doc.select("div.article");
String str = elem.text();
System.out.println(str);
}
}
정상적으로 실행된다면, Jsoup이 정상 설치된 것이다.
다음에는 환율 정보를 예로 들어 HTML을 파싱하는 크롤링 프로그램을 만들어보려고 한다. 다소 내용이 길수도, 어려울 수 있으니 여러번 이클립스를 실행하여 기본적인 것에 익숙해지자.
데이터 수집을 위한 크롤링 연속 포스팅 [크롤링] 데이터 수집을 위한 크롤링 1편 : 크롤링이란 무엇인가? [크롤링] 데이터 수집을 위한 크롤링 2편 : 크롤링에 필요한 필수 요소들 [크롤링] 데이터 수집을 위한 크롤링 3편 : JSON, 더 자세한 설명 [크롤링] 데이터 수집을 위한 크롤링 4편 : Java의 설치와 간단한 Jsoup 예제 [크롤링] 데이터 수집을 위한 크롤링 5편 : Yahoo 파이낸스를 이용한 환율 크롤링
'시리즈물 > 데이터 수집을 위한 크롤링' 카테고리의 다른 글
[크롤링] 데이터 수집을 위한 크롤링 5편 : Yahoo 파이낸스를 이용한 환율 크롤링 (422) | 2019.03.02 |
---|---|
[크롤링] 데이터 수집을 위한 크롤링 3편 : JSON, 더 자세한 설명 (434) | 2019.03.02 |
[크롤링] 데이터 수집을 위한 크롤링 2편 : 크롤링에 필요한 필수 요소들 (403) | 2019.03.02 |
[크롤링] 데이터 수집을 위한 크롤링 1편 : 크롤링이란 무엇인가? (492) | 2019.03.02 |