목록크롤링 (6)
Dev log
미디어는 한국 사회의 흐름을 압축적으로 담고 있는 Snapshot입니다. 지난 19년, 가장 대표적이고 강력한 미디어, 헤드라인 뉴스로 한국 사회를 되돌아 볼까합니다. 이번 포스팅은 사회 부분을 다뤄보겠습니다. SBS뉴스 사회 부분의 헤드라인 부분을 다 크롤링하여 문장을 단어별로 나눈 후 count 하였습니다. Web Crawling R을 이용하여 크롤링을 하려고 할때 아래와 같은 라이브러리가 필요합니다. # 필요 패키지 설치 library(gsubfn) library(stringr) library(XML) 크롤링 함수는 아래와 같이 URL을 입력받아 긁어오도록 하였습니다. SBSnews
저번 포스팅에서는 신문사를 크롤링하는 것을 해봤는데, 이번에는 네이버에서 이미지를 크롤링하는 것을 해볼까합니다. 이미지 크롤링 이미지 크롤링할 때 필요한 모듈은 아래와 같습니다. import urllib.request from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys # 웹 애플리케이션의 테스트를 자동화하기 위한 프레임 워크 # 손으로 마우스 클릭해서 데이터를 검색하고 스크롤링 할 수 있다 import time # 중간마다 sleep를 걸어야 한다. 그리고 저번 신문사 크롤링과는 다르게 이번에 chromedriver가 필요하기 때문에 다운해야합니다. 여기에서 O..
저번에 H사 신문사를 웹 크롤링해봤습니다. 신문사마다 주소가 다르기 때문에 이번에는 J사 주소를 가지고 와서 저번이랑 똑같이 웹 크롤링을 해보도록 하겠습니다. 웹 크롤링 우선 중앙일보 신문사 링크를 가져와 보겠습니다. 저번과 마찬가지로 메모장에 복붙하면 암호화 된 주소 를 확인할 수있습니다. import urllib.request from bs4 import BeautifulSoup search_text = input("검색어를 입력하세요 : ").encode("utf-8") search_text = str(search_text)[2:-1].replace('\\x', '%') list_url = "hhttp://search.joins.com/JoongangNews?page=2&Keyword=" + sea..
저번 포스팅에서는 기사 제목과 내용을 크롤링하는 것을 했는데, 이번에는 크롤링 하려고 검색어을 입력받아 자동으로 크롤링하는 것을 짜보겠습니다. 웹 크롤링 저번에 가져온 암호화 된 주소를 살펴보면 아래와 같은데, 여기서 검색어를 삽입해야합니다. def han_article(): # 모듈 임포트 import urllib.request from bs4 import BeautifulSoup import re import os # 검색어 입력 search_text = input("검색어를 입력하세요 : ").encode("utf-8") search_text = str(search_text)[2:-1].replace('\\x', '%') ##상세 기사 url url_list = [] for i in range(30..
지난 포스팅에서 기사 제목만을 크롤링하는 것을 했는데, 이번에는 조금 더 나아가서 기사 내용까지 크롤링해보도록 하겠습니다 웹 크롤링 기사 내용을 크롤링하기 위해 기사를 클릭 후 저번과 마찬가지로 F12를 눌러 기사 내용을 클릭합니다. 그럼 기사 내용이 div 태그에 text 클래스에 기사 내용이 있음을 확인할 수 있습니다. 여기서 기사 내용만을 클릭하면 언제 올라온 기사인지 모르니 기사 날짜도 함께 크롤링합니다. 기사 날짜는 p 태그에 data-time 클래스가 있습니다. import urllib.request from bs4 import BeautifulSoup def fetch_list_url(): # 현재 기사 URL list_url = "http://www.hani.co.kr/arti/econom..
워드 클라우드나 특정 데이터를 수집하기 위해 자주 사용되는 웹 스크롤링에 대해 한번 알아보겠습니다. 보통 웹 스크롤링할 때는 a태그에 있는 것을 긁어서 사용합니다. 저는 오늘 특정 신문사에서 기사를 긁어오는 것을 한번 해보겠습니다. 스크롤링 신문사 홈페이지로 들어가서 찾고자 하는 것을 검색한 후 url을 가져오겠습니다. 여기서 알아야 할 점은 주소가 위 그림처럼 뜨지만, 주소를 메모장에 복붙하면 아래처럼 암호화된 주소가 보입니다. 그렇기 때문에 직접 URL를 건들어서 웹 스크롤링을 하기는 힘들다는 점을 알아두셔야 합니다. 이제 여기서 우리가 해야 댈것은 페이지 번호를 확인하고 나서 for문을 돌려서 웹 스크롤링할 예정입니다. 우선 F12를 눌러 기사 제목을 클릭해서 기사 제목을 확인해보겠습니다. F12를..