목록웹 (6)
Dev log
저번 포스팅에서는 신문사를 크롤링하는 것을 해봤는데, 이번에는 네이버에서 이미지를 크롤링하는 것을 해볼까합니다. 이미지 크롤링 이미지 크롤링할 때 필요한 모듈은 아래와 같습니다. import urllib.request from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys # 웹 애플리케이션의 테스트를 자동화하기 위한 프레임 워크 # 손으로 마우스 클릭해서 데이터를 검색하고 스크롤링 할 수 있다 import time # 중간마다 sleep를 걸어야 한다. 그리고 저번 신문사 크롤링과는 다르게 이번에 chromedriver가 필요하기 때문에 다운해야합니다. 여기에서 O..
저번에 중앙일보와 한계례 신문사를 저번에 웹 크롤링하는 것을 했습니다. 두 번 정도 해보니까 이제 슬슬 감이 잡히지 않던가요? 링크랑 기사 내용 태그만 확인하면 크롤링되는 것을 확인했으니, 이번엔 그냥 전체 신문사에서 선택해서 크롤링하는 스크립트를 짜 볼까 합니다. 웹 크롤링 함수 구현 우선 자신의 컴퓨터 user-agent를 확인해야합니다. 여기를 눌러 자신의 agent를 꼭 확인합니다. 우리는 메인 함수와 서브 함수 두가지를 우선 만들어야 합니다. 메인 함수는 크롤링한 text를 리턴하는 함수를 만들고, 서브 함수는 두 가지 정도를 만들려고 합니다. 서브 함수는 기사 상세 url과 기사 text를 리스트를 append 시키는 함수, 그리고 url를 입력받아 html로 변환하고 beautiful sou..
저번에 H사 신문사를 웹 크롤링해봤습니다. 신문사마다 주소가 다르기 때문에 이번에는 J사 주소를 가지고 와서 저번이랑 똑같이 웹 크롤링을 해보도록 하겠습니다. 웹 크롤링 우선 중앙일보 신문사 링크를 가져와 보겠습니다. 저번과 마찬가지로 메모장에 복붙하면 암호화 된 주소 를 확인할 수있습니다. import urllib.request from bs4 import BeautifulSoup search_text = input("검색어를 입력하세요 : ").encode("utf-8") search_text = str(search_text)[2:-1].replace('\\x', '%') list_url = "hhttp://search.joins.com/JoongangNews?page=2&Keyword=" + sea..
저번 포스팅에서는 기사 제목과 내용을 크롤링하는 것을 했는데, 이번에는 크롤링 하려고 검색어을 입력받아 자동으로 크롤링하는 것을 짜보겠습니다. 웹 크롤링 저번에 가져온 암호화 된 주소를 살펴보면 아래와 같은데, 여기서 검색어를 삽입해야합니다. def han_article(): # 모듈 임포트 import urllib.request from bs4 import BeautifulSoup import re import os # 검색어 입력 search_text = input("검색어를 입력하세요 : ").encode("utf-8") search_text = str(search_text)[2:-1].replace('\\x', '%') ##상세 기사 url url_list = [] for i in range(30..
지난 포스팅에서 기사 제목만을 크롤링하는 것을 했는데, 이번에는 조금 더 나아가서 기사 내용까지 크롤링해보도록 하겠습니다 웹 크롤링 기사 내용을 크롤링하기 위해 기사를 클릭 후 저번과 마찬가지로 F12를 눌러 기사 내용을 클릭합니다. 그럼 기사 내용이 div 태그에 text 클래스에 기사 내용이 있음을 확인할 수 있습니다. 여기서 기사 내용만을 클릭하면 언제 올라온 기사인지 모르니 기사 날짜도 함께 크롤링합니다. 기사 날짜는 p 태그에 data-time 클래스가 있습니다. import urllib.request from bs4 import BeautifulSoup def fetch_list_url(): # 현재 기사 URL list_url = "http://www.hani.co.kr/arti/econom..
워드 클라우드나 특정 데이터를 수집하기 위해 자주 사용되는 웹 스크롤링에 대해 한번 알아보겠습니다. 보통 웹 스크롤링할 때는 a태그에 있는 것을 긁어서 사용합니다. 저는 오늘 특정 신문사에서 기사를 긁어오는 것을 한번 해보겠습니다. 스크롤링 신문사 홈페이지로 들어가서 찾고자 하는 것을 검색한 후 url을 가져오겠습니다. 여기서 알아야 할 점은 주소가 위 그림처럼 뜨지만, 주소를 메모장에 복붙하면 아래처럼 암호화된 주소가 보입니다. 그렇기 때문에 직접 URL를 건들어서 웹 스크롤링을 하기는 힘들다는 점을 알아두셔야 합니다. 이제 여기서 우리가 해야 댈것은 페이지 번호를 확인하고 나서 for문을 돌려서 웹 스크롤링할 예정입니다. 우선 F12를 눌러 기사 제목을 클릭해서 기사 제목을 확인해보겠습니다. F12를..