목록신문사 (3)
Dev log
저번에 중앙일보와 한계례 신문사를 저번에 웹 크롤링하는 것을 했습니다. 두 번 정도 해보니까 이제 슬슬 감이 잡히지 않던가요? 링크랑 기사 내용 태그만 확인하면 크롤링되는 것을 확인했으니, 이번엔 그냥 전체 신문사에서 선택해서 크롤링하는 스크립트를 짜 볼까 합니다. 웹 크롤링 함수 구현 우선 자신의 컴퓨터 user-agent를 확인해야합니다. 여기를 눌러 자신의 agent를 꼭 확인합니다. 우리는 메인 함수와 서브 함수 두가지를 우선 만들어야 합니다. 메인 함수는 크롤링한 text를 리턴하는 함수를 만들고, 서브 함수는 두 가지 정도를 만들려고 합니다. 서브 함수는 기사 상세 url과 기사 text를 리스트를 append 시키는 함수, 그리고 url를 입력받아 html로 변환하고 beautiful sou..
지난 포스팅에서 기사 제목만을 크롤링하는 것을 했는데, 이번에는 조금 더 나아가서 기사 내용까지 크롤링해보도록 하겠습니다 웹 크롤링 기사 내용을 크롤링하기 위해 기사를 클릭 후 저번과 마찬가지로 F12를 눌러 기사 내용을 클릭합니다. 그럼 기사 내용이 div 태그에 text 클래스에 기사 내용이 있음을 확인할 수 있습니다. 여기서 기사 내용만을 클릭하면 언제 올라온 기사인지 모르니 기사 날짜도 함께 크롤링합니다. 기사 날짜는 p 태그에 data-time 클래스가 있습니다. import urllib.request from bs4 import BeautifulSoup def fetch_list_url(): # 현재 기사 URL list_url = "http://www.hani.co.kr/arti/econom..
워드 클라우드나 특정 데이터를 수집하기 위해 자주 사용되는 웹 스크롤링에 대해 한번 알아보겠습니다. 보통 웹 스크롤링할 때는 a태그에 있는 것을 긁어서 사용합니다. 저는 오늘 특정 신문사에서 기사를 긁어오는 것을 한번 해보겠습니다. 스크롤링 신문사 홈페이지로 들어가서 찾고자 하는 것을 검색한 후 url을 가져오겠습니다. 여기서 알아야 할 점은 주소가 위 그림처럼 뜨지만, 주소를 메모장에 복붙하면 아래처럼 암호화된 주소가 보입니다. 그렇기 때문에 직접 URL를 건들어서 웹 스크롤링을 하기는 힘들다는 점을 알아두셔야 합니다. 이제 여기서 우리가 해야 댈것은 페이지 번호를 확인하고 나서 for문을 돌려서 웹 스크롤링할 예정입니다. 우선 F12를 눌러 기사 제목을 클릭해서 기사 제목을 확인해보겠습니다. F12를..