Skip to content
조회 수 1473 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

파이썬 Beautifulsoup 웹크롤링 차단시 해결방법

 

크롤링이 차단되었다면 유저 에이전트(User Agent)를 지정해보자

 

크롤링을 하다 보면 종종 페이지에서 아무것도 받아오지 못해서 막히는 경우가 생깁니다.

서버에서 차단을 당했기 때문입니다. 

 

서버는 User Agent 검사 등의 방법으로 일반 사용자(사람)와 봇을 구분하여 차단할 수 있습니다. 

 

가장 쉬운 방법은 Header에 User Agent 정보를 만들어서 보내는 겁니다.

 

 

유저 에이전트란

브라우저가 웹사이트에 연결을 시작할 때 전달되는 기기 정보로 브라우저의 유형, 운영체제 등의 정보가 담겨있습니다. 예를 들면 다음과 같이 생겼습니다.

 

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36

 

유저 에이전트를 담아서 get 요청보내기

url = '웹페이지 주소'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36'}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.text, 'html.parser')

 

user-agent 값에 어떤 문자열을 넣어야 할지 모르겠다면 http://www.useragentstring.com/에 들어가서 본인의 정보를 확인하고 그대로 붙여 넣어도 무방합니다.

 

로그인 후 댓글쓰기가 가능합니다.

?

  1. 파이썬 셀레니움으로 네이버 증권의 종목 검색하여 특정항목 클릭하기

  2. 파이썬 pyautogui 명령어

  3. 윈도우 XP에서 exFAT 인식 패치방법

  4. 무선 공유기 선택시 중요한 4가지

  5. autohotkey regwrite ipv6 제거툴

  6. 알리익스프레스에서 산 ralink 802.n usb driver

  7. 복구콘솔 USB 만들기

  8. 파이썬 에러 해결방법 모음

  9. MySQL 5.6 my.cnf 글로벌 변수인지 세션변수인지 확인

  10. 파이썬으로 키움증권 open api 사용해보기

  11. 파이썬 네이버라인 메시지 보내기

  12. Winpe 4in1

  13. 파이썬 Beautifulsoup 웹크롤링 차단시 해결방법

  14. 파이썬 네이버 증권 주식 현재가 가져오기

  15. 파이썬 다음 증권의 주가 가져오기

  16. XE성능 캐시활용으로 속도 100배 개선하기(Varnish 캐시서버 + XE(+패치) + nginx(혹은 아파치) / Wincache)

  17. 파이썬 변수전달하기

  18. 파이썬 find, select 사용법

  19. 파이썬 초보자가 접하기 쉬운 오류 메시지

  20. XE 업데이트 후 모듈업데이트가 안될때 참고

Board Pagination Prev 1 ... 42 43 44 45 46 Next
/ 46

http://urin79.com

우린친구블로그

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소