Skip to content
조회 수 17773 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

사이트 긁어오기


http://www.moonseller.net/273


현재 내가 발견한 사이트 긁어오기가 안되는 사이트의 유형은 세가지다. 세션을 물고 들어가야지만 페이지가 열리는 경우와 자기 자신의 도메인에서 오지 않을 경우 정상적인 접근이 아니라고 하는 경우 , 그리고 특정 국가의 아이피를 아예 차단시킨경우다.


1. 세션을 물고 들어가야 하는 경우

스누피 fetch 하기전에 아래와 같이 세션값을 임의로 먹여준다.

$snoopy->cookies["SessionID"] = 세션값;

2. 자기 자신의 도메인으로 부터 들어오지 않으면 막아버리는 경우

위와 마찬가지로 fetch 하기전에 아래와 같이 값을 먹여준다.

$snoopy->referer = “접속한 도메인";


3. 외국 사이트가 한국 ip를 아예 차단한 경우

http://nntime.com/proxy-country/United-States-01.htm

www.cybersyndrome.net/plr5.html

 

위 사이트들에서 좋은 프록시 서버를 찾았으면 아래와 같이 세팅해준다.

$snoopy->proxy_host = “프록시서버"; 
$snoopy->proxy_port = "프록시 서버 포트번호";





네이버 카페에의 글 목록의 소스를 가져와서 파싱, 

iframe을 가져오는 방법.



<?
$szServer = "www.naver.com";
  $fp  = fsockopen($szServer, 80, $errorno, $errstr, 30);
  // Getting string
  $string = "";
  if(!$fp){
   echo "$errstr ($errno)<br>\n";
}else{
   fputs ($fp, "GET / HTTP/1.0\r\n\r\n");
 while(!feof($fp)) {
   $string .= fgets($fp, 128);
 }
 fclose($fp);
}
  echo "<textarea>$string</textarea>";
?>


헤더까지 받아오므로 헤더는 적절히 잘라주세요.


iframe의 src값을 받아오려면 받아온 $string을 적절하게 검색하시면 됩니다.


<?
$iFrameIndex = stripos($string, "<iframe");
  
  if($iFrameIndex !== false){
   $iFrameEndIndex = stripos($string, ">", $iFrameIndex);
   $szFrame = substr($string, $iFrameIndex, $iFrameEndIndex - $iFrameIndex + 1);
  
   $iSrcIndex = stripos($szFrame, "src");
   $szFrame = substr($szFrame, $iSrcIndex+4);
  
   if(substr($szFrame, 0, 1) == "\""){
   $iSrcIndex = 1;
   $iSrcEndIndex = stripos($szFrame, "\"", 1) - 1;
   }else if(substr($szFrame, 4, 1) == "'"){
   $iSrcIndex = 1;
   $iSrcEndIndex = stripos($szFrame, "'", 1) - 1;
   }else{
   $iSrcIndex = 0;
   $iSrcEndIndex = stripos($szFrame, " ", 1);
   }
  
   if($iSrcEndIndex === false){
   $szFrame = substr($szFrame, $iSrcIndex);
   }else{
   $szFrame = substr($szFrame, $iSrcIndex, $iSrcEndIndex);
   }
}
echo $szFrame;
?>


또한 받아온 iframe의 src의 내용을 받으실라면 src를 받은 $szFrame으로 소켓을 여시면됩니다.



http://anipage.tistory.com/517






 웹페이지 자동 로긴해서 긁어 오기와 HTML 파싱 라이브러리

http://gnusdm.egloos.com/91945



Autosurf 소스 받기
autosurf.php 내용 보기
Html Parse 소스 받기






로그인 후 댓글쓰기가 가능합니다.

?

List of Articles
번호 분류 제목 날짜 조회 수
217 AutoHotKey AHK_L 예제소스 1 2011.02.10 17015
216 컴퓨터잡담 [PHP] 한글삭제 정규식 1 2010.11.22 17048
215 컴퓨터잡담 티맥스 앞날이 깜깜 2009.07.08 17160
214 컴퓨터잡담 Windows 7 빌드 7600 이 Windows는 정품이 아닙니다.( 윈도우7 정품인증 패치,크랙) 2011.08.01 17243
213 컴퓨터잡담 엑셀 다중조건 구현하기 2010.05.13 17312
212 HTMLPHPMSQL javascript만으로 html간 변수값 주고받기 2018.01.25 17336
211 컴퓨터잡담 윈도우7 공유기 사용시 네트워크 연결 문제 2 2011.06.27 17367
210 컴퓨터잡담 어도비 프리미어 프로 템플릿 폴더 관리방법 7 2022.12.10 17387
209 컴퓨터잡담 Spy & Capture Spy++과 같은 계열의 프로그램 1 2009.12.10 17415
208 AutoHotKey ahk_l 과 com 의 이해 2011.02.22 17485
207 AutoHotKey ahk_l 웹페이지 앞, 뒤페이지 제어 예제소스 및 설명첨부 2011.02.22 17535
206 컴퓨터잡담 Mysql 에러메시지 2010.04.27 17549
205 컴퓨터잡담 윈도우7(WINDOWS7) IPv6 제거방법 1 2011.12.17 17729
204 Visual C++ 함수와변수 14 2011.01.25 17750
203 AutoHotKey autohotkey와 autohotkey_l 의 인터넷 창 띄우기 비교예제 2 2011.02.11 17772
» 컴퓨터잡담 PHP 스누피로 사이트 긁어오기가 되지 않는 사이트를 긁어오는 3가지 방법 3 2011.08.31 17773
201 [Docs]스프레드시트 음력변환 2014.11.11 17854
200 AutoHotKey 부팅 완료 체크 2011.02.09 17864
199 WindowsTip 보안경고 - 안전하게 제공된 콘텐츠만 보시겠습니까? <= 없애는 방법 2013.05.21 17946
198 컴퓨터잡담 List of Windows Messages 2 1 2009.12.15 17961
Board Pagination Prev 1 ... 34 35 36 37 38 ... 46 Next
/ 46

http://urin79.com

우린친구블로그

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소