Skip to content
조회 수 17773 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

사이트 긁어오기


http://www.moonseller.net/273


현재 내가 발견한 사이트 긁어오기가 안되는 사이트의 유형은 세가지다. 세션을 물고 들어가야지만 페이지가 열리는 경우와 자기 자신의 도메인에서 오지 않을 경우 정상적인 접근이 아니라고 하는 경우 , 그리고 특정 국가의 아이피를 아예 차단시킨경우다.


1. 세션을 물고 들어가야 하는 경우

스누피 fetch 하기전에 아래와 같이 세션값을 임의로 먹여준다.

$snoopy->cookies["SessionID"] = 세션값;

2. 자기 자신의 도메인으로 부터 들어오지 않으면 막아버리는 경우

위와 마찬가지로 fetch 하기전에 아래와 같이 값을 먹여준다.

$snoopy->referer = “접속한 도메인";


3. 외국 사이트가 한국 ip를 아예 차단한 경우

http://nntime.com/proxy-country/United-States-01.htm

www.cybersyndrome.net/plr5.html

 

위 사이트들에서 좋은 프록시 서버를 찾았으면 아래와 같이 세팅해준다.

$snoopy->proxy_host = “프록시서버"; 
$snoopy->proxy_port = "프록시 서버 포트번호";





네이버 카페에의 글 목록의 소스를 가져와서 파싱, 

iframe을 가져오는 방법.



<?
$szServer = "www.naver.com";
  $fp  = fsockopen($szServer, 80, $errorno, $errstr, 30);
  // Getting string
  $string = "";
  if(!$fp){
   echo "$errstr ($errno)<br>\n";
}else{
   fputs ($fp, "GET / HTTP/1.0\r\n\r\n");
 while(!feof($fp)) {
   $string .= fgets($fp, 128);
 }
 fclose($fp);
}
  echo "<textarea>$string</textarea>";
?>


헤더까지 받아오므로 헤더는 적절히 잘라주세요.


iframe의 src값을 받아오려면 받아온 $string을 적절하게 검색하시면 됩니다.


<?
$iFrameIndex = stripos($string, "<iframe");
  
  if($iFrameIndex !== false){
   $iFrameEndIndex = stripos($string, ">", $iFrameIndex);
   $szFrame = substr($string, $iFrameIndex, $iFrameEndIndex - $iFrameIndex + 1);
  
   $iSrcIndex = stripos($szFrame, "src");
   $szFrame = substr($szFrame, $iSrcIndex+4);
  
   if(substr($szFrame, 0, 1) == "\""){
   $iSrcIndex = 1;
   $iSrcEndIndex = stripos($szFrame, "\"", 1) - 1;
   }else if(substr($szFrame, 4, 1) == "'"){
   $iSrcIndex = 1;
   $iSrcEndIndex = stripos($szFrame, "'", 1) - 1;
   }else{
   $iSrcIndex = 0;
   $iSrcEndIndex = stripos($szFrame, " ", 1);
   }
  
   if($iSrcEndIndex === false){
   $szFrame = substr($szFrame, $iSrcIndex);
   }else{
   $szFrame = substr($szFrame, $iSrcIndex, $iSrcEndIndex);
   }
}
echo $szFrame;
?>


또한 받아온 iframe의 src의 내용을 받으실라면 src를 받은 $szFrame으로 소켓을 여시면됩니다.



http://anipage.tistory.com/517






 웹페이지 자동 로긴해서 긁어 오기와 HTML 파싱 라이브러리

http://gnusdm.egloos.com/91945



Autosurf 소스 받기
autosurf.php 내용 보기
Html Parse 소스 받기






로그인 후 댓글쓰기가 가능합니다.

?

List of Articles
번호 분류 제목 날짜 조회 수
657 컴퓨터잡담 PC에서 스마트폰 원격제어하는 프로그램 2 2012.01.09 5937
656 Excel PDF, EXCEL 파일 변환 1 2012.06.30 19809
655 프로세스 PF사용...페이징 중지를 통한 시스템 성능개선 2011.04.10 30889
654 Server PHP Opcache 속도개선 시키기 2016.03.07 1829
653 Server PHP Opcache 적용 전과 후의 비교 1 2016.03.07 1307
652 Server PHP Proxy 가져오기 2 2013.04.20 14181
651 컴퓨터잡담 PHP Text to Image 1 2010.09.29 13950
650 Server PHP 가속기 secret 2016.03.05 525
649 컴퓨터잡담 PHP 변수를 자바로 전송후 HTML로 뿌려주기 2010.03.18 23363
» 컴퓨터잡담 PHP 스누피로 사이트 긁어오기가 되지 않는 사이트를 긁어오는 3가지 방법 3 2011.08.31 17773
647 컴퓨터잡담 PHP 시간관련 함수 2 4 2009.08.06 21208
646 컴퓨터잡담 php 에서 mysql 제어하기 2009.11.28 28200
645 컴퓨터잡담 php 이미지 저장 및 이미지크기를 줄여 저장기술 소스 2009.10.17 14232
644 Visual C++ PHP) Proxy 서버를 이용해서 원격 웹서버 내용 갖고 오기 12 2013.02.28 21868
643 Server php) curl_setopt의 옵션 1 10 2013.04.02 12938
642 Server PHP) Example #1 HTML 엔티티 디코딩 13 2013.04.02 10179
641 Server php) register_globals = on 으로 설정할 수 없는경우 10 2013.03.23 8521
640 Server PHP) Web Proxy Server 만들기 소스 1 file 2013.03.04 15138
639 컴퓨터잡담 PHP) 다음 로그인 방식이 바뀌었군. 2012.08.25 6274
638 Server php) 변수명을 변수값으로 지정방법 10 2013.03.23 8279
Board Pagination Prev 1 ... 12 13 14 15 16 ... 46 Next
/ 46

http://urin79.com

우린친구블로그

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소