Skip to content
조회 수 17774 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

사이트 긁어오기


http://www.moonseller.net/273


현재 내가 발견한 사이트 긁어오기가 안되는 사이트의 유형은 세가지다. 세션을 물고 들어가야지만 페이지가 열리는 경우와 자기 자신의 도메인에서 오지 않을 경우 정상적인 접근이 아니라고 하는 경우 , 그리고 특정 국가의 아이피를 아예 차단시킨경우다.


1. 세션을 물고 들어가야 하는 경우

스누피 fetch 하기전에 아래와 같이 세션값을 임의로 먹여준다.

$snoopy->cookies["SessionID"] = 세션값;

2. 자기 자신의 도메인으로 부터 들어오지 않으면 막아버리는 경우

위와 마찬가지로 fetch 하기전에 아래와 같이 값을 먹여준다.

$snoopy->referer = “접속한 도메인";


3. 외국 사이트가 한국 ip를 아예 차단한 경우

http://nntime.com/proxy-country/United-States-01.htm

www.cybersyndrome.net/plr5.html

 

위 사이트들에서 좋은 프록시 서버를 찾았으면 아래와 같이 세팅해준다.

$snoopy->proxy_host = “프록시서버"; 
$snoopy->proxy_port = "프록시 서버 포트번호";





네이버 카페에의 글 목록의 소스를 가져와서 파싱, 

iframe을 가져오는 방법.



<?
$szServer = "www.naver.com";
  $fp  = fsockopen($szServer, 80, $errorno, $errstr, 30);
  // Getting string
  $string = "";
  if(!$fp){
   echo "$errstr ($errno)<br>\n";
}else{
   fputs ($fp, "GET / HTTP/1.0\r\n\r\n");
 while(!feof($fp)) {
   $string .= fgets($fp, 128);
 }
 fclose($fp);
}
  echo "<textarea>$string</textarea>";
?>


헤더까지 받아오므로 헤더는 적절히 잘라주세요.


iframe의 src값을 받아오려면 받아온 $string을 적절하게 검색하시면 됩니다.


<?
$iFrameIndex = stripos($string, "<iframe");
  
  if($iFrameIndex !== false){
   $iFrameEndIndex = stripos($string, ">", $iFrameIndex);
   $szFrame = substr($string, $iFrameIndex, $iFrameEndIndex - $iFrameIndex + 1);
  
   $iSrcIndex = stripos($szFrame, "src");
   $szFrame = substr($szFrame, $iSrcIndex+4);
  
   if(substr($szFrame, 0, 1) == "\""){
   $iSrcIndex = 1;
   $iSrcEndIndex = stripos($szFrame, "\"", 1) - 1;
   }else if(substr($szFrame, 4, 1) == "'"){
   $iSrcIndex = 1;
   $iSrcEndIndex = stripos($szFrame, "'", 1) - 1;
   }else{
   $iSrcIndex = 0;
   $iSrcEndIndex = stripos($szFrame, " ", 1);
   }
  
   if($iSrcEndIndex === false){
   $szFrame = substr($szFrame, $iSrcIndex);
   }else{
   $szFrame = substr($szFrame, $iSrcIndex, $iSrcEndIndex);
   }
}
echo $szFrame;
?>


또한 받아온 iframe의 src의 내용을 받으실라면 src를 받은 $szFrame으로 소켓을 여시면됩니다.



http://anipage.tistory.com/517






 웹페이지 자동 로긴해서 긁어 오기와 HTML 파싱 라이브러리

http://gnusdm.egloos.com/91945



Autosurf 소스 받기
autosurf.php 내용 보기
Html Parse 소스 받기






로그인 후 댓글쓰기가 가능합니다.

?

List of Articles
번호 분류 제목 날짜 조회 수
297 컴퓨터잡담 [JavaScript] DOM-HTML(을)를 조작하기 위한 구조 2011.09.02 5468
296 컴퓨터잡담 [php] Htmlparser.inc, Htmlparser.php Dom Paser 3 file 2011.09.02 5247
295 컴퓨터잡담 [php] DOM Paser 예제 2011.08.31 5991
» 컴퓨터잡담 PHP 스누피로 사이트 긁어오기가 되지 않는 사이트를 긁어오는 3가지 방법 3 2011.08.31 17774
293 컴퓨터잡담 [php] file_get_contents() - 해당 url 소스 가져오기 2 2011.08.31 7719
292 컴퓨터잡담 [php] 외부이미지 파일이 정상인지 체크 2011.08.28 6823
291 컴퓨터잡담 인터넷 익스플로러 창닫힘 현상 해결방법 3 2011.08.23 5468
290 컴퓨터잡담 모듬 인증 2011.08.17 4231
289 컴퓨터잡담 특정사이트 접속 느려질 경우 대처방법 1 2011.08.09 4552
288 컴퓨터잡담 익스플로러 창이 자동으로 닫힐때 필요한 전용백신 프로그램 2011.08.09 4738
287 AutoHotKey [AHK_B&AHK_L] 익스플로러 HTML 문서정보 알아내기(IE HTML Element Spy) 2011.08.08 15168
286 AutoHotKey [AHK_B&AHK_L] 엑셀 제어 비교. 2 2011.08.02 20268
285 AutoHotKey [AHK_L] 현재 열려진 인터넷 창 값 가져오기 4 2011.08.02 16588
284 컴퓨터잡담 windows xp 정품인증 크랙 2011.08.01 8118
283 컴퓨터잡담 Windows 7 빌드 7600 이 Windows는 정품이 아닙니다.( 윈도우7 정품인증 패치,크랙) 2011.08.01 17244
282 컴퓨터잡담 [AHK] COM Standard Library 1 1 2011.07.28 13588
281 컴퓨터잡담 [AHK] AutoHotkey_N, AutoHotkey.dll 1 2011.07.28 13563
280 컴퓨터잡담 [크롬OS] 한글 입력방법 2011.07.27 5312
279 컴퓨터잡담 삼성 센스P30노트북 도스에서 USB 설정방법 2 file 2011.07.26 8643
278 컴퓨터잡담 [윈도우] 명령어 모음 2011.07.19 5974
Board Pagination Prev 1 ... 30 31 32 33 34 ... 46 Next
/ 46

http://urin79.com

우린친구블로그

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소