Skip to content
조회 수 17773 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

사이트 긁어오기


http://www.moonseller.net/273


현재 내가 발견한 사이트 긁어오기가 안되는 사이트의 유형은 세가지다. 세션을 물고 들어가야지만 페이지가 열리는 경우와 자기 자신의 도메인에서 오지 않을 경우 정상적인 접근이 아니라고 하는 경우 , 그리고 특정 국가의 아이피를 아예 차단시킨경우다.


1. 세션을 물고 들어가야 하는 경우

스누피 fetch 하기전에 아래와 같이 세션값을 임의로 먹여준다.

$snoopy->cookies["SessionID"] = 세션값;

2. 자기 자신의 도메인으로 부터 들어오지 않으면 막아버리는 경우

위와 마찬가지로 fetch 하기전에 아래와 같이 값을 먹여준다.

$snoopy->referer = “접속한 도메인";


3. 외국 사이트가 한국 ip를 아예 차단한 경우

http://nntime.com/proxy-country/United-States-01.htm

www.cybersyndrome.net/plr5.html

 

위 사이트들에서 좋은 프록시 서버를 찾았으면 아래와 같이 세팅해준다.

$snoopy->proxy_host = “프록시서버"; 
$snoopy->proxy_port = "프록시 서버 포트번호";





네이버 카페에의 글 목록의 소스를 가져와서 파싱, 

iframe을 가져오는 방법.



<?
$szServer = "www.naver.com";
  $fp  = fsockopen($szServer, 80, $errorno, $errstr, 30);
  // Getting string
  $string = "";
  if(!$fp){
   echo "$errstr ($errno)<br>\n";
}else{
   fputs ($fp, "GET / HTTP/1.0\r\n\r\n");
 while(!feof($fp)) {
   $string .= fgets($fp, 128);
 }
 fclose($fp);
}
  echo "<textarea>$string</textarea>";
?>


헤더까지 받아오므로 헤더는 적절히 잘라주세요.


iframe의 src값을 받아오려면 받아온 $string을 적절하게 검색하시면 됩니다.


<?
$iFrameIndex = stripos($string, "<iframe");
  
  if($iFrameIndex !== false){
   $iFrameEndIndex = stripos($string, ">", $iFrameIndex);
   $szFrame = substr($string, $iFrameIndex, $iFrameEndIndex - $iFrameIndex + 1);
  
   $iSrcIndex = stripos($szFrame, "src");
   $szFrame = substr($szFrame, $iSrcIndex+4);
  
   if(substr($szFrame, 0, 1) == "\""){
   $iSrcIndex = 1;
   $iSrcEndIndex = stripos($szFrame, "\"", 1) - 1;
   }else if(substr($szFrame, 4, 1) == "'"){
   $iSrcIndex = 1;
   $iSrcEndIndex = stripos($szFrame, "'", 1) - 1;
   }else{
   $iSrcIndex = 0;
   $iSrcEndIndex = stripos($szFrame, " ", 1);
   }
  
   if($iSrcEndIndex === false){
   $szFrame = substr($szFrame, $iSrcIndex);
   }else{
   $szFrame = substr($szFrame, $iSrcIndex, $iSrcEndIndex);
   }
}
echo $szFrame;
?>


또한 받아온 iframe의 src의 내용을 받으실라면 src를 받은 $szFrame으로 소켓을 여시면됩니다.



http://anipage.tistory.com/517






 웹페이지 자동 로긴해서 긁어 오기와 HTML 파싱 라이브러리

http://gnusdm.egloos.com/91945



Autosurf 소스 받기
autosurf.php 내용 보기
Html Parse 소스 받기






로그인 후 댓글쓰기가 가능합니다.

?

List of Articles
번호 분류 제목 날짜 조회 수
337 AutoHotKey ahk) 오토핫키 콤보박스 제어하기 file 2013.10.30 38176
336 WindowsTip 탐색기로 ftp 폴더 바로열기 file 2013.12.03 19665
335 WindowsTip Windows-XP 의 [Prefetch] 폴더에 대하여[C:\WINDOWS\Prefetch] 2013.12.04 24630
334 WindowsTip 스마트폰으로 오실로스코프 사용하기(App:OsciPrime Oscilloscope Legacy) file 2013.12.27 23302
333 WindowsTip 인터넷 익스플로러 속도개선 프로그램 file 2014.03.26 4764
332 AutoHotKey 엑셀 셀 복사하기(복사제한된 엑셀등) 1 file 2014.04.01 7781
331 AutoHotKey ahk) autohotkey controlgettext 이름을 마우스커서에 졸졸 따라다니게 하기 file 2014.04.01 12182
330 컴퓨터잡담 동영상 자르기 프로그램 file 2014.04.14 2704
329 컴퓨터잡담 구글 문서도구 스프레드시트로 바코드 입력하기 2014.07.19 4667
328 Excel 오피스 2003, 2007, 2010... 삭제할 수 없을 때 제거 방법 2014.07.31 6881
327 Excel 배열수식 다중조건의 일치하는 값 불러 오기 2014.08.20 14176
326 Server XE DB 튜닝 2014.09.13 4377
325 Excel Google 스프레드시트 함수 2014.10.04 7168
324 Excel 엑셀 여러가지 기능 2014.11.10 5010
323 [Docs]스프레드시트 Google Spreadsheet (Docs) 에서 우리은행 환율정보 이용하기 2014.11.11 29869
322 [Docs]스프레드시트 음력변환 2014.11.11 17854
321 [Docs]스프레드시트 쇼킹한 웹 긁어오기 2014.11.11 3903
320 HTMLPHPMSQL PHP강좌 MySQL 연동 2014.11.11 5801
319 Excel 엑셀에서 날짜합계 구하는 함수(Sumproduct 함수 이해하기) 2014.12.13 9908
318 WindowsTip 익스플로러 ftp 정상화 시키기 file 2014.12.23 1660
Board Pagination Prev 1 ... 28 29 30 31 32 ... 46 Next
/ 46

http://urin79.com

우린친구블로그

sketchbook5, 스케치북5

sketchbook5, 스케치북5

나눔글꼴 설치 안내


이 PC에는 나눔글꼴이 설치되어 있지 않습니다.

이 사이트를 나눔글꼴로 보기 위해서는
나눔글꼴을 설치해야 합니다.

설치 취소