안녕하세요. 엔지엠소프트웨어입니다. 오늘 알아볼 내용은 웹크롤링에 대한 내용입니다. 특정 사이트에서 이메일을 수집하는 방법을 알아볼건데요. 우선~ 아래 동영상을 참고해서 엔지엠 에디터를 실행하고, 새로운 스크립트를 추가(Ctrl+N)하세요.
아래 그림과 같이 [ 웹 크롤러 ] 액션을 스크립트에 추가하세요.
- 외부 API 선택
- 웹 API 카테고리 확장
- 웹 크롤러 선택
- 더블클릭 또는 드래그로 스크립트에 추가
이메일을 추출할 사이트 주소를 입력합니다.
- 인스턴트 모드를 True로 설정하면 웹브라우저 없이 크롤링할 수 있습니다.
- 크롤링할 주소를 "https://stackoverflow.com/questions/201323/how-can-i-validate-an-email-address-using-a-regular-expression"와 같이 입력하세요.
실행하면 사이트의 모든 내용(HTML)을 가져옵니다. 이 내용을 [ 변수 ]에 저장해야 합니다.
- 함수 상자 선택
- 변수 카테고리 확장
- 변수 추가 액션 선택
- 더블클릭 또는 드래그로 스크립트에 추가
- 아이디에 "HTML" 입력
- 덮어쓰기 속성을 True로 변경
웹 크롤러 액션을 선택한 후 속성에서 크롤링한 HTML 내용을 변수에 추가 해줍니다.
- 추가하기 클릭
- 추가 버튼 클릭
- 변수 이름과 데이타 선택
- 확인 버튼 클릭
[ 정규 표현식 ] 액션을 추가한 후 아래 그림과 같이 설정 해주세요.
- 함수 상자 클릭
- 표현식 카테고리의 정규 표현식 액션 선택
- 더블클릭 또는 드래그로 스크립트에 추가
- 매치 옵션을 Matchs 선택
- 정규 표현식에 "\w+([-+.']\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*" 입력
정규 표현식에서 이메일을 추출할 원본 데이타를 가져와야 합니다.
- 가져오기 클릭
- 추가 버튼 클릭
- 변수 이름과 데이타 선택
- 확인 버튼 클릭
스크립트를 실행하면, 예제로 입력한 사이트에서 이메일 주소를 배열 형태로 모두 가져옵니다.
간단하지만, 쉽고 강력한 기능입니다. 정규식을 이용하면 사이트 데이타에서 이메일뿐만 아니라 사이트 주소나 어떤 값들을 규칙에 맞게 추출할 수 있습니다. 물론, 정규식을 잘 다루기 위해서는 관련 지식을 습득하거나 정규 표현식 관련 책을 한번 읽어보는게 좋긴 합니다. 혹시 궁금한 내용이 있으면 커뮤니티의 질문과 답변 게시판에 질문 올려주세요^^
[ 초보자도 쉽게 따라할 수 있는 기초 학습 강좌 보기 ]
원본 글 보기
http://ngmsoftware.com/bbs/board.php?bo_table=tip_and_tech
엔지엠소프트웨어
엔지엠 매크로는 복잡한 반복작업을 자동화할 수 있습니다. PC 게임, 모바일 게임을 최적으로 지원하며 모든 PC 프로그램 및 업무에 적용할 수 있습니다.
www.ngmsoftware.com
#비활성매크로 #g102매크로 #철권매크로 #레이저마우스매크로 #ghub매크로 #녹화매크로 #키보드반복매크로 #로지텍마우스광클매크로 #플라스크매크로 #윈도우매크로 #비활성g매크로 #오토매크로 #자동사냥 #주식매크로 #오토핫키키보드 #오토핫키마우스 #오토핫키이미지 #지존오토 #기계식매크로 #하드웨어매크로 #무한반복매크로 #대량이메일발송매크로 #엑셀VBA매크로 #주식모니터링매크로
'엔지엠 매크로' 카테고리의 다른 글
웹크롤링 매크로 - 영어 단어를 입력하면 자동으로 해석해주는 매크로 만들기. (0) | 2022.07.02 |
---|---|
여러개의 매크로 또는 자동화 RPA를 실행하고, 각각 단축키를 설정하는 방법. (0) | 2022.06.30 |
매크로 프로그램 - 랜덤 클릭 오토마우스 (0) | 2022.06.26 |
매크로 프로그램 랜덤 지연과 가우시안 랜덤 지연의 차이점. (0) | 2022.06.26 |
윈도우 창 바둑판 정렬 매크로. (윈도우 창 타일 모양 배열) (0) | 2022.02.05 |
댓글