업무를 하다보면 웹페이지에서 정보를 수집해야 하는 경우가 생깁니다.
저는 보통 기관에 홍보를 하려고 할 때 메일주소나 팩스번호를 수집하고는 하는데요.
이걸 엑셀에 하나씩 옮기는게 매우 번거로운 작업입니다. 복사 – 붙여넣기 혹은 하나씩 옮겨 적어야 하는데요.
그래서 이러한 작업을 하면서 프로그램이 하나쯤은 있을 것 같은데 라는 생각이 들었는데요.
이번에 소개해드리려고 하는 작업은 이러한 웹페이지 크롤링을 해주는 ‘리스틀리’라고 하는 프로그램을 소개하려고 합니다.
웹사이트 크롤링 서비스 이용후기
크롤링?
크롤링이라고 한다면 애드센스나 웹사이트를 운영하시는 분들에게는 익숙한 단어입니다.
크롤링이라고 하는 사전적 의미는 웹의 다양한 정보를 자동으로 검색하고 데이터로 추출하는 작업이라고 하는데요.
웹사이트를 운영할 때 크롤링이라는 작업을 통해서 검색 사이트에 등록하거나 하는 방법으로 활용되는데요.
지금 제가 하려고 하는 크롤링 작업은 웹페이지에 있는 데이터를 프로그램을 통해 추출하는 형태를 진행하려고 합니다.
물론 이러한 작업은 언급이 되어 있는 것처럼 상업적으로 이용되면 지적재산권 침해에 문제가 될 수 있기 때문에 잘 활용을 해야 합니다.
이러한 부분은 잘 참고를 하시고 활용하시기 바랍니다.
리스틀리 서비스 설치
그 중에서 활용을 하고자 하는 프로그램은 바로 리스틀리라고 하는 프로그램입니다. 이러한 리스틀리 프로그램은 크롬 혹은 웨일 확장프로그램을 통해서 활용을 하실 수 있습니다.
리스틀리 확장프로그램 추가 바로가기
위의 링크를 통해서 이동하시면 위와 같은 내용을 보실 수 있습니다.
웨일이나 크롬 모두 추가 가능하며 실제로 웨일에서 사용을 해보니 특별한 문제 없이 사용이 가능하였습니다.
그렇게 크롬에 추가를 눌러 추가를 하시면 이제 확장앱에서 리스틀리를 고정해서 사용할 수 있습니다.
웹사이트 크롤링, 데이터 추출을 자주 이용하신다면 고정을 하는 것도 좋습니다.
비용은 위와 같습니ㅏㄷ.저는 사실 회원가입도 안하고 이용을 햇는데요.
웹페이지에서 단순 데이터를 추출하는 것은 특별하게 회원가입 없이도 사용이 가능한 것으로 보입니다.
다만 좀 더 전문적이게 이용하시려고 한다면 금액을 지출해도 좋을 것 같은데요.
저는 업무적으로 단순하게 데이터 추출 용도로만 사용하려고 하기 때문에 굳이 유료로 사용하지는 않으려고 합니다.
활용기
그럼 이제 데이터 추출을 한번 해볼까요? 다양한 사용방법이 있겠습니다만 웹사이트에서 데이터 추출을 굉장히 편리하게 활용할 수가 있습니다.
예시 데이터로 이렇게 예금금리를 비교한 자료를 데이터로 추출해서 엑셀로 정리를 하고 싶다고 할 때 활용을 할 수도 있습니다.
확장프로그램에서 리스틀리를 선택 후 여기서 전체 혹은 부분을 눌러주세요.
저는 주로 부분을 눌러 원하는 표를 선택하여 데이터를 추출합니다.
부분을 선택 후 원하는 곳을 올리면 이렇게 블럭이 형성됩니다. 이제 눌러주시면 됩니다.
그리고 런 리스틀리를 눌러서 이제 데이터를 추출해주시면 되세요.
그럼 데이터가 정리가 되고 여기서 엑셀 다운로드를 눌러서 엑셀파일로 추출된 데이터를 확인하실 수 있습니다.
그럼 엑셀로 이렇게 데이터가 정리되어 있는 모습을 보실 수 있습니다.
데이터만 추출된거라 여기서 활용을 하신다면 추가적인 편집은 진행하셔야 할 듯 합니다.
이렇게 웹페이트 크롤링, 데이터 추출을 하는 방법을 알아보았는데요. 도움이 되셨으면 좋겠네요. 글을 읽어주셔서 감사드립니다.