회사 업무 중 구글 플레이에 있는 앱 정보를 정리할 일이 있었다. 앱의 제목, 카테고리, 개발사 명, 다운로드 수 정보를 일일이 복붙해 구글 시트에 입력했다. 복붙을 여러 번 반복하다 보니 슬슬 지겨워졌다. 지겨움을 극복하기 위해 구글 시트의 IMPORTXML 함수를 사용해 스토어 정보를 긁어왔다.
회사 업무 중 구글 플레이에 있는 앱 정보를 정리할 일이 있었다. 앱의 제목, 카테고리, 개발사 명, 다운로드 수 정보를 일일이 복붙해 구글 시트에 입력했다. 복붙을 여러 번 반복하다 보니 슬슬 지겨워졌다. 지겨움을 극복하기 위해 구글 시트의 IMPORTXML 함수를 사용해 스토어 정보를 긁어왔다.
인터넷에 공개되어있는 정보를 한 두 개 복사하는 것은 복붙으로 충분하지만, 10개, 50개, 100개가 넘어가면 자동화가 필요하다. 자동화라고 해서 꼭 코딩을 할 줄 알아야 하는 것은 아니다. 구글 시트로도 충분히 가능하다. 구글 플레이와 앱스토어에 있는 정보를 가져오는 예시를 통해 함께 살펴보자.
1. IMPORTXML 함수를 사용하자
스토어 페이지 정보를 긁어오기 위해서는 IMPORTXML 함수를 사용하면 된다.
=IMPORTXML(url, xpath_query)
이 간단한 공식에 url 값과 xpath_query 값만 넣어주면 된다. 그럼 여기에 넣을 값은 어떻게 찾아야 할까? 일단 url 부분부터 살펴보자.
url은 스토어 페이지의 주소다. 구글 플레이 홈페이지로 가서 ‘카카오톡’을 검색해 눌러보자. 그럼 카카오톡의 구글 플레이 url은 "https://play.google.com/store/apps/details?id=com.kakao.talk&hl=ko"인 것을 알 수 있다. 이걸 그대로 복사하면 된다. 문자 값이니 양끝에 큰 따옴표를 붙이는 것을 잊지 말자.
다음은 xpath_query다. xpath_query는 해당 페이지에서 원하는 정보가 어디에 위치하는지를 나타내 주는 코드다. 만약 카카오톡의 카테고리 정보가 필요하다면, 스토어 페이지에서 카테고리 텍스트의 xpath_query 값이 필요하다.
xpath_query 값을 찾는 법은 간단하다. 구글 크롬에서 해당 부분을 오른쪽 클릭 후 검사(Inspect) 모드 > 요소(Elements)에서 관련 태그와 클래스를 찾으면 된다.
예를 들어 카카오톡의 제목에 해당하는 xpath_query 값은 "//h1"이다. 제목 말고 "//h1"을 쓰는 곳이 없으므로 클래스 값은 굳이 넣지 않아도 된다.
카테고리 정보의 xpath_query 값은 "//a[@itemprop='genre']"이다. "//a" 태그는 다른 정보에서도 쓰이므로 "[@itemprop='genre']"까지 넣어줘야 오류가 나지 않는다.
2. 실제 예시
설명만 잔뜩 늘어놨으니 헷갈릴 수 있다. 이제 직접 구글 시트로 가 IMPORTXML 함수에 url과 xpath_query 값을 넣고 돌려보자.