본문 바로가기
정보공유

[용어] 크롤링(Crawling)

by alldig 2024. 4. 6.
반응형

AI를 활용해서 크롤링을 해보고자 했는데 클로버엑스에서는 저작권 위반이라고 코드를 알려주지 않았다. 크롤링이란 용어에 대해 알아보고 더불어 크롤링의 위법적 사항에 대해서 알아보자.

 

1. 크롤링이란?

크롤링은 웹 사이트에서 데이터를 수집하는 프로세스를 말합니다. 이것은 보통 웹 페이지의 HTML 코드를 분석하고 원하는 정보를 추출하는 과정을 포함합니다. 크롤링은 다양한 목적으로 사용될 수 있으며, 정보 수집, 데이터 분석, 검색 엔진의 색인화 등 다양한 분야에서 활용됩니다.

 

보통 파이썬 같은 프로그램을 사용해서 코딩한 후 웹사이트에 접속해서 필요한 정보만 가져온다. 

예를 들면 핫한 키워드를 얻기 위해 웹사이트에 접속해서 나온 뉴스제목을 가져올 수도 있고 종목의 언급성을 얻기 위해 그 종목 관련 뉴스가 얼마나 많이 증가했는지를 알아보기 위해서 크롤링할 수도 있다. 

아니면 OPENAPI를 사용해서 검색한 데이터를 가져오기 위해서도 크롤링 할 수 있다. 

 

2. 위법? 합법?

  • 요약

 

사이트 운영자가 크롤링 허용을 안했고

&

사이트 운영에 방해가 되었다면 민법상 손해배상을 할 수도 있다.

 

개인이 영업을 방해하려면 무한루프로 쉼없이 해당사이트에서 자료를 요청해서 과부하를 주는경우가 해당 할 것 같다. 무한루프는 사용하지 말고, 자료취득시에도 인터벌을 두어서(사람이 클릭하는 수준 3~5초정도?) 취득해야 함

 

 

  • 관련 판결

이전에 이미 야놀자와 여기어때가 관련하여 법적공방을 벌였다. 

대법원 판결은 형법상 무죄 민법상 유죄

(형법에서는 다수에서 공개된 정보이므로 위법으로 보지 않음)

(이 당시 민법상 유죄는 두 회사가 경쟁관계에 있기 때문에 후발주자가 선발주자의 정보를 크롤링한 게 문제가 되었다)

 

  • 합법과 불법으로 간주되는 경우(출처: GEMINI)
더보기

크롤링이 불법으로 간주되는 경우:

  • 사이트 운영자의 동의 없이 크롤링하는 경우:
    • robots.txt 파일을 통해 크롤링을 금지하고 있는 사이트를 크롤링하는 경우
    • 서비스 이용약관을 위반하여 크롤링하는 경우
  • 개인정보 또는 기밀정보를 크롤링하는 경우:
    • 개인정보 보호법 위반
    • 정보통신망법 위반
  • 저작권 침해를 하는 경우:
    • 저작권이 있는 콘텐츠를 허락 없이 복제하거나 배포하는 경우
  • 서버에 과도한 부하를 주는 경우:
    • DDoS 공격으로 인해 서버가 정상적으로 작동하지 못하는 경우

크롤링이 합법으로 간주되는 경우:

  • 사이트 운영자의 동의를 얻어 크롤링하는 경우:
    • API를 제공하는 사이트를 이용하는 경우
    • 사이트 운영자에게 직접 연락하여 동의를 구하는 경우
  • 공개된 정보를 크롤링하는 경우:
    • 개인정보 또는 기밀정보가 아닌 정보를 크롤링하는 경우
    • 저작권 침해가 되지 않는 정보를 크롤링하는 경우
  • 서버에 부하를 주지 않는 방식으로 크롤링하는 경우:
    • 적절한 속도로 크롤링하는 경우
    • 서버 용량을 고려하여 크롤링하는 경우

크롤링을 하기 전에 다음 사항을 확인해야 합니다.

  • 사이트 운영자의 크롤링 정책: robots.txt 파일, 서비스 이용약관 등을 확인해야 합니다.
  • 크롤링하는 정보의 종류: 개인정보, 기밀정보, 저작권 침해 여부를 확인해야 합니다.
  • 크롤링 방식: 서버에 과도한 부하를 주지 않는 방식으로 크롤링해야 합니다.

불법 크롤링은 법적 처벌을 받을 수 있습니다.

  • 정보통신망법 위반: 5년 이하의 징역 또는 5천만원 이하의 벌금
  • 저작권 침해: 5년 이하의 징역 또는 7천만원 이하의 벌금
  • 개인정보 보호법 위반: 3년 이하의 징역 또는 3천만원 이하의 벌금

 

  • 참조기사

형사는 무죄, 민사는 “10억 배상”…데이터 크롤링 어디까지 되나

[그때 그 IT] 웹크롤링 판례 (2) 야놀자와 여기어때 간 숙박정보 크롤링

 

3. 크롤링 허용여부 확인방법(샘플)

 

취득하고 싶은 사이트에 들어가서 메인 주소뒤에 "/robots.txt" 를 넣고 엔터를 친다. 

https://weekly.chosun.com/news/articleView.html?idxno=33644/

 

이런 사이트라면 메인주소인 weekly.chosun.com 까지만 남기고 뒤에는 지우고 그 뒤에 /robots.txt를 붙이고 엔터

https://weekly.chosun.com/robots.txt

 

그럼 아래와 같은 문구가 나옴. 하나씩 해석해 봄.

 

User-agent: *

Disallow: /admin/

(모든사람은 /admin 폴더에는 크롤링 허용 안 돼, 다른 폴더는 허용해 줄게, Allow라고 없지만 Disallow 이외는 허용)

 

User-agent: GPTBot

Disallow: /

(GPT 사용하는 AI들은 모든폴더가 허용 안 됨)

 

User-agent: bingbot

Crawl-delay: 30

(bingbot은 30초에 한번씩 취득 허용)

 

크롤링 용어와 문제가 될만한 사항에 대해서 알아봤다. 불특정 한 무분별한 크롤링은 허용을 안 해주지만 OEPNAPI를 통해서 데이터 취득을 허용해 주는 게 있다. 다음번에는 OPENAPI에 대해서 자세히 알아봐야겠다. 

 

반응형