[용어] 크롤링(Crawling)

AI를 활용해서 크롤링을 해보고자 했는데 클로버엑스에서는 저작권 위반이라고 코드를 알려주지 않았다. 크롤링이란 용어에 대해 알아보고 더불어 크롤링의 위법적 사항에 대해서 알아보자.

1. 크롤링이란?

크롤링은 웹 사이트에서 데이터를 수집하는 프로세스를 말합니다. 이것은 보통 웹 페이지의 HTML 코드를 분석하고 원하는 정보를 추출하는 과정을 포함합니다. 크롤링은 다양한 목적으로 사용될 수 있으며, 정보 수집, 데이터 분석, 검색 엔진의 색인화 등 다양한 분야에서 활용됩니다.

보통 파이썬 같은 프로그램을 사용해서 코딩한 후 웹사이트에 접속해서 필요한 정보만 가져온다.

예를 들면 핫한 키워드를 얻기 위해 웹사이트에 접속해서 나온 뉴스제목을 가져올 수도 있고 종목의 언급성을 얻기 위해 그 종목 관련 뉴스가 얼마나 많이 증가했는지를 알아보기 위해서 크롤링할 수도 있다.

아니면 OPENAPI를 사용해서 검색한 데이터를 가져오기 위해서도 크롤링 할 수 있다.

2. 위법? 합법?

요약

사이트 운영자가 크롤링 허용을 안했고

사이트 운영에 방해가 되었다면 민법상 손해배상을 할 수도 있다.

개인이 영업을 방해하려면 무한루프로 쉼없이 해당사이트에서 자료를 요청해서 과부하를 주는경우가 해당 할 것 같다. 무한루프는 사용하지 말고, 자료취득시에도 인터벌을 두어서(사람이 클릭하는 수준 3~5초정도?) 취득해야 함

관련 판결

이전에 이미 야놀자와 여기어때가 관련하여 법적공방을 벌였다.

대법원 판결은 형법상 무죄 민법상 유죄

(형법에서는 다수에서 공개된 정보이므로 위법으로 보지 않음)

(이 당시 민법상 유죄는 두 회사가 경쟁관계에 있기 때문에 후발주자가 선발주자의 정보를 크롤링한 게 문제가 되었다)

합법과 불법으로 간주되는 경우(출처: GEMINI)

크롤링이 불법으로 간주되는 경우:

사이트 운영자의 동의 없이 크롤링하는 경우:
- robots.txt 파일을 통해 크롤링을 금지하고 있는 사이트를 크롤링하는 경우
- 서비스 이용약관을 위반하여 크롤링하는 경우
개인정보 또는 기밀정보를 크롤링하는 경우:
- 개인정보 보호법 위반
- 정보통신망법 위반
저작권 침해를 하는 경우:
- 저작권이 있는 콘텐츠를 허락 없이 복제하거나 배포하는 경우
서버에 과도한 부하를 주는 경우:
- DDoS 공격으로 인해 서버가 정상적으로 작동하지 못하는 경우

크롤링이 합법으로 간주되는 경우:

사이트 운영자의 동의를 얻어 크롤링하는 경우:
- API를 제공하는 사이트를 이용하는 경우
- 사이트 운영자에게 직접 연락하여 동의를 구하는 경우
공개된 정보를 크롤링하는 경우:
- 개인정보 또는 기밀정보가 아닌 정보를 크롤링하는 경우
- 저작권 침해가 되지 않는 정보를 크롤링하는 경우
서버에 부하를 주지 않는 방식으로 크롤링하는 경우:
- 적절한 속도로 크롤링하는 경우
- 서버 용량을 고려하여 크롤링하는 경우

크롤링을 하기 전에 다음 사항을 확인해야 합니다.

사이트 운영자의 크롤링 정책: robots.txt 파일, 서비스 이용약관 등을 확인해야 합니다.
크롤링하는 정보의 종류: 개인정보, 기밀정보, 저작권 침해 여부를 확인해야 합니다.
크롤링 방식: 서버에 과도한 부하를 주지 않는 방식으로 크롤링해야 합니다.

불법 크롤링은 법적 처벌을 받을 수 있습니다.

정보통신망법 위반: 5년 이하의 징역 또는 5천만원 이하의 벌금
저작권 침해: 5년 이하의 징역 또는 7천만원 이하의 벌금
개인정보 보호법 위반: 3년 이하의 징역 또는 3천만원 이하의 벌금

참조기사

형사는 무죄, 민사는 “10억 배상”…데이터 크롤링 어디까지 되나

[그때 그 IT] 웹크롤링 판례 (2) 야놀자와 여기어때 간 숙박정보 크롤링

3. 크롤링 허용여부 확인방법(샘플)

취득하고 싶은 사이트에 들어가서 메인 주소뒤에 "/robots.txt" 를 넣고 엔터를 친다.

https://weekly.chosun.com/news/articleView.html?idxno=33644/

이런 사이트라면 메인주소인 weekly.chosun.com 까지만 남기고 뒤에는 지우고 그 뒤에 /robots.txt를 붙이고 엔터

https://weekly.chosun.com/robots.txt

그럼 아래와 같은 문구가 나옴. 하나씩 해석해 봄.

User-agent: *

Disallow: /admin/

(모든사람은 /admin 폴더에는 크롤링 허용 안 돼, 다른 폴더는 허용해 줄게, Allow라고 없지만 Disallow 이외는 허용)

User-agent: GPTBot

Disallow: /

(GPT 사용하는 AI들은 모든폴더가 허용 안 됨)

User-agent: bingbot

Crawl-delay: 30

(bingbot은 30초에 한번씩 취득 허용)

크롤링 용어와 문제가 될만한 사항에 대해서 알아봤다. 불특정 한 무분별한 크롤링은 허용을 안 해주지만 OEPNAPI를 통해서 데이터 취득을 허용해 주는 게 있다. 다음번에는 OPENAPI에 대해서 자세히 알아봐야겠다.

저작자표시 비영리 변경금지 (새창열림)

'정보공유' 카테고리의 다른 글

이란, 이스라엘(팔레스타인, 이스라엘) 왜 싸울까? (1)	2024.04.07
부활절 알아보기 (0)	2024.04.06
러바오, 아이바오, 푸바오, 루이바오, 후이바오 판다 알아보기 (0)	2024.04.06
24년 국회의원선거에 대해 알아보기(4/10) (0)	2024.04.01
부활절 알아보기 (0)	2024.03.31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

alldig

[용어] 크롤링(Crawling)

1. 크롤링이란?

2. 위법? 합법?

3. 크롤링 허용여부 확인방법(샘플)

'정보공유' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[용어] 크롤링(Crawling)

1. 크롤링이란?

2. 위법? 합법?

3. 크롤링 허용여부 확인방법(샘플)

'정보공유' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역