misc. LM

AI 스크레이퍼에게 쓰레기 데이터 먹이기


Listen Later

웹사이트 운영자가 대규모 언어 모델(LLM) 훈련을 위한 공격적이고 끊임없는 웹 스크래퍼에 대응하기 위해 취한 조치를 개괄합니다. 작성자는 전통적인 차단 방식이 효과가 없으며, 심지어 IP 주소를 요청당 하나씩 바꾸는 봇들 때문에 대역폭과 서버 자원이 소모된다고 설명합니다. 이에 대한 해결책으로, 작성자는 사용자에게 불편을 주지 않으면서 마르코프 연쇄 기법을 사용하여 서버 자원을 매우 적게 소모하는 무가치한 '쓰레기' 콘텐츠를 동적으로 생성해 스크래퍼에게 먹이는 전략을 택했습니다.

...more
View all episodesView all episodes
Download on the App Store

misc. LMBy m.s.s.