위키백과: AI 개발자를 위한 데이터, 봇 스크래퍼 차단

위키백과는 AI 모델 개발자들이 직접 플랫폼에서 훈련 데이터를 스크래핑하는 것을 방지할 계획입니다. 대신, 구글이 운영하는 플랫폼인 카글(Kaggle)과 협력하여 기계 학습에 최적화된 데이터셋을 제공할 예정입니다.

새로운 베타 데이터셋은 현재 461,000개 이상의 공개 데이터셋을 호스팅하는 카글에서 제공될 것입니다. 이 데이터셋은 기계 학습 워크플로우를 위해 특별히 설계된 영어와 프랑스어의 구조화된 위키백과 콘텐츠를 포함합니다. 개발자들이 모델링, 미세 조정, 성능 측정 및 기계 판독 가능한 기사 데이터를 통한 데이터 분석을 용이하게 하는 것을 목표로 하고 있습니다.

데이터셋에는 연구 요약, 짧은 설명, 이미지 참조, 정보 상자에서의 데이터 및 기사 섹션이 포함되지만, 참고 문헌 및 오디오 파일과 같은 비텍스트 요소는 제외됩니다. 콘텐츠는 주로 크리에이티브 커먼즈 저작자 표시-동일조건변경허락 4.0 및 GNU 자유 문서 라이선스(GFDL) 하에 라이선스가 부여됩니다.

데이터는 위키백과의 구조화된 콘텐츠 베타를 통해 스냅샷 API를 통해 제공되며, 잘 구조화된 JSON 표현에 접근할 수 있습니다. 이 방법은 전통적인 스크래핑이나 파싱보다 더 효율적이며, 위키백과 서버의 부하를 크게 줄입니다. 플랫폼의 케이시 뉴턴에 따르면, 자동화된 AI 봇은 2024년에 트래픽을 50% 증가시킬 것으로 예상됩니다.

또한, 이 데이터셋은 소규모 AI 기업과 데이터 과학자들이 훈련 데이터에 더 쉽게 접근할 수 있도록 하여, 그들의 시스템 개발을 지원하는 것을 목표로 하고 있습니다.

* 이 글은 computerbase.de의 기사를 요약한 것입니다. 전체 기사의 내용은 이곳에서 확인하실 수 있습니다.

위키백과: AI 개발자를 위한 데이터, 봇 스크래퍼 차단

댓글