이 기사는 OpenAI, Meta, Midjourney와 같은 AI 기업들이 디즈니, 유니버설과 같은 할리우드 스튜디오로부터 저작권 소송을 당하면서 증가하는 압박에 대해 논의합니다. 이들 기업은 공정 사용(Fair Use) 규정을 인용하며 자신의 관행을 방어하고 있습니다. 스탠포드, 코넬, 웨스트버지니아 대학교의 법학자들이 수행한 연구는 AI 모델에서 '기억(Memorization)' 문제를 강조하며, 출력물이 저작권이 있는 훈련 데이터와 밀접하게 유사하다는 점을 지적합니다. 예를 들어, Meta의 Llama 3.1 70B 모델은 첫 번째 해리 포터 책의 내용을 50토큰 발췌에서 42% 재현한 것으로 나타나 저작권 침해에 대한 우려를 불러일으켰습니다.
이 소송은 주요 AI 기업들을 겨냥하고 있으며, 현재 모델을 개발하기 위해 방대한 양의 데이터가 필요하다는 점을 강조합니다. OpenAI의 2020년 GPT-3 논문에 따르면, 훈련에 사용된 CommonCrawl 데이터셋은 45TB의 압축된 텍스트를 포함하고 있어 필요한 데이터의 규모를 나타냅니다. AI 웹 크롤러는 인터넷 자원을 압박하고 있으며, 위키피디아는 AI 봇 활동으로 인해 50%의 트래픽 증가를 경험하고 있습니다.
이 기사는 AI 훈련에서 저작권 침해에 관한 세 가지 이론을 제시합니다: 저작권이 있는 작품을 디지털 복사본으로 사용하는 것, 정보를 모델에 전이하는 것, 보호된 작품의 일부를 재생산하는 것입니다. 이러한 소송의 결과는 불확실하지만, AI 기업에 대한 판결이 내려질 경우 산업에 중대한 영향을 미칠 수 있습니다. 또한, 이 기사는 AI 기업들이 이러한 법적 도전을 극복하기 위한 전략으로 정치적 로비를 활용할 가능성에 대해 논의하며, AI 기술에서 미국의 리더십을 유지하는 데 있어 지정학적 이해관계를 강조합니다.
전반적으로 이 기사는 AI 개발, 저작권 법, 그리고 기술 산업에서 데이터 사용에 대한 윤리적 고려 사이의 복잡한 상호작용을 강조합니다.
* 이 글은
computerbase.de의 기사를 요약한 것입니다. 전체 기사의 내용은
이곳에서 확인하실 수 있습니다.