검색

2025년 제7호-[미국] Anthropic사의 AI 학습 목적의 저작물 이용에 대한 미국 법원의 공정이용 판단(홍지희)

2025-07-30 한국저작권위원회

주요내용

  • 2025년 제7호-[미국] Anthropic사의 AI 학습 목적의 저작물 이용에 대한 미국 법원의 공정이용 판단(홍지희)
  • 저작권 동향

    2025년 제7호

    미국

    • [미국] Anthropic사의 AI 학습 목적의 저작물 이용에 대한 미국 법원의 공정이용 판단(홍지희)

    1. 개요

    • AI 언어모델(LLM) 개발을 위해서는 방대한 양의 텍스트 데이터를 학습하는 과정이 수반됨. 이 과정에서 학습데이터로 저작물을 활용하는 것을 두고 저작자와 AI 기업 간의 대립이 심화되는 상황임. 이와 관련하여 미국 캘리포니아북부 연방지방법원은 2025년 6월 23일, Anthropic사가 대량의 도서를 AI 학습에 무단으로 사용한 사건에 대해서 공정이용 관련 약식판결(summary judgement)을 내림. 아래에서는 Anthropic 사건의 약식판결 내용을 살펴보고자 함.

    2. 사실관계

    • AI 기업 Anthropic은 자사의 언어모델 Claude를 개발하는 과정에서 수백만 권의 책을 수집해 학습데이터로 활용함. 이 과정에서 Books3, LibGen, PiLiMi 등 불법 복제 사이트에서 약 700만 권의 책을 무단 다운로드하거나, 중고 도서 수백만 권을 구입 및 스캔하여 PDF로 변환하는 방식으로 데이터를 수집함. 확보한 데이터는 자사의 ‘중앙 라이브러리(central library)’에 보관함. 이러한 방식으로 수집된 도서는 Claude의 학습에 활용되었으며, 베스트셀러 작가 3인(Andrea Bartz, Charles Graeber, Kirk Wallace Joghson)의 저작물도 이에 포함되었음. 이에 작가들은 자신의 저작물이 무단으로 복제·이용되었다며 2024년 8월, Anthropic을 상대로 저작권 침해 소송을 제기함. 소송이 진행되는 과정에서 피고 Anthropic 측은 AI 학습이 공정이용에 해당한다며 약식판결을 신청함. 캘리포니아북부 연방지방법원은 본안 심리 이전에 공정이용 여부만을 다투는 절차를 허용했고, 2025년 6월 23일 피고의 공정이용 주장 일부를 인용함.

    3. 공정이용 판단 기준

    • 법원은 미국 저작권법 제107조에 따라 공정이용 여부를 판단하는 네 가지 요소(① 이용 목적과 성격, ② 저작물의 성격, ③ 이용된 양과 중요성, ④ 시장에 미치는 영향)를 기준으로, Claude의 학습데이터로 사용된 복제물 각각에 대해 개별적으로 검토함.
    • (1) 이용의 목적과 성격

      첫 번째 기준에서는 해당 이용이 단순 복제인지, 아니면 변형적(transformative)인지를 중심으로 공정이용 여부를 판단함. 법원은 상업적 목적이 존재하더라도 저작물이 새로운 방식으로 활용되어 창작적 기능을 형성한다면 공정이용으로 인정될 수 있다는 입장을 취함. LLM 학습에 사용된 복제물의 경우, Claude의 언어모델 성능 향상을 위한 학습데이터로 활용되었고, 생성된 결과물은 원저작물을 그대로 재현하거나 대체하지 않기 때문에 높은 변형성이 인정되었음. 이에 따라 해당 이용은 공정이용에 유리하게 평가됨. 또한, 인쇄본을 구입하고 이를 디지털로 스캔하여 내부 라이브러리에 저장한 행위 역시 외부 배포 없이 형식 전환과 기술적 효율을 위한 용도로 이뤄졌다는 점에서 공정이용에 우호적으로 판단됨. 반면 불법복제 사이트 등 불법 경로를 통해 확보한 수백만 권의 도서를 중앙 디지털 라이브러리에 영구 보관한 행위는 자료 확보 방식 자체가 불법이며, 실제 사용 여부와 관계없이 변형성도 인정되지 않아 공정이용에 불리한 요소로 작용함.
    • (2) 저작물의 성격

      피고가 학습에 사용한 저작물들은 주로 소설과 논픽션으로, 창작성과 표현성이 높은 유형에 해당함. 미국 저작권법상 창작성이 클수록 보호 강도가 높게 평가되며, 법원도 이 점을 고려해 해당 요소가 공정이용 판단에 불리하게 작용한다고 봄.
    • (3) 저작물 전체와 관련하여 사용된 양과 중요성

      세 번째 기준에서는 사용된 저작물의 양과 사용의 중요성을 살펴봄. LLM 학습에 사용된 복제물의 경우, 모델의 문맥 이해를 위해 전체 텍스트가 사용될 수밖에 없다는 점이 고려되어, 목적 대비 정당한 범위의 이용으로 판단됨. 중고책을 구입해 디지털화한 경우 역시, 1권당 1부의 복제물만을 저장하고 실물은 폐기한 점을 고려해 과도한 복제로 보기 어렵다고 판단하여 공정이용에 유리하게 평가됨. 반면, 불법 복제본은 학습에 사용되지 않은 책까지 포함해 대규모로 저장된 점이 과도하고 불필요한 이용으로 간주되어 공정이용 인정에 불리한 요소로 작용함.
    • (4) 저작물의 잠재적 시장 또는 가치에 대한 사용의 영향

      마지막으로, 법원은 각 이용 행위가 저작권자의 시장 기회 또는 경제적 이익에 미치는 영향을 평가함. LLM 학습에 활용된 복제물의 경우, 생성된 결과물이 원저작물과 실질적으로 유사하지 않으며 출판물의 판매를 대체하지도 않는다고 판단하여 저작물의 전통적 시장을 침해하지 않는 것으로 봄. 중고책을 디지털화한 경우에도 외부 유통이 없고, 디지털 시장을 일부 대체했을 가능성은 있으나 그 영향이 경미하다고 평가됨. 반면, 불법 복제본을 무단으로 수집·보관한 행위는 상업적으로 유통 중인 책의 직접적인 판매 기회와 라이선스 수익을 침해한 것으로 보아, 공정이용을 부정하는 근거로 작용함.
    • 법원은 공정이용 여부를 판단함에 있어서 사용 목적별(① LLM 학습을 위한 복제, ② 중앙 라이브러리 저장을 위한 복제)로 구분하여 독립적으로 접근함. LLM 학습을 위한 활용은 고도로 변형적인 사용이라고 인정하였으며, 중앙 라이브러리에 저장하기 위한 복제 행위는 데이터 수집의 적법성에 따라서 판결에 차이를 둠. 이에 따라 불법적으로 수집한 데이터의 활용은 공정이용 판단에 불리하게 작용했으며, 반면, 중고책 구입을 통해 합법적으로 수집한 데이터의 활용은 공정이용으로 인정하였음.

    4. 결론 및 시사점

    • 이번 판결은 공정이용 판단에 있어 결과물의 성격뿐 아니라, 데이터 확보 방식의 적법성, 이용 목적, 침해의 실질성 등을 종합적으로 고려해야 함을 시사함. 특히 저작물 수집의 출처와 방식이 공정이용 인정 여부에 결정적인 영향을 미쳤다는 점이 주목할 만함. 불법 경로를 통해 확보된 복제물은 공정이용에 불리하게 작용한 반면, 중고책을 구입해 디지털화하여 내부 데이터로 활용한 경우는 공정이용으로 인정됨. 이는 디지털화된 방식이 학습 목적상 필요한 기술적 수단으로 받아들여졌기 때문이며, AI 학습데이터에 대해 정당한 대가가 지급되었는지를 판단한 것은 아님. 그럼에도 불구하고 이번 판결은 향후 AI 학습데이터 활용과 관련한 ‘대가 논의’에서 하나의 참고사례로 언급될 가능성을 남김. 이번 판결은 AI 시대의 공정이용 기준에 일정한 방향성을 제시했다는 점에서 의의가 있으나, 이를 선결례로 보기에는 무리가 있음. 공정이용이 인정되지 않은 쟁점들이 여전히 본안 심리 대상으로 남아 있고, 공정이용이 인정된 사안에 대해서도 항소 여부에 따라 판단이 달라질 수 있는 여지가 존재하기 때문임. 한편, 원고는 2025년 7월 집단소송(class certification)을 신청하였고, 캘리포니아북부 연방지방법원 William Alsup 판사는 원고들이 다른 저자들을 대표할 수 있다고 판단하여 이를 허가함. 이로 인해 손해배상 규모가 확대되거나 협상 과정에서의 압박이 커질 가능성이 있음. 영구 보관된 불법 복제물과 관련된 손해배상 쟁점은 2025년 12월 본안 심리에서 다뤄질 예정이며, 그 결과와 해석은 재판 경과를 지켜볼 필요가 있음.

    참고자료

    • Andrea Bartz et al. v. Anthropic PBC., 3:24-cv-05417-WHA
      Andrea Bartz et al. v. Anthropic PBC., 3:24-cv-05417-WHA, Order on Class Certification

※ 자세한 내용은 첨부(PDF)파일을 참고하시기 바랍니다.