주요내용
브라우저 보안정책에 따라 이미지가 보이지 않을 수 있습니다 (Mixed Content)
저작권 동향
2025년 제11호
미국
2025년 제11호-[미국] 학습데이터 공개에 대한 미국 상원 법안 발의(이대희)
1. 개요
저작권 분야에서 학습데이터(training data)의 공개는 저작권자가 자신의 저작물이 학습데이터로 사용되었는지를 파악하기 위한 출발점이 되거나, AI 결과물이 저작권을 침해하였을 경우 의거관계 등을 확인하기 위한 기초자료가 될 수 있다. 현재까지 학습데이터 공개를 실제로 입법한 경우는 EU AI 법과 캘리포니아주 법 정도로 많은 것은 아니고, 한국에서도 AI 기본법 개정안이 나와 있는 상황이다. EU AI 법은 범용 AI 개발자로 하여금 ‘충분할 정도의 상세한 요약’을 제공하도록 하고 있고(§53.1(d)), 캘리포니아주는 데이터셋의 출처나 소유자 등을 공개하도록 하고 있다(AB 2013, Civil Code Division 3, Part 4 §§3110, 3111). AI 기본법 개정안은 저작권자가 자신의 저작물이 학습데이터로 이용되었는지 확인을 요청하는 경우, AI 사업자가 이를 확인할 수 있는 절차를 마련하도록 하는 것을 내용으로 하고 있다.
미국에서도 학습데이터 공개에 관한 법안이 여러 번 발의되었었다. 그런데 2025.7.24. 학습데이터 공개에 관하여 상원에서 발의된 법안(TRAIN Act)은 다소 독특한 면이 있는데, 저작권자가 개발자로 하여금 학습데이터를 공개하도록 명령을 내려줄 것을 법원의 서기에게 청구하는 것을 내용으로 한다. 이 법안도 공개의 절차에 대하여 공개에 따른 영업비밀의 노출이나 공개를 위한 비용 소요라는 AI 개발자의 어려움을 완화시키려는 점에서는 한국의 법안과 비슷하다.
2. 법안의 내용
1) 명령의 청구 및 공개의 대상
저작권자는 연방 지방법원의 서기(clerk)에게 학습데이터를 공개하도록 AI 개발자에게 명령할 것을 청구할 수 있다. 공개의 대상인 학습데이터는, 생성형 AI 모델을 학습시키기 위하여 개발자가 사용한 ①저작물(전부 또는 일부)의 ‘복제물’이나 ②저작물을 확실히 식별하기에 충분할 정도의 ‘기록’이다(§514(b)(1)). 공개의 대상은 ‘저작권자’ 자신의 저작물에 한정되므로 저작권자가 소유하거나 통제하지 않는 저작물은 제외된다(§514(b)(2)).
명령을 청구하면서 저작권자는 학습데이터가 자신의 권리를 보호하기 위한 목적으로만 사용할 것을 선언 하여야 하므로(§514(c)(2)(C)), 법안이 상정하는 공개 목적은 저작권자의 권리보호이다. EU AI 사무국이 공개한 학습데이터 공개방식(template)이나 캘리포니아주 법에 따라 공개된 정보에 의하면, 개별 저작물을 공개하는 것이 아니다. 따라서 개별 저작권자들은 공개되더라도 자신의 저작물이 사용되었는지 알 수 없고, 사용 확인을 위한 실마리를 얻을 뿐이다. 이는 학습데이터 공개가 저작권자를 보호하기 위한 것도 있지만 AI 투명성을 향상시키기 위한 목적도 추구하기 때문이다.
2) 청구 방식 및 법원 서기에 의한 명령
저작권자는 비교적 간단한 내용의 명령 청구서를 법원 ‘서기’에게 제출함으로써 학습데이터를 공개하도록 하는 명령을 받아낼 수 있다. 저작권자는 ①공개하여야 하는 저작물의 범위, 공개 기한 등 명령에 포함될 사항과 ②㉮AI 개발자가 자신의 저작물을 이용하였다고 믿고 있고, ㉯명령의 목적이 학습데이터의 복제물이나 학습데이터를 학실하게 식별하기에 충분한 기록을 얻기 위한 것이고, ㉰복제물이나 기록은 권리를 보호하기 위하여서만 사용할 것을 선서하는 식으로 서류에 서명한다(§514(c)). 공개에 대한 청구 서류가 제출되고 위의 2가지 요건이 적절하게 작성되었다면, 서기는 신속하게(expediciously) 학습데이터를 공개하도록 하는 내용의 명령장을 발행하고 AI 개발자에게 송달한다(§514(d),(e)).
TRAIN Act(Transparency and Responsibility for Artificial Intelligence Networks Act)의 학습데이터 공개방식은 ‘사법절차’에 의하여 학습데이터를 공개하도록 하지만, 엄격한 사법절차에 따른 어려움을 해소하는 위한 특성을 잘 나타내고 있다. 곧 학습데이터의 공개는 사법절차에 의하여 이루어지는 것이 적절하므로 ‘법원’을 통하여 이루어지지만, 판사가 이러한 명령을 내리기에는 사안이 적합하지 않을 수 있다. 이에 따라 사법절차를 통하여 명령을 하되, 판사가 아닌 행정 책임자인 서기가 명령을 하도록 한다.
3) 선의에 의한 청구 및 권리보호를 위한 정보의 이용
저작권자는 AI 개발자가 생성형 AI 모델을 학습시키기 위하여 자신의 저작물을 사용하였다고 믿는 선의(subjective good faith)가 있어야 하는데, 저작권자는 명령을 청구하면서 AI 개발자가 자신의 저작물을 사용한 것에 대하여 믿는다고 선언하는 진술을 하게 된다. 악의로 명령을 청구한 경우, 명령 상대방의 청구에 따라 명령을 청구한 저작권자에게 제재가 가하여질 수 있다(§514(i)). 학습데이터를 제공받은 저작권자는 정당한 권원이나 동의를 받지 않고서 제3자에게 공개하면 아니된다(§514(d)).
4) 명령의 이행 및 명령 불이행에 대한 제재
명령장은 AI 개발자가 학습데이터를 신속하게 공개할 ‘권한’을 부여하고 공개하도록 ‘명령’하는 것을 내용으로 한다. 공개할 권한을 부여한다는 것은 공개와 관련된 개발자 자신의 책임을 면제하기 위한 것이라 할 수 있다. 공개하도록 명령을 받은 AI 개발자는 신속하게 공개하여야 한다(§514(f)).
학습데이터를 공개하도록 하는 명령을 이행하지 않으면 AI 개발자에게 불리한 효과가 발생한다. 첫째, 명령 자체를 위반한 것에 대한 제재로서 법정모독에 따른 제재, 제출 강제명령, 소송비용의 지급 등이 가해질 수 있다(FRCP Rule 45(g), 37(a)(3)(B)(iv), 37(b)(2)(A), (C)). 둘째, 명령에 따라 공개하지 않은 개발자는 공개대상인 저작물을 사용하였다고 추정되는데, 다만 이러한 추정은 반박이 가능하다(514(i)). 곧 학습데이터를 사용한 것으로 일단 추정하지만 복제하지 않았다는 증거를 제시하여 이러한 추정을 깨뜨릴 수 있다. 명령을 이행하지 않는 경우 소송절차에서 이러한 실체법적 불이익을 받을 수 있지만, TRAIN Act는 이러한 효과를 직접 규정하고 있다.
3. 결어
그동안 학습데이터 공개와 관련하여 미국에서 여러 차례 법안이 나왔었다. 예컨대 Generative AI Copyright Disclosure Act of 2024(H.R.7913, 118th Cong.)는 학습 데이터셋을 생성하거나 변경한 주체에게 데이터셋에 사용된 저작물에 대하여 ‘충분할 정도의 상세한 요약’과 데이터셋의 URL을 저작권청 청장(Register)에게 통지하도록 하고, 청장은 이러한 통지를 온라인을 통하여 공개하는 내용의 것이다. AI Foundation Model Transparency Act of 2023(H.R.6881, 118th Cong.)은 FTC가 학습데이터 등에 관한 투명성을 개선하기 위한 표준을 제정하도록 하고, 표준에 포함시킬 정보로서 학습데이터의 출처 및 학습데이터가 어떻게 수집∙보관되는지, 크기 및 구성, 편집∙필터링, 라벨링 등을 고려하도록 하였다. 최근 발의된 AI Accountability and Personal Data Protection Act(S.2367, 119TH Cong.)는 개인정보나 저작물(저작권청에 등록된 것과 관계없음)을 사용하기 위하여서는 사전에 명시적인 허락을 받도록 하고 있다.
주법 차원에서도 학습데이터 공개에 관한 법안이 많이 제안되고 있는데, 예컨대 캘리포니아주의 Generative artificial intelligence: training data: copyrighted materials(AB 412, 2025.2 발의가 대표적이다. 이 법안은 AI 개발자로 하여금 AI 모델을 공중에게 제공하기 전에 학습에 사용된 저작물과 저작권자를 문서화하고, 학습에 사용된 저작물의 저작권자가 서면으로 요청하였을 경우 저작권자의 저작물이 사용된 AI 시스템이나 모델을 학습시키기 위하여 사용된 자료의 전체 목록을 제공하도록 하고 있다. 학습데이터의 공개에 관한 법안 중에서 가장 강력한 것으로 보인다.
학습데이터 공개는 저작권자와 AI 개발자 간에 이해관계가 충돌되는 대표적인 분야이다. 현재까지 입법되거나 제안된 법안들은 학습데이터 공개에 관한 방법론을 제시한 것이라 할 수 있다. 학습데이터에 포함되어 있는 모든 개별 저작물을 공개하는 것은 적절하지 않다. 학습데이터를 어느 정도의 범위에서, 얼마나 상세하게 공개할 것인가, 저작물이나 콘텐츠 또는 데이터를 일일이 구별하는 것이 용이하지 않은(비용이 소요되는) 상황에서 ‘저작물’만을 대상으로 할 것인가, 학습데이터를 먼저 공개하는가, 아니면 저작권자가 공개를 요청할 경우에 공개할 것인가 등 많은 쟁점이 도사리고 있다. 이 글이 살펴본 TRAIN Act는 저작물의 복제물이나 기록을 법원의 서기를 통하여 확인할 수 있도록 하는 점에서 학습데이터 공개의 한 방법론을 제시한 것이라 할 수 있다.