주요내용
브라우저 보안정책에 따라 이미지가 보이지 않을 수 있습니다 (Mixed Content)
저작권 동향
2025년 제10호
EU
2025 제10호-[EU] EU AI 사무국, 학습데이터 공개를 위한 양식 공개(이대희)
1. 개요
‘EU AI 법’은 ‘범용 AI(GPAI) 모델의 공급자’에게 AI 사무국이 제공하는 ‘양식(template)’에 따라, GPAI 모델의 학습 콘텐츠에 관하여 ‘충분할 정도의 상세한 요약(sufficiently detailed summary)’을 작성하여 공개하도록 하여[§53.1(d)], 학습데이터의 공개에 관하여 규정하고 있다. 학습데이터를 어떤 내용으로 공개할 것인가는 저작권자 등 권리자와 AI 개발자에게 중요한 의미를 가진다.
학습데이터가 공개되면, TDM 예외에 따라 권리유보를 한 저작권자(DSM 지침 §4)는 자신의 저작물이 학습데이터로 사용되었는지 확인할 수 있는 실마리를 가지게 된다. 반면 AI 개발자는 공개 시 영업비밀이 노출될 수 있고 공개를 위한 비용이 수반되는 불리함에 처하게 된다. AI 법의 입법설명서도 공개되는 학습데이터가 기술적으로 세부적이기보다는 범위 면에서 대체로 포괄적일 것이어야 한다고 설명하고 있다.
학습데이터 공개에 관한 AI 법 규정의 발효일은 2025. 8. 2.인데, AI 사무국은 2025. 7. 24. 학습데이터 공개를 위한 양식 최종안을 발표하였다. 미국 캘리포니아주도 생성형 AI 시스템∙서비스 개발자에게 문서화한 학습데이터를 웹사이트에 게시하도록 하는 입법을 하고 있다.
한국에서도 학습데이터의 공개에 관한 AI 기본법 개정안이 발의되어 있는데, 이들 법률안은 저작권자가 자신의 저작물이 학습데이터로 이용되었는지 확인을 요청하는 경우, AI 사업자는 이를 확인할 수 있는 절차를 마련하는 것을 내용으로 하고 있다. 현재 한국에서 학습데이터를 어떠한 내용이나 방식으로 공개할 것인지 쟁점이 되고 있는데, AI 사무국이 발표한 양식은 한국의 입법 방향에 대하여 시사점을 제공하고 있다.
2. AI 사무국의 공개 양식
AI 사무국의 양식은 (1) 일반 정보, (2) 데이터 출처 목록, (3) 데이터 처리 측면으로 구성되어 있다.
(1) 일반 정보
일반 정보에는 공급자 정보, 모델 정보, 데이터의 형식∙크기 및 기타 특성을 기재한다. 모델 정보에는 ①모델 명칭(버전까지 표시), ②모델 기반(dependencies), ③ EU 시장 출시일을 기재한다. 2023. 2. 24. 처음 출시된 메타의 라마(Llama)를 예로 들어보자. Llama➜Llma 2➜Code Llama➜Llama 3, 3.1, 3.2, 3.3➜Llama 4 시리즈(Scout, Maverick) 순으로 출시되어 왔다. Llama 3.1 모델은 2024. 7. 23. 출시되었는데, Llama 3.1-8B, Llama 3.1-70B, Llama 3.1-405B의 3가지 사양이 존재한다. 따라서 Llama 3.1-405B의 모델 정보는 ①모델 명칭[Llama 3.1-405(버전까지 표시)], ②기반 모델(Llama 3), ③출시일(2024. 7. 23.)로 공개하게 된다.
학습데이터 형식(modality)은 ①텍스트, ②이미지, ③오디오(비디오에 포함된 오디오 제외), ④비디오, ⑤기타로 분류되는데, 분류된 각 형식에 대하여 데이터의 크기와 콘텐츠 유형을 공개한다(예컨대 텍스트의 경우 소설, 비소설 등).
그 외에도 데이터 획득∙수집의 최신일, 학습데이터의 언어 표시, 기타 관련 성격(학습데이터의 국가별∙지역별∙인구통계학적 특성), 기타 관련 정보(데이터 크기 계산에 사용된 압축이나 토큰화 방법, 비디오∙오디오의 경우 샘플링 주기∙비율 등(선택)을 표시한다.
(2) 데이터 출처 목록
데이터 출처 목록은 ‘공개적으로 이용가능한 데이터셋(공개 데이터셋)’과 ‘공개적으로 이용할 수 없는, 제3자로부터 획득한 사적 데이터셋(비공개 데이터셋)으로 구분하여 기재한다. 먼저 공개 데이터셋은 사용되고, 제3자가 구축하고, 공중이 무료로 이용할 수 있고, 전체 또는 일정한 덩어리(chunk)로 쉽게 다운로드 받을 수 있는 데이터셋(공개 데이터셋)이다. 이러한 데이터셋으로는 공개 저장소(repository) 및 온라인 플랫폼, 전문화된 웹사이트, Common Crawl의 스냅샷(snapshot) 등을 들 수 있다.
비공개 데이터셋은 공개적으로 이용가능하지 않으며 ‘공개 데이터셋’ 항목에서 공개되지 않은, 제3자의 사적 비공개 데이터에 관한 정보이다. 비공개 데이터셋 항목은 ①권리자가 상업적으로 이용허락한 데이터셋, ②제3자로부터 수집한 사적 데이터셋, ③온라인상의 크롤링∙스크레이핑에 의하여 수집한 데이터, ④제품∙서비스 이용자에 관한 데이터, ⑤합성 데이터, ⑥기타 데이터 출처로 구분하여 작성한다.
크롤링∙스크레이핑의 경우, 크롤러를 사용하였는지 여부, 크롤러의 명칭∙식별자, 목적, 크롤러 행위의 일반적 설명, 데이터 수집 기간, 크롤링한 콘텐츠나 온라인 출처의 유형에 대한 전반적인 설명, 데이터 형식, 가장 관련성 있는 도메인네임에 대한 요약 등을 기재한다.
SNS 등 공급자의 AI 모델∙시스템과의 상호작용에 의하여 수집하는 정보와 같이, 공급자의 제품∙서비스를 통하여 이용자에 대하여 수집된 정보를 기재한다. AI 모델과의 상호작용하는 이용자의 데이터가 학습에 이용되었는지, 공급자의 다른 서비스∙상품과의 상호작용으로 수집한 이용자의 정보가 학습에 이용되었는지 등도 기재한다.
합성 데이터(synthetic data)는 다른 AI 모델의 생성물을 학습에 그대로 이용하기 위하여 생성한 데이터를 의미하는데, AI 사무국은 모델 증류(distillation)나 모델 정렬(alignment)을 예로 들고 있다.
(3) 데이터 처리 측면
데이터 처리 측면은 ①TDM에 따른 ‘권리유보’의 존중, ②‘불법 콘텐츠’의 제거, ③기타 정보(선택)로 구성되어 있다. 이 항목은 이해관계자의 권리행사와 관계되는 데이터 처리에 관한 사항을 공개하는 것이다. 이는 공급자가 저작권 규범을 준수하고 불법 콘텐츠를 제거함에 있어서 중요한 의미를 가진다. 특히 데이터 처리 과정에서 제거함으로써 불법 콘텐츠가 대규모로 재생산되고 배포될 위험을 방지할 수 있다. ① TDM에 따른 권리유보의 존중
첫째, ‘AI 법’을 적절하게 적용하기 위한 ‘실천강령’에 공급자가 서명하였는지를 표시한다. AI 법은 GPAI 모델 공급자의 의무가 이행될 수 있도록 AI 사무국에 의한 ‘실천강령의 제정’을 장려∙촉진하고 있다. 강령은 구속력은 없지만, 수범자는 서명을 함으로써 강령이 규정한 사항을 이행하기 위하여 노력하기로 하는 약속(commitment)을 하게 된다. ‘양식’은 바로 이러한 서명을 하였는지 묻고 있다.
둘째, 데이터를 수집하는 과정(수집 이전 및 수집하는 동안)에서 권리유보를 존중하기 위하여, 모델을 학습시키기 전에 마련한 조치를 기재한다. 이러한 기재에는 공급자나(공급자가 제3자로부터 데이터셋을 제공받은 경우) 제3자가 준수한 권리유보 프로토콜 및 솔류션이 포함된다.
TDM 예외에서 저작권자는 분명한 의사표시를 통하여(expressly) 권리유보를 하면 되므로, 권리유보를 위한 포로토콜이나 솔루션으로는 약관, 로봇배제표준(robots.txt), 메타택(meta tag), HTTP 응답(HTTP response) 등을 들 수 있다. 로봇배제표준은 크롤러(crawler) 등의 접근 여부를 지정하는 기술표준이고(강제성은 없음), 메타택은 웹페이지 내에서 크롤러 등의 수집에 대한 지침을 주는 태그이고, HTTP 응답은 클라이언트(데이터 수집자)가 서버(데이터 보유자)에 일정한 정보(데이터)를 요청하면(request) 서버가 데이터의 처리에 대한 지침을 제공하는 것이다. 저작권자는 이러한 기술이나 표준에 의하여 권리를 유보할 수 있는데, 양식은 이러한 조치를 설명하라는 것이다. ② 불법 콘텐츠의 제거
이 항목은 학습데이터로부터 불법 콘텐츠를 방지∙제거하기 위하여 공급자가 취한 조치에 관한 것이다. 이러한 조치는 학습데이터에 불법∙위법 가능성이 있는 콘텐츠가 포함된 경우, 특히 아동 성착취물 및 테러 콘텐츠나 지적재산권으로 보호되는 데이터의 무단 사용이 포함된 경우에 취하여져야 한다. 이러한 조치에는 미리 금지된 항목(불법 콘텐츠를 호스팅하는 도메인이나 URL 등)에 해당하는 데이터를 수집∙학습에서 제외하는 블랙리스트(blacklists), 특정 단어나 구절이 포함된 데이터를 차단∙제거하는 키워드(keywords), 일정한 데이터가 불법∙유해한지 자동적으로 분류하는 AI 모델에 의한 분류 등을 들 수 있다.
불법 콘텐츠의 제거에 관하여 설명하여야 하지만, 영업 관행이나 영업비밀에 관한 상세한 사항까지 공개할 필요는 없으며, 예컨대 모델의 기능을 향상시키기 위한 경우와 같이 데이터 선정 행위는 포함되지 않는다.