22.07.18 216

데이터(셋) 라이선스와 인공지능 관련 쟁점들[발제자: 이철남(충남대학교 법학전문대학원 교수)]
제25회 ALAI Korea 월례연구회(2022년 7월 14일)

현재 국회에 상정되어 있는 저작권법 전부개정안에는 정보분석을 위한 복제 및 전송을 허용하는 내용의 이른바 TDM(Text and Data Mining) 관련 조항이 포함되어 있다. 유럽이나 일본과 달리 우리 저작권법은 미국과 같이 저작권 제한을 위한 일반조항에 해당하는 공정사용(fair use) 조항을 두고 있음에도 불구하고, 정부는 인공지능 관련 연구나 산업의 발전을 위해 보다 구체적인 제한 조항 필요하다는 입장이었다. 하지만 현재 제안된 조항이 인공지능 업계의 예측가능성을 높일 수 있는 구체적인 기준을 제시하고 있는지는 의문이다. 특히 해당 저작물에 적법하게접근할 수 있는 경우에 한정한다는 단서 조항은 공정사용에 관한 기준보다 더 혼란을 줄 수도 있다. 따라서 유권해석이나 판례를 통해 최대한 빨리 구체적인 기준을 제시할 필요가 있다. 이하에서는 자연어처리(NLP)의 학습에 필요한 데이터() 사례를 통해 이와 같은 문제점을 살펴보고자 한다.

 

GPT-3 사례

GPT-3의 학습에 사용된 데이터()으로는 Common Crawl(410 billion tokens, 60%), WebText2(19 billion tokens, 22%), Books1(12 billion tokens, 8%), Books2(55 billions tokens, 8%), Wikipedia(3 billion tokens, 3%)이다. 이들 중에서 WebText2, Books1, Books2 데이터()이 어떤 것인지는 OpenAI가 밝히지 않고 있으므로 논의가 어렵다.

Common Crawl은 인터넷에 웹페이지로 공개되어 있는 텍스트 자료를 크롤링 방식을 통해 수집한 자료이다. robot.txt 규칙을 준수하면서 수집한 자료이기는 하나, 개별 웹페이지의 특수성이나 라이선스 등은 고려하지 않고 수집된 것이다. 이러한 데이터 수집이 적법한지의 여부는 매우 모호하다.

위키피디아의 경우 CC-BY-SA 조건을 통해 배포되고 있으며, 위키피디아 자료를 배포하거나 공중송신하고자 할 경우 저작자 표시를 해야 하고, CC-BY-SA와 동일한 라이선스로 배포해야 한다. 이와 같은 조건의 자료를 수집하여 학습한 인공지능 모델을 배포하고자 할 경우 저작자 표시 및 동일 라이선스조건을 준수해야 하는가? 현실적으로 이러한 조건을 지키는 것은 매우 어려울 것인데, 조건을 지키지 않은 경우에도 적법하게 접근한 것으로 볼 수 있을까?

 

Copilot 사례

CopilotOpenAICODEX를 기반으로 하고 있는데, CODEX 또한 GPT-3의 파생물이므로 GPT-3와 같은 쟁점이 존재한다. 나아가 Copilotgithub에서 제공되고 있는 코드를 학습하여 만들어진 것이어서 해당 코드의 라이선스 위반 여부가 문제되고 있다. 특히 GPL과 같은 카피레프트 조항을 포함하는 오픈소스 라이선스로 배포되고 있는 코드의 경우, 해당 코드를 사용하기 위해 해당하는 라이선스 준수 의무가 엄격히 요구되는 편이어서 개발자들 사이에 논란이 되고 있다. 이러한 코드들을 저작자의 허락없이 수집하여 사용하는 것이 과연 적법한 사용에 해당하는가?

 

자연어처리에 관한 몇 개의 사례만 살펴보더라도 적법하게접근하는 것의 의미가 얼마나 모호한 것인지를 잘 알 수 있다. 이러한 점을 고려하여 최대한 빠르게 관련 기준을 제시해 줄 필요가 있다. 아울러 제시된 기준이 매우 엄격한 기준이라면, 과연 이와 같은 조항을 새롭게 마련하는 것이 인공지능 연구나 산업의 발전에 도움이 될 것인지에 대한 고민도 필요하다고 본다.

 

List