불길한 조짐: AI 학습 데이터 접근에 관한 법적 문제 제기

출처: MeshCube/Shutterstock

"바이브 코딩"이 대중화되면서 AI 기업들은 차세대 AI 코파일럿을 훈련시키기 위해 가장 큰 규모와 권위 있는 기술 지식 기반을 구축하기 위해 경쟁하고 있습니다. 그러나 AI 기업들은 이러한 가치 있는 기술 데이터를 어떻게 확보할까요? Stack Overflow와 Reddit의 최근 움직임은 이것이 어떻게 전개될 수 있는지 보여줍니다.

바이브 코딩(코딩 코파일럿에게 원하는 것을 말하고 AI가 코드를 생성하는 동안 기다리는 방식)은 오늘날 인기를 끌고 있습니다. "바이브 코딩"에 대한 검색은 지난 12개월 동안 6,700% 증가했으며, Databricks의 CEO인 Ali Ghodsi와 같은 저명한 기술자들도 이를 활용하고 있습니다.

"Ali 자신도 요즘 이렇게 말합니다. '나는 주로 Databricks Assistant에게 필요한 것을 요청할 뿐입니다. 코드의 첫 번째 시도가 작동하지 않으면, 오류 코드를 주고 '다시 시도해봐'라고 하면 다시 시도하고 이제 제대로 작동합니다.'"라고 Databricks의 마케팅 부사장인 Joel Minnick이 말했습니다.

방대한 샘플 코드와 대형 언어 모델(LLM)의 놀라운 학습 능력의 조합이 코딩 코파일럿에게 그 능력을 부여합니다. 더 나아가, 기술적인 주제에 대한 질문이 생기면 웹의 방대한 토론 게시판이 코파일럿이 작은 세부 사항까지 정확하게 이해할 수 있는 충분한 자료를 제공합니다.

그렇다면 질문은 이렇습니다: 이러한 코딩 코파일럿은 수백만 가지의 기술 트릭과 엣지 케이스를 배우기 위해 어떻게 토론 게시판에 접근할까요? 일부 경우에는 AI 회사들이 허락 없이 데이터를 가져갑니다.

출처: Mamun Sheikh/Shutterstock

이것이 바로 전 세계에서 가장 인기 있는 뉴스 집계 및 소셜 미디어 웹사이트 중 하나인 Reddit(일일 활성 사용자 1억 2백만 명)이 Anthropic을 비난하는 이유입니다. 6월 4일, Reddit은 Anthropic을 상대로 소송을 제기했으며, AI 회사가 데이터 정책을 위반하여 AI 모델을 훈련시키기 위해 웹사이트에서 콘텐츠를 스크래핑했다고 주장했습니다.

Reddit은 Anthropic이 2024년 7월 이후 10만 번 이상 플랫폼에 접근하여 Reddit의 서비스 약관을 위반하며 AI 훈련을 위해 사용자 생성 콘텐츠를 스크래핑했다고 주장합니다. 또한 Anthropic이 봇이 Reddit에 접근하는 것을 차단했다고 보장했으나 여전히 접근을 계속했다고 주장합니다.

코딩 코파일럿으로는 최고 AI 모델 중 하나로 여겨지는 Claude를 만든 Anthropic은 Reddit 웹사이트에서 가져간 데이터에 대해 비용을 지불하지 않았다고 Reddit은 주장합니다. 반면 Google과 OpenAI는 사용자 개인정보 보호를 위한 일부 제한과 함께 사용자 생성 데이터에 접근하기 위해 Reddit과 계약을 체결했습니다.

기술 주제에 집중하는 또 다른 인기 있는 콘텐츠 소스는 Stack Overflow입니다. Stack Overflow는 약 2,900만 명의 등록 사용자와 1억 명 이상의 월간 사용자(대부분 비등록 사용자)를 보유하고 있습니다. Stack Exchange라고 불리는 지식 기반에는 2,400만 개 이상의 질문과 약 3,600만 개의 답변이 포함되어 있습니다. Kubernetes가 어떻게 작동하는지에 대한 구체적인 질문이 있다면(요즘은 누구나 그렇겠죠?), Stack Overflow는 답을 얻기에 좋은 장소입니다.

Reddit 소송이 제기되기 하루 전, Stack Overflow는 Snowflake와 계약을 체결하여 Snowflake Marketplace를 통해 사용자 생성 데이터를 이용할 수 있게 했습니다. Stack Overflow의 CEO인 Prashanth Chandrasekar는 이번 조치로 Snowflake 사용자가 인간이 선별한 고품질 질문-답변 쌍에 더 쉽게 접근할 수 있게 되었다고 말했습니다.

Prashanth Chandrasekar는 Stack Overflow의 CEO입니다.

"모든 데이터에 즉시 접근할 수 있게 됩니다," Chandrasekar는 Snowflake Summit에서 BigDATAwire에게 말했습니다. "사전 인덱싱되어 있고 지연 시간이 매우 낮습니다. 그리고 가장 중요한 것은 라이선스가 있다는 것입니다."

Snowflake 계약은 주로 AI 모델 훈련보다는 검색 증강 생성(RAG)을 위해 Stack Overflow의 지식 기반을 사용하는 것이라고 Chandrasekar는 말했으며, Stack Overflow가 순수 AI 훈련을 위한 다른 메커니즘을 가지고 있다고 덧붙였습니다. 그러나 최종 목표는 동일합니다: 신뢰할 수 있고 선별된 데이터를 기반으로 AI 시스템을 구축하는 데 고객을 돕는 것입니다.

"사용자가 회사 내 AI 시스템의 꿈을 실현하는 과정에서 마찰을 제거하는 것이 목표입니다," Chandrasekar는 말했습니다. "이제 사용자는 Snowflake를 사용하는 동안 해당 회사가 우리와 계약을 맺기를 기다릴 필요 없이 우리 데이터에 접근할 수 있습니다."

Reddit과 Stack Overflow는 여러 면에서 상반되는 특성을 가지고 있습니다. 전자는 다소 자유롭고 무엇이든 허용되는 곳이며, 후자는 절제와 사실에 대한 철저한 고수로 더 잘 알려져 있습니다. 그러나 최근의 행보는 그들이 한 가지 공통점을 가지고 있음을 보여줍니다: 콘텐츠에 대한 무단 접근은 용납되지 않을 것입니다.

월드 와이드 웹의 성격은 20세기 후반의 평등주의적 시작 이후 변화했습니다. 지난 15년 동안 거대 기술 기업들은 처음에는 타겟 분석을 위해, 최근에는 AI 모델을 훈련시키기 위해 인터넷의 방대한 영역을 흡수해 왔습니다. Reddit과 Stack Overflow와 같이 아직 완전히 채굴되지 않은 영역들은 이제 어떤 수익화도 그들의 이용 약관에 따라 이루어지도록 보장하기 위해 노력하고 있으며, 이는 사용자에게 더 많은 통제권을 돌려줍니다.

Stack Overflow는 AI 목적으로 데이터가 스크래핑되는 것을 방지할 뿐만 아니라 AI가 지식 기반에 침투하는 것을 방지하기 위한 조치를 취했습니다. 예를 들어, 사용자가 인간임을 인증하기 위해 Cloudflare를 활용합니다. 또한 사이트에 AI 생성 답변을 허용하지 않는 엄격한 정책을 가지고 있습니다. 인간의 선별 과정은 Stack Overflow의 프로세스에 필수적입니다.

출처: Dennis Diatel/Shutterstock

Snowflake와 같은 회사와의 계약 체결은 Stack Overflow에게 호재가 될 수 있습니다. 최근 몇 년간 웹사이트 트래픽이 감소하고 Stack Exchange에서 질문이 줄어들었기 때문입니다. Stack Overflow 수익의 약 75%는 기업을 위한 비공개 지식 기반 호스팅에서 발생하고, 공개 Stack Exchange 사이트의 광고에서는 25%만 발생한다고 Chandrasekar는 말했습니다.

"지난 몇 년간 인터넷의 성격이 변했습니다. 웹사이트 트래픽을 기반으로 광고를 통해 수익을 창출하는 사람들의 사회적 계약이 말이죠," 그는 말했습니다. "우리는 모든 사람과 관계를 맺고 개발자가 있는 곳, 사용자가 있는 곳, 그들이 원하는 곳 어디에서나 노출되고 싶습니다."

AI 모델 개발자와 사용자들에게 메시지는 분명합니다: 고품질의 인간 소스 데이터가 당신의 노력에 중요하다면, 제공자에게 공정한 금액을 지불하면서 동시에 항상 사용자 개인정보 보호를 보장해야 합니다. 결국, 그것은 돈일 뿐입니다.