“콘텐츠 접근이 가능하다는 것과 소유하거나 활용할 수 있다는 것은 완전히 다른 이야기다.”
1. 기술적으로 ‘긁어오기’는 가능하다
전자책 플랫폼은 일반적으로 HTML 기반의 콘텐츠 뷰어를 제공한다. 리디북스나 네이버 시리즈 역시 앱 또는 웹뷰 형태의 eBook 뷰어를 사용하며, 사용자가 콘텐츠를 읽는 순간 해당 텍스트는 메모리 상에서 렌더링된다. 이 과정에서 개발자 도구(F12)나 프록시 도구(Fiddler, Charles Proxy) 등을 활용하면 텍스트 요청을 추적하거나 DOM(Document Object Model) 상에서 내용을 추출하는 것도 이론상 가능하다. 특히 일부 플랫폼은 DRM(Digital Rights Management)을 콘텐츠 단위가 아닌 앱 실행 단위에서만 적용하고 있어, 특정 구간의 텍스트를 수동 또는 자동화 스크립트(Python + Selenium 등)로 캡처하는 것도 기술적으로는 어렵지 않다.
2. 법적으로는 '저작권법 위반' 소지가 높다
문제는 이 과정이 ‘기술적으로 가능하냐’가 아니라, 법적으로 허용되는 범위냐는 점이다. 대한민국 저작권법 제136조는 "복제권 침해"에 대해 명확히 명시하고 있으며, "복제"에는 디지털 환경에서의 복사, 다운로드, 추출이 모두 포함된다. 특히 플랫폼에서 제공한 UI 또는 다운로드 기능을 통하지 않고, 스크래핑이나 비인가 방식으로 텍스트를 수집하는 행위는 명백히 저작권자의 의사에 반하는 ‘무단 복제’로 간주될 수 있다. 설령 개인 학습 목적이라 하더라도, 자동화 도구를 통한 체계적 수집은 영리 목적 여부와 무관하게 위법 판단을 받을 가능성이 높다.
3. 실제 사례: 구글 북스 vs 작가협회 / 네이버 웹툰 텍스트 추출 사건
대표적인 관련 사례로는 구글 북스의 '부분 미리보기' 서비스가 있다. 당시 미국에서는 저작권 침해 논란이 벌어졌으나, ‘학술적 인용 및 검색 기능 제공’이라는 공익적 목적이 강조되며 '공정 이용(Fair Use)' 으로 인정받은 바 있다. 반면 국내에서는 웹툰 텍스트 자동 추출 및 무단 게시 사례가 다수 발생했으며, 이들은 대체로 형사 처벌까지 이어졌다. 2023년엔 한 개발자가 네이버 시리즈 웹툰의 대사를 추출해 데이터베이스화하려 한 사건이 있었고, 네이버 측이 형사 고소와 민사 손해배상 소송을 함께 진행했다. 이처럼 플랫폼 콘텐츠에 대한 ‘비인가 접근’은 기술자 스스로에게도 법적 리스크를 수반한다.
4. 정당한 접근과 활용을 위한 대안
결국 중요한 것은, 콘텐츠를 활용하고자 할 때 어떤 경로로 접근하느냐다. 리디북스나 네이버 시리즈에서도 일부 콘텐츠에 대해 API 기반의 미리보기, 인용 허용 범위 등을 명시하고 있으며, 정식 계약을 통해 콘텐츠 분석 프로젝트에 협조하는 경우도 있다. 학술 연구, 머신러닝 학습 목적이라면 사전에 플랫폼 또는 저작권자로부터 ‘비상업적 분석 목적 허가’를 취득해야 한다. 또는 Google Books API, Project Gutenberg 같은 퍼블릭 도메인 콘텐츠 소스를 활용하는 것도 훌륭한 대안이 될 수 있다. ‘긁는 기술’을 고민하기 전에, 먼저 ‘쓸 수 있는 권리’를 확보하는 것이 진정한 전문가의 자세다.
TIP: eBook 텍스트 분석이나 요약 기능을 구현하고 싶다면, 공공 라이선스가 허용된 텍스트 코퍼스를 활용하거나, 직접 구매한 콘텐츠를 OCR 기반으로 스스로 가공하는 것도 한 방법이다.
'IT' 카테고리의 다른 글
구글 검색 연산자 최적 활용법 (검색 고수 되는 법) (2) | 2025.04.10 |
---|---|
인스타그램 클로즈 프렌즈 마케팅: 새로운 소비자 연결 전략 (0) | 2025.04.10 |
“디지털 디톡스, 이렇게 시작해보세요 – 뇌가 가벼워지는 4가지 습관” (2) | 2025.04.07 |
“디지털 없이 살아보기 – 우리의 뇌는 어떻게 반응할까?” (0) | 2025.04.07 |
디지털 유산(Digital Legacy) 관리 (0) | 2025.04.07 |