<aside>
도서관 데이터 분석 과정에서 겪었던 문제점을 통해 현행 도서관 데이터 공유 방식의 문제점을 파악하고, 이를 해결하기 위해 벤치마크 할 수 있는 여러 예시를 제안 합니다.
</aside>
“Garbage In, Garbage Out” - William D.Mellin
“Garbage In Garbage Out” (속칭 GIGO)는 데이터 과학 분야에서 자주 인용되는 말 중 하나입니다. 풀어 설명하면, 데이터 분석에 있어 양질의 데이터를 사용하지 않으면, 해당 데이터를 사용한 결과물 또한 양질의 결과가 나오지 않는다는 말입니다.
데이터 인프라는 어떤 일을 하던, 더 이상의 논쟁이 필요 없을 정도로 중요한 요소 중 하나가 되었습니다.
- 세계 유수의 기업인 Google, Amazon, IBM, DELL, SalesForce 등은 모두 데이터 인프라 구축에 막대한 시간과 예산을 쏟고 있습니다. 인프라 구축에서 더 나아가, 구성원들이 데이터 기반 의사결정을 할 수 있도록 전체 직원을 대상으로 데이터 리터러시 교육도 활발히 진행중입니다.
- OpenAI의 gpt 모델을 필두로, AI 시장이 급속도로 성장 중입니다. AI를 활용한 서비스 개발은 더 이상 실험단계가 아닌, 앞서 나가는 기업의 필수 요소 중 하나로 자리했습니다. AI도 결국 방대한 양의 데이터를 학습하여 가장 적절한 답을 도출하는 솔루션입니다. 데이터 인프라가 허술하여 AI가 학습할 데이터가 적절히 준비되지 않는다면, AI 시대에서 도태되는것은 당연한 일일지도 모릅니다. 특히, 단순히 GPT와 같은 모델을 도입하는것을 넘어, 도서관이 가지고 있는 데이터를 통해 도서관에 특화된 AI 에이전트 환경을 구축하려면, AI에게 잘 학습시킬 수 있도록 데이터 체계를 재정비 할 필요가 있습니다.
도서관 데이터 공유 시스템 주요 개선 필요 항목
인코딩 포맷 통일
- 현재 도서관 데이터셋은 기본적으로 한글과 영어를 혼용하는 형식으로 구성되어있습니다. 컬럼이 모두 영어더라도, 서지정보를 담기 위해서는 한국어 텍스트 사용이 불가피 하기에, 대부분의 데이터셋이 한국어 인코딩을 필요로 합니다.
- 보편적으로 웹 환경에서 많이 사용되는 한국어 인코딩 포맷은 “UTF-8” 입니다. 하지만, 도서관 데이터셋은 대부분이 UTF-8로 인코딩 되어 있지 않습니다. 또한, 같은 도서관에서 제공한 데이터도 서로 인코딩 포맷이 달라 데이터 사용에 난점이 있습니다.
- 주로 cp949, ksc5601, euc-kr, UTF-8 의 인코딩 방식을 혼용하고 있는데, 이를 가장 보편적으로 사용되는 한국어 인코딩 포맷인 UTF-8로 통일이 필요해 보입니다.
데이터 연결성 강화
- 도서관 대출 기록 데이터셋에서 이용자가 대출한 도서의 서지정보를 확인하기 위해서는 데이터셋 3개를 병합하여 확인해야 하는 문제가 있습니다.
- 특히, 세 종류의 데이터셋을 구할 수 있는 웹사이트도 모두 다르고, 제공중인 데이터셋의 데이터 추출 시점도 상이하여 신뢰성 있는 데이터를 확보하는데 큰 난관이 있었습니다.
- 현재 이곳 저곳에 올라오는 도서관 데이터셋을 한 곳에서 업로드 할 수 있도록 통일하고, 데이터를 업로드 할 때 동일한 시점을 기준으로 하는 데이터를 사용해야 합니다.
더 다양한 데이터 제공
- 데이터의 종류는 많으나, 중복되는 경우가 많으며, 실질적으로 필요한 정보를 얻을 수 없을 정도로 얕은 수준의 데이터만 공유되고 있습니다.
- 특히, 도서관에서 자체적으로 제공하는 통계정보가 부족합니다. 예를 들어 2024년 도서관 데이터 활용 우수사례에 소개된 사례를 보면, 도서관 자체에서 제공중인 데이터가 없었기에, 온라인 서점 알라딘의 선호 도서 데이터를 수집하여 프로젝트를 진행했습니다. 하지만, 각 웹사이트의 웹 스크롤링 허용 여부를 확인할 수 있는 Robot.txt 파일을 확인해보면, 알라딘은 웹 스크롤링을 불허하는 웹사이트입니다. 제공중인 데이터가 빈약하여 적법하지 못한 방법으로 데이터를 수집해 분석해야만 하는 상황을 타개하기 위해서 더 다양한 데이터가 제공 될 필요가 있습니다.
Open API 우수사례
Material & Product Library