상자에 살기, ISO 컨테이너 상자에 살기

  • Oct 23, 2023

작년 Sun Microsystems JavaOne 2009 컨퍼런스에서 저는 archive.org Internet Archive 아이디어에 대해 처음 들었습니다.

작년 Sun Microsystems JavaOne 2009 컨퍼런스에서 나는 archive.org에 대해 처음 들었습니다. 인터넷 아카이브 아이디어. 동료 기자들과 나는 포획 계획에 대한 소식을 듣기 위해 Moscone Center의 아랫배 깊은 뒷방에 자리 잡았습니다. 웹의 모든 페이지를 회사의 Sun Fire X4500 Open Storage 60개로 채워진 ISO 컨테이너에 저장합니다. 시스템.

여기서 개념은 다음과 같습니다. 우리는 Book of Kells, Domesday Book 및 (아헴) 브리태니커 백과사전을 통해 무엇을 참조할 수 있을지도 모릅니다. 지난 2000년이 수반되었고, 현대사는 본질적으로 변화하는 임시 웹사이트에 점점 더 기록되면서 상실될 위험이 있습니다. 끊임없이.

관심을 갖고 프로젝트 관리자에게 거기에 있는 모든 콘텐츠를 보관하는지 물었습니다. '예술적인 그림'과 나쁜 내용이 포함된 '과일' 페이지와 (신이시여) 나쁜 내용이 포함된 페이지도 포함됩니다. 그렇습니다. 그들이하다.

비슷한 맥락에서 오늘날 IBM이 비슷한 일을 하고 있다는 소식을 접하고 있습니다.

Big Blue는 영국 도서관과 협력하여 웹상의 테라바이트급 정보가 영원히 손실되기 전에 이를 보존하고 분석하는 프로젝트를 진행하고 있습니다. IBM BigSheets라는 새로운 분석 소프트웨어 프로젝트는 브라우저를 통해 대량의 웹 데이터를 추출하고 주석을 달고 시각적으로 분석하는 데 도움이 됩니다.

IBM은 웹사이트의 평균 수명이 44~75일에 불과하며 6개월마다 영국 도메인의 웹페이지 중 10%가 손실된다는 최근 연구 결과를 인용합니다.

본질적으로 이 이야기는 a) 웹 데이터를 유지하는 것뿐만 아니라 b) 웹에 내장된 정보를 잠금 해제하는 것에 관한 것입니다. 말하자면 웹에는 실제로 "색인"이 없기 때문에 이것 자체는 좋은 아이디어처럼 보입니다. 검색 엔진은 훌륭하게 작동하지만 영향을 받을 수 있습니다.

보관해야 하는 1억 5천만 개의 지도, 원고, 악보, 신문, 잡지와 함께 매년 영국도서관은 이미 영국 도메인에서 선택된 웹페이지를 보관하고 있습니다. 2004. BigSheets를 통해 도서관 이용자는 향후 수십 년 동안 보관된 웹 페이지에 액세스할 수 있을 것으로 기대됩니다.

IBM은 올해 디지털 정보의 양이 988엑사바이트에 달할 것으로 예상한다고 밝혔는데, 이는 태양에서 명왕성까지, 그리고 그 뒤로 책 한 권을 뭉치게 한 것과 맞먹는 규모입니다. 이러한 정형 및 비정형 데이터 볼륨 내에서는 검색에 대한 끊임없는 요구가 있으며 이것이 바로 회사가 달성하고자 하는 목표입니다.

회사는 “Apache Hadoop 프레임워크를 기반으로 구축된 IBM BigSheets는 대량의 데이터를 빠르고 효율적으로 처리할 수 있습니다. IBM BigSheets는 새로운 기술 프로토타입입니다. BigSheets는 웹 기반 저장소에서 기가바이트, 테라바이트 또는 페타바이트의 구조화되지 않은 데이터를 통합하는 매시업 패러다임의 확장입니다. 사용자가 정의한 시드 URL에서 유래하는 광범위한 구조화되지 않은 웹 데이터를 수집합니다. 비정형 정보 관리 아키텍처를 사용하여 해당 데이터를 추출하고 강화합니다. 사용자가 특정 사용자 정의 컨텍스트에서 이 데이터를 탐색하고 시각화할 수 있습니다.”

따라서 Sun이든 IBM이든 이런 일을 하는 것은 매우 흥미로운 일입니다. 이런 종류의 프로젝트에 참여하는 경우 개방형 표준을 준수하기 위해 기술적으로 불가지론을 유지하려고 노력하는 것이 가치가 있다고 생각합니다. Microsoft는 영국 도서관과 몇 가지 작업을 수행했습니다. 그러나 분명히 좀 더 타당한 접근 방식을 취했습니다. 소중한 정보를 영원히 보존했는데 미래 세대가 그 정보를 찾았지만 상자를 열 열쇠가 없다는 사실을 알게 되는 것보다 더 나쁜 것이 있을까요?