비정형 데이터란 무엇입니까?
비정형 데이터는 식별 가능한 구조나 아키텍처가 없는 데이터입니다. 이는 사전 정의된 데이터 모델을 따르지 않으므로 주류 관계형 데이터베이스에 적합하지 않습니다. 쉽게 식별할 수 있는 구조가 없기 때문에 컴퓨터 프로그램에서 읽기가 어렵습니다.
오늘날 대규모 비즈니스 조직에서 생성되는 데이터의 양은 연간 40~60%의 속도로 빠르게 증가하는 것으로 추정됩니다.
비정형 데이터는 어디에서 생깁니까?
비정형 데이터의 몇 가지 출처는 다음과 같습니다.
- 웹 페이지
- 비디오
- 블로그 및 소셜 미디어 사이트에 대한 사용자 의견
- 메모
- 보고서
- 설문조사 응답
- 문서(Word, PPT, PDF. 텍스트)
- 구조화되지 않은 텍스트
- 고객 서비스 통화 녹취록
- 인터넷상의 이미지(JPEG, PNG, GIF 등)
- 미디어 로그
이 데이터는 데이터베이스, 트랜잭션 로그, 이메일, 음성 로그 등에 저장됩니다. 일반적으로 너무 비정형적이고 단편적이며 흩어져 있어 요약적인 통찰력을 얻을 수 없습니다. 단순히 있는 그대로 저장하면 아무 데도 쓸 데가 없습니다.
이 데이터가 사일로 전반에 걸쳐 결합되고 조직 전체에서 쉽게 액세스할 수 있도록 하고 해당 패턴을 디코딩하고 데이터 분석을 통해 인사이트를 추출하면 이해 관계자에게 많은 가치 있는 정보를 제공할 수 있습니다.
새로운 형태의 비정형 데이터는 머신 데이터입니다. 여기에는 방대한 양의 활동 및 성능 데이터를 기록하는 웹사이트, 서버, 네트워크 및 모바일 애플리케이션의 로그 파일이 포함됩니다. 기업은 날이 갈수록 사물 인터넷과 연결된 장치, 심지어 제조 장비의 스마트 센서에서 데이터를 캡처하고 분석하고 있습니다.

비정형 데이터 저장: 도전 과제
비정형 데이터를 분석에 사용하지 않고 비축하는 것은 실용성이 없지만 저장하는 것도 그리 간단하지 않습니다. 다음과 같은 몇 가지 문제가 있을 수 있습니다.
- 비정형 데이터는 말 그대로 도처에 있으며 많은 양의 저장 공간을 차지합니다. 상당한 부분이 비디오, 오디오 및 이미지와 같은 큰 파일 형태이기 때문에 스토리지 파이 차트에서 큰 부분을 차지합니다.
- 간결하고 깔끔한 아키텍처를 가진 정형 데이터와 비교할 때 비정형 데이터는 보관하거나 유지 관리하는 데 훨씬 많은 비용이 듭니다.
- 구조와 아키텍처가 부족으로 하여 시스템에서 검색을 실행하거나 일부를 삭제하거나 업데이트를 실행하기가 어려운 경우가 많습니다.
- 비정형 데이터의 양이 많을수록 인덱싱하기가 더 어려워집니다.
비정형 데이터를 어떻게 저장할 수 있습니까?
비정형 데이터를 저장하는 가능한 방법은 몇 가지가 있습니다.
- 먼저 관리하기 쉬운 형식으로 변환해야 합니다. XML(eXtensible Markup Language)은 종종 선택되는 형식입니다.
- 비정형 데이터를 저장하는 데 CAS(컨텐츠 주소 지정 가능 스토리지, Content Addressable Storage) 시스템이 사용됩니다. 이 시스템은 메타데이터에 액세스하고 데이터 내에 저장된 모든 항목 또는 개체에 고유한 이름을 할당하여 데이터를 저장합니다. 개체는 위치가 아니라 내용을 기반으로 검색할 수 있습니다.
- 비정형 데이터는 소프트웨어 시스템에 저장한 다음 관계형 데이터베이스를 유지 관리하는 데 사용할 수 있습니다. 일부 관계형 데이터베이스 시스템에서는 쿼리 제출 및 데이터베이스 유지 관리를 위해 SQL(구조화된 질문 언어, Structured Query Language)을 사용할 수 있습니다.
- Binary Large Object(대형 이진 개체)(BLOB라고도 함)는 비정형 데이터를 저장하기 위한 실행 가능한 시스템입니다. 대형 이진 개체는 데이터베이스 관리 시스템에서 단일 엔터티로 저장된 이진 데이터 모음입니다. 대형 이진 개체는 일반적으로 이미지, 오디오 또는 기타 멀티미디어 개체입니다. 때로는 바이너리 실행 코드도 바이너리 대형 개체로 저장됩니다.
비정형 데이터의 단점
비정형 데이터의 단점은 명백하며 다음과 같습니다.
- 스키마와 구조가 없어 비정형 데이터를 관리하기가 어렵고 저장하기도 번거롭습니다.
- 비정형 데이터은 인덱싱하기가 어려울 뿐만 아니라 모호한 구조와 사전 정의된 속성의 부족으로 인해 오류가 발생할 가능성이 매우 높습니다. 검색 결과가 도움이 될 정도로 정확하지 않기 때문에 검색 실행이 상당히 고통스러운 작업입니다.
- 비정형 데이터를 안전하게 유지하는 것도 매우 어렵습니다.
비정형 데이터에서 정보 추출
앞서 언급했듯이 비정형 데이터는 태그 지정, 색인 생성 및 읽기가 매우 어렵기로 알려져 있습니다. 기존 알고리즘으로는 쉽게 해석할 수 없으며 오류 가능성이 높습니다. 다음은 비정형 데이터를 마이닝하여 사용 가능한 정보를 추출하는 데 도움이 되는 몇 가지 전략입니다.
- Documentum과 같은 가상 저장소에 데이터를 저장하면 자동으로 태그를 지정할 수 있습니다.
- 다양한 데이터 마이닝 도구를 실행합니다.
- 데이터의 분류 또는 범주화를 통해 구조와 계층 구조를 제공합니다. 이를 통해 고유한 논리로 검색 프로세스를 단순화합니다.
- 이메일 및 XML 기반 문서에서 정보를 추출하는 데 유용한 XOLAP(Extended Online Analytical Processing)와 같은 애플리케이션 플랫폼을 사용합니다.
- 빅 데이터 환경에서 비정형 데이터에 사용되는 도구 및 기술에는 텍스트 분석 도구가 포함됩니다. 고급 수준에서 텍스트 데이터의 패턴, 키워드 및 감정을 검색합니다. 다른 하나는 자연어 처리(NLP) 기술로, 텍스트와 인간의 언어에서 맥락을 평가하고 의미를 도출하는 일종의 인공 지능입니다. 이는 신경망을 사용하여 데이터를 분석하는 딥 러닝 알고리즘을 통해 수행됩니다.
비정형 데이터 분석에 사용되는 기타 기술에는 데이터 마이닝 또는 머신 러닝 및 예측 분석 사용이 포함될 수 있습니다.

비정형 데이터의 장점
그러나 비정형 데이터에도 장점이 없는 것은 아닙니다. 단점 중 일부는 더 유리해질 수 있습니다.
스키마 부족으로 유연성 제공
비정형 데이터는 스키마와 아키텍처가 부족하여 덜 경직됩니다. 실제로 매우 유연할 수 있습니다. 이러한 유연성으로 인해 확장 가능하며 제약이 없습니다. 비정형 데이터는 이동 가능합니다.
풍부한 정보 출처
출처의 다양성으로 하여 구조화되지 않은 형식일 때 더 풍부한 데이터를 캡처할 수 있습니다. 비정형 데이터를 올바르게 분석하면 다양한 애플리케이션에 사용할 수 있으며 가치 있는 비즈니스 인텔리전스 통찰력을 제공할 수 있습니다.
비정형 데이터는 다양한 형식으로 제공
데이터 세트는 다양한 형식으로 유지 관리할 수 있습니다. 균일한 스토리지 구조가 없기 때문에 분석 팀은 먼저 통합 및 표준화에 집중할 필요 없이 사용 가능한 모든 데이터를 분석하고 작업할 수 있습니다. 이는 보다 엄격한 데이터 형식보다 더 광범위하고 포괄적인 분석을 위한 토대를 마련합니다.
비정형 데이터가 다른 데이터 유형과 다른 점
빅데이터는 비정형 데이터 외에 정형 데이터와 반정형 데이터 등 다른 종류의 데이터를 포함합니다.
정형 데이터
이것은 모든 면에서 비정형 데이터와 반대입니다. 정형 데이터는 데이터베이스 또는 유사한 형식의 리포지토리 내에서 구성되어 언제든지 효과적인 분석을 위해 표시됩니다.
정형 데이터라는 용어는 기술적으로 데이터베이스에 저장할 수 있는 모든 데이터에 적용됩니다. 행과 열이 있는 테이블에 구조적 쿼리 언어(SQL)를 통해 저장할 수 있는 모든 데이터와 관련이 있습니다. 이러한 구조는 관계형 키를 특징으로 하며 사전 설계된 필드에 쉽게 매핑할 수 있습니다. 정형 데이터는 가장 많이 처리되는 종류입니다. 정보를 관리하는 가장 복잡하지 않고 조직적인 방법입니다. 관계형 데이터는 정형 데이터의 한 예입니다.
정형 데이터는 경직된 형식으로 하여 확장하기가 매우 어렵습니다. 금융 시스템 및 기타 비즈니스 애플리케이션의 트랜잭션 데이터가 그 예입니다. 대부분의 경우 프로세스 및 분석의 일관성을 보장하기 위해 일반적으로 주어진 구조를 준수해야 합니다.
반정형 데이터
반정형 데이터는 관계형 데이터베이스에 속하지 않는 정보입니다. 그러나 순전히 비정형 데이터보다 쉽게 마이닝하고 분석할 수 있는 구조적인 속성이 있습니다. 예를 들어, 메타데이터 태그가 추가되면 데이터에 포함된 내용에 대한 더 많은 정보와 컨텍스트가 있습니다. XML 데이터가 그 예입니다.
일부 데이터 관리 전문가들의 견해에 따르면 비정형 데이터를 포함하여 모든 데이터에는 일정 수준의 구조가 있습니다. 그들은 비정형 데이터와 반정형 데이터의 경계가 모호하다고 주장합니다. 비정형 데이터는 데이터 과학자가 모델을 더 잘 구성하는 데 사용할 수 있는 풍부한 통찰력을 보유하는 경향이 있으므로 비정형 데이터의 중요성은 아무리 강조해도 지나치지 않습니다.