728x90
반응형

그래프 데이터베이스

  • 그래프 데이터베이스는 노드 Nodes, 관계 Relationships, 프로퍼티 Properties 로 된 데이터를 저장하는 데이터베이스
  • 개념
    • Node: 그래프에서의 개체 Entity
    • Relationship: 노드 간의 관계에 대한 이름
    • Property: Node 및 Relationship에 대한 속성들
  • RDB와 비교 비유
    • Label은 RDB의 테이블
    • Node는 레코드(Row)
    • Property는 필드(Column)
    • Relationship은 관계. 딱히 대응시킬 개념은 없는듯

사용하는 이유

  • 대량의 복잡한 데이터 핸들링에 용이함
  • 기존 RDB에서 JOIN 연산은 비용이 비쌈
  • 그래프 데이터베이스는 JOIN 연산이 없음
    • 관계를 더 유연한 포맷으로 네이티브하게 저장함으로써, 데이터 조회 비용도 낮추고 속도도 더 빠르게 최적화됨

많이 사용하는 GraphDB

728x90
반응형
728x90
반응형
  • Neo4j Community Edition
    • 가장 많이 쓰이는 그래프 데이터베이스
    • Cypher라는 쿼리 언어 사용
    • 주로 관계 탐색, 소셜 네트워크 분석, 온톨로지 관리에 사용됨
  • ArangoDB Community Edition
    • 다중 모델 데이터베이스
    • 그래프, 문서, 키-값 데이터 모두 관리 가능.
    • AQL (ArangoDB Query Language) 사용하여 그래프 쿼리 실행
    • 복잡한 관계 데이터 모델링, 온톨로지 관리, 문서형 데이터 통합
  • JanusGraph
    • 유연한 그래프 쿼리 작성 가능.
    • 분산형 아케틱처 지원하여 대규모 데이터에서도 효율적
    • Apache TinkerPop의 Gremlin 쿼리 언어를 사용
    • Cassandra, HBase, ScyllaDB 같은 분산 데이터베이스 및 Elasticsearch, Solr 등의 검색 엔진 지원
    • 대규모 그래프 데이터 처리, 소셜 네트워크, 지식 그래프, 온톨로지 관리
  • OrientDB Community Edition
    • 그래프와 문서형 데이터베이스가 결합된 멀티 데이터베이스
    • SQL과 유사한 쿼리 언어 제공
    • 관계형 데이터베이스와 그래프 데이터베이스의 혼합 사용
    • 데이터 분석 및 온톨로지 관리
  • Apache TinkerPop과 Gremlin Server
    • 그래프 프로세싱을 위한 프레임워크로 다양한 DBMS와 함께 사용
    • Gremlin은 복잡한 그래프 탐색에 유용한 쿼리 언어
    • 다양한 그래프 데이터베이스와 연동 가능
    • 그래프 분석, 온톨로지와 지식 그래프 구축
728x90
반응형
728x90
반응형

PostgreSQL 로 온톨로지 DB 구축 시 주의점

  • 다소 복잡할 수 있음

  • 온톨로지 특성상 RDB보다 GraphDB 가 더 적합한 경우가 많음

  • 데이터 스키마 설계

    • 개념 테이블: 온톨로지 개념 저장할 수 있는 테이블
    • 속성 테이블: 각 개념에 포함된 속성을 저장하는 테이블
    • 관계 테이블: 개념 간 관계 테이블
  • JSON 데이터 타입 활용

    • PostgreSQL JSONB 타입 활용
      • JSONB 칼럼에 개념이나 관계에 대한 속성을 넣어 필요에 따라 필드 수정하지 않아도 됨
  • 공통 테이블 표현식(CTE) 및 재귀 쿼리 활용

    • 공통 테이블 표현식(CTE)와 재귀 쿼리 사용하여 계층적 데이터 구조 쿼리
      • 하나의 개념 -> 하위 개념 탐색 쿼리 가능
  • 인덱스 최적화

    • JSONB 필드 사용할 경우, GIN 인덱스 활용
  • PostGIS

    • 지리적 정보 관리
  • SPARQL 및 그래프 DBMS 와 연동

    • PostgreSQL은 SPARQL을 기본적으로 지원하지 않음
    • 외부 SPARQL 엔진과 PostgreSQL 연동
      • PostgreSQL의 데이터를 그래프 데이터베이스에 동기화

장점

  • 기존 온톨로지 관리 소프트웨어보다 속도 및 안정성 활용 가능
  • JSONB와 같은 유연한 데이터 타입을 통해 다양한 데이터 효율적 저장 가능

단점

  • 관계형 DBMS로 그래프처럼 계층적 구조를 구현하고 관리하면 다소 복잡함
  • SPARQL과 같은 온톨로지 전용 쿼리 언어를 직접적으로 사용할 수 없음
    • 따라서 그래프 DBMS와 연동하여 SPARQL 사용하는거네
728x90
반응형

+ Recent posts