데이터 표준화
DB를 설계할 때 보통 혼자하면 상관이없지만 여럿이서 하게되면 용어에 대해 혼란이 온다. 예를 들어 상품코드값의 컬럼을 도출해보자.
- PROD_CD
- PROD_ID
- PRODUCT_ID 등..
위와 같이 여러개의 이름으로 여기저기 흩어져서 설계가 되어있는 경우를 보면 나중에는 큰 혼란을 초래하게 된다.
그래서 데이터 표준화
가 필요하며 데이터 표준화
는 시스템을 구성하는 데이터 정보 요소에 대해 명칭, 정의, 형식 규칙에 대해 원칙을 수립하여 적용하는것을 말한다.
데이터 표준화의 장점
- 유지보수 및 운영의 효율성 증대와 관리비용 절감
- 데이터 요소(entity, property, table, column 등..)의 일관성
- 데이터 정확성 향상으로 인한 품질상승
- 데이터 베이스의 정합성 확보
일반적으로 데이터 표준으로 관리되는 대상은 아래와 같다.
- 단어
- 단일어: 조합이 아닌 하나의 형태소로 이루어진 순수한 단어
// EX 1. 다리 2. 사과 3. 귀엽다
- 합성어: 두 어근이 만나 만들어진 낱말
// EX 1. 밤 + 나무 = 밤나무 2. 바늘 + 방석 = 바늘방석 3. 굽 + 밤 = 군밤 4. 논 + 길 = 논길
- 유의어: 의미가 서로 비슷한 말
// EX 1. 팬티에 `오줌`을 쌌다. 2. 팬티에 `소변`을 쌌다. -> `오줌`과 `소변`은 의미가 서로 같으나 문맥상 2번은 자연스럽지 못하다. 이 때 `오줌`과 `소변`은 유의어의 관계에 속한다.
- 금칙어: 법 혹은 규칙으로 사용이 제한된 말
// EX 무조건 욕이 아니더라도 심하게 부정적이거나 안좋은 반응을 이끌어 내는 말이면 금지어가 될 수 있다.
- 분류어: 데이터 값에 대한 형식을 유추할 수 있는 단어 즉, 개체의 유형을 명확하게 나타내기 위한 단어
// EX 금액, 가격, 명, 번호, 코드
- 단일어: 조합이 아닌 하나의 형태소로 이루어진 순수한 단어
- 용어: 단어의 조합으로 이루어짐. 테이블이나 컬럼의 명칭으로 주로 사용
- 도메인: 각 속성의 일반적인 특징을 나타내는 데이터의 성격을 분류한 것이다. 즉, 데이터 타입과 길이를 정의할때는 반드시 분류어를 사용
// EX 코드VC5, 금액N, 명VC100
사용예시
단어: 상품(PROD) + 명(NM) 도메인: 명 VARCHAR2(800) 용어: 상품명(PROD_NM)
표준화 프로세스
- 테이블 컬럼 신규 및 수정 등의 요건 발생
- 필요한 용어를 데이터 표준화 사전에서 조회
- 필요한 도메인을 데이터 표준화 사전에서 조회
- 필요한 단어 또는 도메인이 없을 경우 임의로 용어명을 작성
- 모델러에게 요청서 작성
- 모델러측 검토 및 반영
표준화가 되어있으면 개발자들간의 혼란이 생기지 않고 명칭을 정할때 시간또한 소요되지 않는 등의 장점들이 많다.