유니코드와 한중일 통합한자 - korea...

12
유니코드와 한중일 통합한자- v - 유니코드와 한중일 통합한자 1. 유니코드 1990년대 말까지만 해도 컴퓨터에서 서로 다른 언어와 문자를 처리하기 위해서는 각국이 독자적 으로 제정한 문자코드 체계로 전환하여 사용할 수밖에 없었는데, 이럴 경우 하나의 운영시스템에서 하나의 언어코드밖에는 처리할 수가 없어 동시에 여러 가지 언어와 문자를 처리할 수 없는 불편을 겪어야만 했다. 이러한 불편을 해소하기 위한 방편으로 하나의 문자코드 체계에서 다양한 언어와 문 자를 처리하기 위한 통합 문자코드 연구가 진행되었다. 그 가운데 대표적인 것으로 국제 표준 기구 (ISO)‘ISO/IEC 10646 계획과 미국의 소프트웨어 제조사들이 중심이 된 유니코드 협회(Unicode Consortium)유니코드 계획이다. ‘ISO/IEC 10646’‘UCS(Universal Character System) 코드라고도 하는데, 세계 각국의 문자를 단 일한 문자코드 체계로 통합하여 데이터를 상호 교환 및 처리할 수 있도록 고안되어 구조화한 것이 . 처음에 유니코드는 ISO/IEC 10646과는 별도로 작업을 진행하였으나 점차 공동으로 작업을 진행 하게 되었다. 즉 문자의 수록과 추가 등의 기본 작업은 ISO/IEC 10646을 중심으로 공동으로 결정하 , 여기서 결정된 사항을 유니코드에 수용하는 방식을 채택하게 된다. 유니코드의 이런 결정은 신 뢰성과 안정성을 구축하게 되고, 그 결과 2000년 이후부터 각종 운영체계와 소프트웨어, 이메일, (Web), 자바(Java), XML 등에서 표준으로 빠르게 채용됨으로써 단일 문자코드의 국제화와 지역화를 이룰 수 있게 되었다. 2. 유니코드의 문자 영역 유니코드에 문자를 지정할 수 있는 문자영역을 평면(Plane)’이라 하는데, 유니코드를 논리적으로 나눈 일종의 구획을 가리킨다. 처음에는 기본 다국어 평면(BMP, Basic multilingual plane)’만 존재 하였으나, 이후 확장 작업을 거쳐서 현재는 0번에서 16번까지 모두 17개의 평면이 존재하며, 각 평 면은 2 16 =65,536개의 코드로 구성되므로 65,53617=1,114,112개의 문자를 지정할 수 있다. 이 가운 데 현재 공식적으로 사용이 확정된 평면은 0, 1, 2, 3, 14번의 5개이다. 0번 평면은 기본 다국어 평면이라 하며, 현재 사용되고 있는 세계의 거의 모든 언어권의 문자를 비롯하여 대부분의 특수 문자가 등록되어 있으며, 그 가운데 대부분은 완성형 현대 한글 11,172한중일 통합한자(CJK Unified Ideographs)’ 20,902, 그리고 한중일 확장한자 A’ 6,582자로 이 루어져 있다. 1번 평면은 보조 다국어 평면(SMP, Supplementary Multilingual Plane)’이라 하며, 한자 이외의 옛 문자나 음악 부호, 수학 기호 등이 등록되어 있다. 2번 평면은 보조 한자 평면(SIP, Supplementary Ideographic Plane)’이라 하며, ‘기본 다국어 평면에 포함되지 않은 한중일 통합한자를 주로 담고 있는데, 현재 한중일 확장한자 B’한중일 확장 한자 C’한중일 확장한자 D’가 등록되어 있다.

Upload: others

Post on 10-Mar-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • 유니코드와 한중일 통합한자❘

    - v -

    유니코드와 한중일 통합한자

    1. 유니코드

    1990년대 말까지만 해도 컴퓨터에서 서로 다른 언어와 문자를 처리하기 위해서는 각국이 독자적으로 제정한 문자코드 체계로 전환하여 사용할 수밖에 없었는데, 이럴 경우 하나의 운영시스템에서 하나의 언어코드밖에는 처리할 수가 없어 동시에 여러 가지 언어와 문자를 처리할 수 없는 불편을

    겪어야만 했다. 이러한 불편을 해소하기 위한 방편으로 하나의 문자코드 체계에서 다양한 언어와 문자를 처리하기 위한 통합 문자코드 연구가 진행되었다. 그 가운데 대표적인 것으로 국제 표준 기구(ISO)의 ‘ISO/IEC 10646 계획’과 미국의 소프트웨어 제조사들이 중심이 된 유니코드 협회(Unicode Consortium)의 ‘유니코드 계획’이다.

    ‘ISO/IEC 10646’은 ‘UCS(Universal Character System) 코드’라고도 하는데, 세계 각국의 문자를 단일한 문자코드 체계로 통합하여 데이터를 상호 교환 및 처리할 수 있도록 고안되어 구조화한 것이

    다. 처음에 유니코드는 ISO/IEC 10646과는 별도로 작업을 진행하였으나 점차 공동으로 작업을 진행하게 되었다. 즉 문자의 수록과 추가 등의 기본 작업은 ISO/IEC 10646을 중심으로 공동으로 결정하고, 여기서 결정된 사항을 유니코드에 수용하는 방식을 채택하게 된다. 유니코드의 이런 결정은 신뢰성과 안정성을 구축하게 되고, 그 결과 2000년 이후부터 각종 운영체계와 소프트웨어, 이메일, 웹(Web), 자바(Java), XML 등에서 표준으로 빠르게 채용됨으로써 단일 문자코드의 국제화와 지역화를 이룰 수 있게 되었다.

    2. 유니코드의 문자 영역

    유니코드에 문자를 지정할 수 있는 문자영역을 ‘평면(Plane)’이라 하는데, 유니코드를 논리적으로 나눈 일종의 구획을 가리킨다. 처음에는 ‘기본 다국어 평면(BMP, Basic multilingual plane)’만 존재하였으나, 이후 확장 작업을 거쳐서 현재는 0번에서 16번까지 모두 17개의 평면이 존재하며, 각 평면은 216=65,536개의 코드로 구성되므로 65,536⨯17=1,114,112개의 문자를 지정할 수 있다. 이 가운데 현재 공식적으로 사용이 확정된 평면은 0번, 1번, 2번, 3번, 14번의 5개이다.

    0번 평면은 ‘기본 다국어 평면’이라 하며, 현재 사용되고 있는 세계의 거의 모든 언어권의 문자를 비롯하여 대부분의 특수 문자가 등록되어 있으며, 그 가운데 대부분은 ‘완성형 현대 한글 11,172자’와 ‘한중일 통합한자(CJK Unified Ideographs)’ 20,902자, 그리고 ‘한중일 확장한자 A’ 6,582자로 이루어져 있다.

    1번 평면은 ‘보조 다국어 평면(SMP, Supplementary Multilingual Plane)’이라 하며, 한자 이외의 옛 문자나 음악 부호, 수학 기호 등이 등록되어 있다.

    2번 평면은 ‘보조 한자 평면(SIP, Supplementary Ideographic Plane)’이라 하며, ‘기본 다국어 평면’에 포함되지 않은 ‘한중일 통합한자’를 주로 담고 있는데, 현재 ‘한중일 확장한자 B’・‘한중일 확장한자 C’・‘한중일 확장한자 D’가 등록되어 있다.

  • ❘유니코드 한자 정보 사전

    - vi -

    3번 평면은 ‘세 번째 한자 평면(TIP, Tertiary Ideographic Plane)’이라 하고, 갑골 문자・금문・소전과 같은 예서 이전의 ‘옛 한자(Old Hanzi)’를 비롯하여 ‘한중일 통합한자’를 추가하거나, 기타 한자를 위해 예약된 영역이다.

    14번 평면은 ‘보조 특수 목적 평면(SSP, Supplementary Special-purpose Plane)’이라 하며, 약간의 제어용 문자들이 등록되어 있다.

    4번 평면부터 13번 평면에는 현재 아무 문자나 기호도 등록되어 있지 않으며, 15번과 16번은 사용자 영역으로 특정 업체나 사용자가 임의로 문자를 지정하여 사용할 수 있으나 소프트웨어나 글꼴

    에 따라 호환되지 않는 부분이 있다.

    [기본 다국어 평면(BMP, Basic Multilingual Plane)의 문자와 기호의 배치]

  • 유니코드와 한중일 통합한자❘

    - vii -

    3. 한중일 통합한자(CJK Unified Ideographs)

    유니코드는 설계 당시 216=65,536개의 문자영역[BMP, Basic Multilingual Plane, 기본 다국어 평면] 속에 전 세계의 문자를 모두 수록하고자 하였는데, 중국・일본・대만・한국의 코드에서 사용하고 있던 한자의 양이 많아 이것을 어떻게 처리할 것인가가 가장 큰 문제로 대두되었다. 당시 각국의 코드에는 중국의 GB코드에 7,583자, 대만의 BIG5코드에 13,461자, 일본의 JIS코드에 12,192자, 한국의 KS코드에 7,744자가 각각 수록되어 있었고, 유니코드의 제정에 맞추어 추가로 등록하기 위한 준비 작업을 각국에서 진행하고 있었다. 따라서 유니코드의 한정된 문자영역에 효율적으로 한자를 수용할 방법이 필요하였고, 이를 해결하기 위해 ‘Z-이체자 3차원 모델’을 적용하여 각국의 한자를 통합하도록 하였다. 즉 한자의 의미를 X축, 한자의 자체를 Y축, 한자의 자형을 Z축으로 설정하고, X축과 Y축이 일치하는 한자는 가능한 같은 코드값에 할당한다는 방침을 정하고, 각국에서 제출한 한자 가운데 비슷한 한자는 모두 통합하도록 하였던 것이다. 이와 같이 통합된 한자집합을 ‘한중일 통합한자(CJK Unified Ideographs)’라고 하였으며, 뒤에 베트남에서 사용되던 한자가 추가된 이후부터는 ‘CJKV 통합한자’라고도 부른다.

    이렇게 하여 모두 20,902자의 한중일 통합한자가 정해졌지만 예외도 존재하였다. 기존에 각국에서 사용하고 있던 코드 체계에서 완전히 다르게 구별되고 있는 한자의 경우에는 별도의 코드값을 부여

    하였고, 번체자와 간체자의 경우에도 별도의 코드값을 부여하여 구별하도록 하였다. 또 통합한자 영역에 이미 등록되어 있다 하더라도 한국의 구개음화 현상에 의해 구별하여 사용하던 한자, 혹은 입력이나 데이터 처리에서 문제가 발생할 수 있다고 판단될 경우에는 ‘한중일 호환용 한자(CJK Compatibility Ideographs)’라는 영역을 별도로 지정하여 구별하도록 하였다.

    한중일 통합한자 이후에도 보다 많은 한자를 컴퓨터에서 사용하기 위하여 지속적인 확장 논의가

    제기되었는데, 1999년에 ‘한중일 확장한자 A’에 6,582자가 ‘기본 다국어 평면(BMP)’에 추가로 등록되었다. 그리고 2001년에는 ‘보조 한자 평면(SIP)’을 사용하여 ‘한중일 확장한자 B’에 42,711자가 등록되었으며, 2009년에는 ‘한중일 확장한자 C’에 4,149자, 2010년에 ‘한중일 확장한자 D’에 222자가 각각 추가로 등록되었다. 아울러 한중일 호환용 한자도 542자를 추가하여 ‘한중일 호환용 한자 보충(CJK Compatibility Ideographs Supplement)’으로 확장하였으며, 이 외에 ‘강희자전 부수(KangXi Radicals)’ 214부수와 ‘한중일 부수 보충(CJK Radicals Supplement)’, ‘한중일 한자 획(CJK Strokes)’, ‘한자 풀어쓰기 부호(IDS, Ideographic Description Characters)’ 등이 추가로 등록되었다.

    이와 같이 많은 양의 한자를 컴퓨터에서 사용할 수 되었음에도 불구하고 아직도 한자의 확장은

    계속되고 있는데, 현재 ‘한중일 확장한자 E’의 10,529자가 등록을 위한 최종 결정을 앞두고 있고, ‘한중일 확장한자 F’에 등록하기 위해 각국에서 제안한 한자 8,000여 자가 논의 중에 있어 유니코드의 한자는 더 늘어날 전망이다.

    4. 한중일 통합한자의 문제점

    한중일 통합한자는 당시까지 사용하고 있던 한・중・일 각국의 코드에 수록되어 있던 한자가 1차 선정 대상이었기 때문에 기존에 사용하고 있던 시스템이나 소프트웨어와의 데이터 호환성을 고려하

    지 않을 수 없었다. 이러한 까닭으로 다음과 같은 몇 가지 문제점을 가질 수밖에 없었다.

  • ❘유니코드 한자 정보 사전

    - viii -

    ① 배열 문제 : 원칙적으로는 매 글자는 부수와 획수 순으로 배열되어 있으나, 일부 한자는 뒤섞여서 배열되어 있기 때문에, 검색과 정렬에 문제가 발생하고 있다.

    ② 유사한자의 통합 : 통합 원칙을 추상문자 수준에서 진행하였기 때문에, 일부 한자는 각국의 서사 습관상 분리하는 것이 효율적임에도 불구하고 유사하다는 이유만으로 통합시킨 경우가 있

    는데, 예를 들면 ‘為-爲’, ‘単-单’과 같은 한자들이다. ③ 유사한자의 분리 : 유사한 자형이지만 여러 이유로 분리한 경우로 현재 262자가 확인되고 있

    다. 예를 들어 ‘飲-飮’, ‘兌-兑’, ‘悅-悦’, ‘挩-捝’와 같은 한자들은 대만의 CNS-11646 규격에서 구별하고 있다는 이유로 별도의 코드값을 부여하였다.

    ④ 한자의 중복 등록 : 간혹 같은 자형의 한자가 다른 코드값에 중복하여 등록된 경우가 있는데, 예를 들어 ‘器(U5668)’와 ‘𠾖(U20F96)’는 통합 가능함에도 불구하고 별도의 코드값을 부여하고 있다. 이와 같은 유형으로 현재 52자가 확인되고 있다.

    ⑤ 통합 오류 : 통합 과정에서 자형이 비슷하다는 이유로 잘못 통합된 한자로 ‘䀹’와 ‘䀹’가 있는데, 처음에는 두 글자를 ‘鿃’(U9FC3)’로 통합하였다. 그러나 나중에 일본의 에 등록되어 있음이 밝혀져 ‘한중일 확장한자 A’에 ‘䀹(U4039)’을 추가시켰다.

    이와 같은 문제점들을 해결하기 위하여 유니코드 ISO와 유니코드 협회(Unicode Consortium)에서는 유니코드에 수록되어 있는 한자의 코드값・부수・획수 등의 기초적인 정보와 오류 정보를 구조화하여 ‘Unihan Database’로 작성하여 홈페이지(http://www.unicode.org/charts/unihan.html)를 통해 제공하고 있다. 그러나 내용 가운데에는 일반적인 한자 지식과 맞지 않는 부분이 있고, 간혹 틀린 곳도 있기 때문에 이 데이터를 바로 사용하기에는 무리가 있다. 전문가의 자문이 필요할 것이다.

    5. 유니코드와 한자 확장의 역사

    1991년 10월 : 유니코드 1.0.01992년 06월 : 유니코드 1.0.1 한자 20,902자 등록1993년 06월 : 유니코드 1.1 ISO 10646-1:1993 대응1996년 06월 : 유니코드 2.0 현대 한글 11,172자 등록1999년 09월 : 유니코드 3.0 ISO/IEC 10646-1:2000 대응. ‘한중일 확장한자 A’ 6,582자 추가2001년 03월 : 유니코드 3.1 ISO/IEC 10646-2:2001 대응. ‘한중일 확장한자 B’ 42,711자 추가2003년 04월 : 유니코드 4.0 ISO/IEC 10646:2003 대응2006년 07월 : 유니코드 5.02009년 10월 : 유니코드 5.2 ‘한중일 확장한자 C’ 4,149자 추가2010년 10월 : 유니코드 6.0 ISO/IEC 10646:2010 대응. ‘한중일 확장한자 D’ 222자 추가2012년 01월 : 유니코드 6.2 ISO/IEC 10646:2012 대응.2012년 09월 : 유니코드 6.2

  • 일러두기❘

    - ix -

    일 러 두 기

    Ⅰ. 편찬 목적

    본 사전은 ‘유니코드 한자 정보 사전’으로서 다음과 같은 목적 아래 편찬 작업을 진행하였다.

    (1) 한국학 기초 사전으로서 한국학 연구에 필요한 한자의 부수・획수, 한글 자음・자의 등 기초 정보를 제공하여 한자의 국제적 소통에 기여한다.

    (2) 본 사전에서 제공하는 유니코드 한자의 한글 자음과 자의는 다양한 종류의 한자를 입출력할 수 있게 하여 효율적으로 고전 자료의 전산화와 정보 처리를 위해 활용할 수 있도록 한다.

    (3) 유니코드 한자에 대해 異體字 및 通用字 關係를 설정함으로써 한국학 문헌 처리를 위한 이체자 종합 사전 편찬을 목적으로 한다.

    (4) 대규모 한자 자원의 정보 처리 및 소통 등 다양한 목적으로 개발될 각종 소프트웨어에 이용할 수 있도록 기계 가독형 사전(MRD: Machine Readable Dictionary) 개발을 목적으로 한다.

    Ⅱ. 표제자

    1. 표제자의 범위

    본 사전의 표제자는 유니코드에 등록된 한자 가운데, ‘한중일 통합한자’, ‘한중일 확장한자 A’, ‘한중일 확장한자 B’ 영역에 등록된 70,195자를 표제자로 하였다. 표제자로 선정한 각 영역별 한자의 유니코드 범위와 자수는 다음과 같다.

    (1) 한중일 통합한자 : U4E00-U9FA5, 20,902자(2) 한중일 확장한자 A : U3400-U4DB5, 6,582자(3) 한중일 확장한자 B : U20000-U2A6DF, 42,711자

    2. 표제자의 자형

    (1) 표제자의 자형은 2009년에 ‘ISO/IEC 10646 2ed’에서 새로 수정된 자형으로 표기하였다(유니코드에는 버전 6.0부터 적용). 2009년 이전까지 유니코드에 등록된 한자를 표기하기 위해 하나의 대표 자형만을 제시하였다. 그러나 각국의 서사 습관에 따라 미세한 필획의 차이가 발생하여 사용상의 불편을 가져올 수밖에 없었다. 이를 해결하기 위해 각국이 제안한 한자의 자형을 인정하고, ‘멀티 칼럼(Multi Column)’으로 표기하였는데, 한국은 한국 측 제안한자 17,797자에 대해서만 한국 자형으로 표기할 수 있다. 본 사전에서는 한국 측 제안한자 17,797자에 대해서는 한국 자형을 따라 표기하고, 나머지는 중국의 글꼴을 따라 표기하였다.

  • ❘유니코드 한자 정보 사전

    - x -

    유니코드값 표제자 자형 중국 홍콩 대만 일본 한국 베트남

    504F

    50A6

    [표제자 자형 표기의 예]

    (2) 유니코드에 등록된 한자는 다양한 형태의 異體字가 포함되어 있기 때문에, 표제자가 반드시 正字가 되는 것은 아니다. 그러므로 본 사전 편찬에서는 전체 표제자 상호 간의 異體字・ 通用字 관계 설정에 주안점을 두었기 때문에, 異體字나 通用字가 유니코드에 등록된 자형 그대로 표제자에서 제시되었다.

    3. 표제자의 배열

    유니코드에 한자가 등록된 순서상으로 본다면, ‘한중일 통합한자’ 20,902자 다음에 ‘한중일 확장한자 A’의 6,582자가 와야 하지만, 실제로는 반대로 되어 있다. 본 사전에서는 검색 등의 편리를 위해 현재 등록되어 있는 유니코드값 순서대로 다음과 같이 표제자를 배열하였다.

    (1) 한중일 확장한자 A : U03400-U04DB5, 6,582자(2) 한중일 통합한자 : U04E00-U09FA5, 20,902자(3) 한중일 확장한자 B : U20000-U2A6DF, 42,711자

    Ⅲ. 기초 정보

    (1) 기초 정보는 부수・잔여 획수・총획수 및 유니코드 코드값으로 구분하였다.(2) 부수체계는 의 214 부수 체계를 따라서 표기하였다.(3) 잔여획수와 총획수는 기본적으로 유니코드에 정의된 잔여획수와 총획수를 따르되, 우리 어문

    생활 규범을 반영하여 수정・보완하였다.(4) 유니코드 코드값은 ‘U00000’와 같은 형식으로 표기함을 원칙으로 하나, 지면상의 관계로 인하

    여 ‘한중일 통합한자’와 ‘한중일 확장한자 A’의 한자는 ‘U0’를 제거하고, ‘한중일 확장한자 B’의 한자는 ‘U’를 제거하였다.

    (5) 기초 정보의 표기 방식은 다음과 같다.

    髓 9AD3 骨 13(23) 74232

    유니코드값 잔여 획수

    부수 총획수

  • 일러두기❘

    - xi -

    Ⅳ. 字音 정보

    (1) 字音 정보는 한글 字音, 중국어 拼音, 일본어 字音으로 구분하여 표기하였다.(2) 한글 字音은 유니코드에 등록된 ‘한중일 확장한자 B’까지의 한자 70,195자를 대상으로 부여

    하며, 다음과 같은 방법으로 확정하였다. ① 국내의 대표적인 자전을 참조하여 한글 字音을 부여하였다. ② 국내에서 간행된 자전을 통해 한글 字音을 확정하지 못할 경우에는 외국의 자전을 참고하

    고, 해당 한자에 대한 反切을 이용하여 가능한 범위 내에서 한글 字音을 부여하였다. ③ 한글 字音이 여러 개일 경우에는 가능한 모두 표기함을 원칙으로 하였다. ④ 이와 같은 방법으로 ‘한중일 통합한자’의 20,902자와 ‘한중일 확장한자 A’의 6,582자에 대

    하여 모두 한글 字音을 부여하였다. 그러나 ‘한중일 확장한자 B’의 42,711자 가운데 약 17,700여 자의 한자는 추정 음을 확정할 수는 있으나, 그 내원이 대만의 호적부에서 온 것이기 때문에 한글 字音을 부여하지 않았다.

    (3) 중국어 拼音과 일본어 字音은 조사 가능한 한자로 한정하며, 해당 한자가 여러 개의 자음을 가질 경우에는 가능한 모두 표기하였다.

    (4) 字音 정보의 표기 방식은 다음과 같다.

    數 6578 攴 11(15) 58440(수) 헤아리다, 셈하다; (촉) 빽빽하다Ⓒshǔ, shù, shuò Ⓙスウ, シュ Ⓔnumber; several; count

    중국어 拼音 일본어 字音

    한글 字音

    Ⅴ. 字義 정보

    (1) 字義 정보는 한글 字義와 영문 字義로 구분하여 표기하였다.(2) 한글 字義는 유니코드에 등록된 Ext.B 영역까지의 한자 70,195자를 대상으로 부여하며, 다음

    과 같은 방법으로 확정하였다. ① 국내의 대표적인 자전을 참조하여 한글 字義를 부여하였다. ② 국내에서 간행된 자전을 통해 한글 字義를 확정하지 못할 경우에는 외국의 자전을 참고하

    여 해당 한자에 대한 뜻풀이를 옮겨서 가능한 범위 내에서 한글 字義를 부여하였다. ③ 자의가 여러 개일 경우에는 가능한 모두 표기하는 것을 원칙으로 하되, 너무 상세하게 하

    여 번잡스럽지 않도록 하였다. ④ 이와 같은 방법으로 ‘한중일 통합한자’의 20,902자와 ‘한중일 확장한자 A’의 6,582자에 대

    하여 모두 한글 字義를 부여하였다. 그러나 ‘한중일 확장한자 B’의 42,711자 가운데 약 17,700여 자의 한자는 그 내원이 대만의 호적부에서 온 것이기 때문에 한글 字義를 부여하지 않았다.

    (3) 영문 字義는 조사 가능한 한자로 한정하며, 해당 한자가 여러 개의 자의를 가질 경우에는 가

  • ❘유니코드 한자 정보 사전

    - xii -

    능한 모두 표기한다.(4) 字義 정보의 표기 방식은 다음과 같다.

    數 6578 攴 11(15) 58440(수) 헤아리다, 셈하다; (촉) 빽빽하다Ⓒshǔ, shù, shuò Ⓙスウ, シュ Ⓔnumber; several; count

    한글 字義

    영어 字義

    Ⅵ. 字形 정보

    1. 異體字 관계 정보

    (1) ‘ 異體字 관계 정보’란 正字에 대한 이체자 관계가 아니라, 표제자 상호 간의 ‘이체 관계’를 설정함을 목표로 하였다. 따라서 본 사전에서의 이체자는 다음과 같이 정의한다.

    ① 표제자와 同音同義의 관계에 있으면서 자형이 상이한 한자를 말한다. 따라서 略字・簡體字・繁體字도 기본적으로는 이체자로 간주한다.

    ② 한자 형성 과정에서 正字로서의 지위를 인정받지 못하였으나, 正字와 서로 대체하여도 의미상 완전하게 문제가 없는 한자만을 기준으로 한다.

    (2) 이체자 관계 정보는 다음과 같은 기준으로 표기하였다. ① 표제자에 대응하는 이체자는 ‘㉄’의 약호로 표기하며, 약자나 간체자가 있을 경우에는 각

    각 ‘㉈’과 ‘㉇’의 약호로 표기하였다. ② 표제자가 약자나 간체자일 경우에는 이에 대응하는 번체자를 ‘㉆’의 약호로 표기하였다. ③ ‘한중일 호환용 한자(CJK Compatibility Ideographs)’에 등록된 한자의 경우에는 이체자와

    별도로 ‘㉉’의 약호로 표기하였다. ④ 하나의 표제자에 여러 개의 이체자가 존재할 경우에는 가능한 모두 표기하였다.

    2. 通用字 관계 정보

    (1) ‘ 通用字 관계 정보’란 正字에 대한 통용자 관계가 아니라, 표제자 상호 간의 ‘통용 관계’를 설정함을 목표로 하였다. 따라서 본 사전에서의 통용자는 다음과 같이 정의한다.

    ① 정자와 자형은 다르나 자음과 자의가 동일하여 정자와 통용해서 사용할 수 있는 한자를 말한다.

    ② 일반적으로 통용자는 자음과 자의가 완전히 같아 어떠한 경우에도 서로 호환될 수 있는 完全通用字와 자음과 자의를 제한적으로 통용해서 사용할 수 있는 制限通用字로 구별하지만, 본 사전에서는 이를 구별하지 않는다.

    (2) 通用字 관계 정보는 다음과 같은 기준으로 표기하였다. ① 표제자에 대응하는 통용자는 ‘㉅’의 약호로 표기하였다.

  • 일러두기❘

    - xiii -

    ② 하나의 표제자에 여러 개의 통용자가 존재할 경우에는 모두 표기하였다.

    3. 字形 정보 표기 방식

    본 사전에서 ‘ 異體字 관계 정보’와 ‘ 通用字 관계 정보’를 표기한 방식은 다음과 같다.

    數 6578 攴 11(15) 58440(수) 헤아리다, 셈하다; (촉) 빽빽하다Ⓒshǔ, shù, shuò Ⓙスウ, シュ Ⓔnumber; several; count㉄𡢏(2188F) 𢿘(22FD8) 𣀭(2302D) 𣯫(23BEB) ㉅縮(7E2E) 遬(906C) ㉇数(6570) ㉈数(6570) ㉉數(F969)

    간체자 정보

    이체자 정보

    약자 정보 호환용 한자

    통용자 정보

    Ⅶ. 사전 참고 정보

    (1) ‘사전 참고 정보’란 ・・・ 등 한중일 3국에서 간행된 주요 자전의 출전 페이지 정보를 표기하는 것이다. 이것은 유니코드에 등록된 한자의 출전을 명확하게 하여 연구자들에게 도움을 주기 위한 것으로, ‘한중일 확장한자 B’까지의 한자 71,534자에 대해 다음과 같은 방법으로 각각 표기하였다.

    (2) 은 해당 한자가 수록된 페이지 번호와 게재된 순번을 입력하였으며, 中華書局에서 1958년 영인[2001년 10차 영인]한 것을 저본으로 하였다. 본문에서는 ‘㉊’의 약호로 표기하였다.

    (3) (湖北辭書出版社⋅四川辭書出版社, 1988)은 모두 8권으로 구성되어 있는데, 본 사전 편찬에서는 해당 한자가 수록된 권수와 페이지 번호, 그리고 게재된 순번을 입력하였다. 본문에서는 ‘㉋’의 약호로 표기하였다.

    (4) (大修館書店, 1960)은 모두 13권으로 구성되어 있는데, 본 사전 편찬에서는 1권부터 15권까지의 한자 색인에 일련번호를 붙이는 방식을 적용하였으며, 해당 한자가 없을 경우에는 공백으로 처리하였다. 각 권수와 해당 한자의 일련번호는 다음과 같으며, 본문에서는 ‘㉌’의 약호로 표기하였다.

    (5) 은 단국대학교 동양학연구소에서 2008년도 완간한 것으로 모두 15권으로 구성되어 있는데, 본 사전 편찬에서는 해당 한자가 수록된 권수와 페이지 번호, 그리고 게재된 순번을 입력하였다. 본문에서는 ‘㉍’의 약호로 표기하였다.

    Ⅷ. 검색 정보

    (1) 효율적인 검색을 위해 70,195자를 대상으로 5자리의 숫자 四角號碼 정보를 표기하였다.(2) 四角號碼法이란 한자를 구성하는 획의 모양을 10가지로 나누고, 이에 대해 각각 고유한 번호

    를 부여하여 보다 편리하게 한자를 검색하기 위해 개발한 방법으로 한자의 획을 구분하는 10가지

  • ❘유니코드 한자 정보 사전

    - xiv -

    유형은 다음과 같다.

    1 : 橫, 一, 右鉤 2 : 豎, 丨, 丿, 左鉤 3 : 點, 捺 4 : 叉(교차하는 획이나 글자) 5 : 揷(여러 획을 찌르는 글자) 6 : 框(네모진 틀에 있는 글자) 7 : 角(각이진 글자) 8 : 八(‘여덟 팔’자 모양의 글자) 9 : 小(‘적을 소’자 모양의 글자) 0 : 點( 點 밑에 가로로 그은 ‘一’자)

    (3) 어떤 한자는 四角號碼 부호값이 같게 표시되기도 하는데, 이를 좀 더 명확하게 구분하기 위해 한자의 중심 부분을 다시 10가지 유형으로 나누고, 원래의 4자리에다가 1자리를 더 추가하여 5자리 단위의 부호값을 부여하고 있다. 본 사전에서는 의 ‘ 四角號碼 索引’을 기준으로 5자리 단위로 구성된 四角號碼 정보를 작성하였다.

    髓 9AD3 骨 13(23) 74232사각호마

    Ⅸ. 부록과 색인

    (1) 유니코드에 등록되어 있으나 본 사전에서 처리하지 못한 확장한자와 효율적인 한자 정보처리를 위해 마련한 기호 등을 부록으로 첨부하였다. 부록으로 첨부된 내용은 다음과 같다.

    ① 한중일 확장한자 C(CJK Extension C) ② 한중일 확장한자 D(CJK Extension D) ③ 한중일 호환용 한자(CJK Compatibility Ideographs) ④ 한중일 호환용 한자 보충(CJK Compatibility Ideographs Supplement) ⑤ 강희자전 부수(KangXi Radicals) ⑥ 한중일 부수 보충(CJK Radicals Supplement) ⑦ 한중일 한자 획(CJK Strokes) ⑧ 한자 풀어쓰기 부호(Ideographic Description Characters)

    (2) 색인에는 ‘부수색인’과 ‘한자음 색인’을 제공하여 본 사전 이용에 편리하도록 하였다.

  • 참고문헌❘

    - xv -

    참 고 문 헌

    1. 사전

    ・ 世宗 命撰, ( 建國大學校圖書館 所藏本), 서울: 建國大學校出版部 影印, 1973.・ 正祖 命撰, ( 國立中央圖書館 所藏本), 서울: 서광출판사 影印, 1991.・ 正祖 命撰, ( 國立中央圖書館 所藏本), 대전: 學民文化史 影印, 1998.・ 黃泌秀 編, < 校訂 全韻玉篇>( 國立中央圖書館 所藏本), 海文新書局, 1890.・ 池錫永 編, , 匯東書館, 1909 ; 서울: 亞細亞文化史 影印, 1976.・ 柳瑾 等編, , 朝鮮光文會, 1915 ; 서울: 玄岩社 影印, 1973.・ 編輯部 編, 李相殷 監修, , 서울: 民衆書林, 1997.・金赫濟・ 金星元 共編, 車柱環・張基槿・ 金學主 監修 < 明文 漢韓大字典>, 서울: 明文堂, 1984.・ 張三植 編, , 서울: 博文出版社, 1982 ; 수정판 < 漢韓大辭典 大字源>, 서울: 三省出版社, 1988.・ 編輯局 編, 李家源・權五惇・ 任昌淳 監修, < 東亞 漢韓大辭典>, 서울: 東亞出版社, 1982.・ 檀國大 東洋學硏究所 編, , 서울: 檀國大學校出版部, 1992.・ 大漢韓辭典編纂室 編, 李家源・ 安炳周 監修, < 敎學 大漢韓辭典>, 서울: 敎學社, 1998.・ 檀國大 東洋學硏究所 編, , 서울: 檀國大學校出版部, 1999-2008.・ 張玉書 等編, , 上海: 上海古籍出版社 影印, 1996.・ 諸橋轍次 編, , 東京: 大修館書店, 1967.・ 中文大辭典編纂委員會 編, , 台北: 中華學術院 中國文化硏究所, 1974.・ 漢語大字典編纂委員會 編, , 四川: 四川辭書出版社・湖北辭書出版社, 1986.・ 中華字海編輯部 編, , 北京: 中華書局, 1994.・ユニコード漢字情報辞典編集委員会編,

  • ❘유니코드 한자 정보 사전

    - xvi -

    3. 연구보고서

    ・이재훈・안병학・이한섭, “韓・中・ 日 漢字 UCS코드 異體字・ 通用字 목록”, 한국학술진흥재단, 1998.・서경호 외 12인, “ 國際 文字 코드 提案 漢字의 標準化에 대한 硏究(상・하권), 문화관광부, 1998.・이재훈, “국제 문자 코드 한자 Super CJK 연구”, 국립국어연구원, 2000.・이재훈・이경원, “국제 문자 코드계(Super CJK) Extension B의 표준자형 연구”, 문화관광부, 2001.・이재훈 외, “국제 문자 코드계의 한자 표준화에 대한 연구”, 문화관광부, 2001.・김흥규・김풍기, “다국어 정보 처리를 위한 유니코드(V3.0) 한자의 이체자 연구”, 정보통신부, 2002.・이준석, “ 韓國 漢字 異體字 調査 : 표준 코드(KS C 5601) 한자를 중심으로”, 국립국어연구원, 2002.・이재훈 외, “국제 문자 코드계의 한자 표준화에 대한 연구”, 문화관광부, 2002.・정우봉, “유니코드 CJK 문자 속성 사전 개발”, 한국과학기술정보연구원(KISTI), 2002.・이재훈 외, “국제 문자 코드계 Ext.B 등재 한자의 비교 연구”, 문화관광부, 2003.・김흥규・정우봉・권순회, “신출한자(Ext. C2) 국제 표준화 방안 연구”, 산업자원부, 2004.・이재훈・이경원・홍윤표, “국제 표준 코드 한자(Ext.B)의 한자 표준음 연구”, 문화관광부, 2004.

    4. 주요 사이트

    ・ISO/IEC 10646 홈페이지 : http://std.dkuug.dk/JTC1/SC2/WG2/・유니코드 홈페이지 : http://www.unicode.org/・Unihan Database 홈페이지 : http://www.unicode.org/charts/unihan.html・IRG 홈페이지 : http://www.cse.cuhk.edu.hk/~irg/・CNS 11643 홈페이지 : http://www.cns11643.gov.tw/AIDB/welcome.do