임베디드 시스템 프로젝트를 위해 SE 아시아 문자셋을 포함하기위한 절대적, 최소 요구 사항은 무엇입니까? 따라 여러 가지 용도로

저는 임베디드 컴퓨터 시스템을 우리가 제조하는 제품에 통합하기 시작한 회사에서 일합니다. 우리는 매우 광범위한 제품을 보유하고 있으며 전 세계에 분포되어 있습니다. 또한 시스템에 플래시 된 펌웨어에 따라 여러 가지 용도로 사용할 수있는 몇 가지 통합 보드를 설계했습니다. 이렇게하면 다양한 제품에 맞게 컴퓨터 하드웨어를 재 설계 할 필요가 없습니다. 특정 제품의 요구를 충족시키기 위해 펌웨어 계층을 다시 작성하기 만하면됩니다.

이러한 하드웨어 제한으로 인해 하드웨어를 변경하면 의회가 필요하지만 새 소프트웨어를 작성하는 것이 훨씬 간단합니다.

당사 제품 중 하나에는 이전에 구현하지 않아도되었던 새로운 요구 사항이 있으며 이는 사용자 입력 텍스트가 필요합니다.

현재 국제 텍스트를 리소스에 저장할 수 있으며 필요한 글꼴 문자 만 비트 맵 이미지로 컴파일됩니다. 즉, 전체 언어 집합 중 아주 적은 비율 만 사용하기 때문에 중국어 및 일본어 텍스트와 같은 고도의 표어를 최소한의 공간에 저장할 수있었습니다.

이 새로운 제품은 사용자가 텍스트를 입력해야하므로 광범위한 문자 집합을 구현해야합니다. 주로 PC 개발자로서 ASCII, 유니 코드, UTF-8 등에 익숙하지만, 보드에 제한된 양의 FRAM이 있기 때문에 이러한 언어의 전체 문자 세트를 구현하는 것은 불가능합니다 폰트 데이터를 저장합니다.

경영진은 표의 문자가 많은 언어에 사용할 수있는 최소 문자 집합이 있기를 바랍니다. 일본어 (히라가나)에 대한 발음 알파벳이 있다고 생각합니다. 중국어, 한국어, 베트남어 등의 언어에 대해 유사한 발음 알파벳이 있습니까? 그렇다면 이러한 언어의 스피커가 좁은 문자 집합과 통신 할 수 있습니까? 나는 그 질문에 대한 답이 “절대 아니야”라고 확신하지만 물어볼 가치가있는 질문입니다.

경영진은 공통적으로 사용되는 모든 주요 언어를 포괄하는 약 8,000 자의 제한된 문자 세트 만 가질 수 있도록 “소프트”요구 사항을 설정했습니다. 이것이 가능하지 않은 경우, 제한된 하드웨어 리소스를 기반으로 요구를 충족시키기위한 대체 방법을 찾아야합니다.

이 문제가 전에 해결 되었어야한다고 확신합니다. 광범위한 글꼴 및 문자 인코딩 시스템이 필요하지만 이러한 제약 조건 내에서 작업 한 경험이 있습니까? 그렇다면 어떤 지혜를 얻을 수 있습니까?



답변

이것은 훌륭한 질문입니다.

한 번에 한 언어 씩 답을 다루기 위해;

베트남어

베트남어는 더 이상 표의 문자를 사용하지 않지만 라틴어 세트는 상당히 넓습니다.

Tiếng Việt, hay Việt ngữ, là ngôn ngữ của người Việt (người Kinh) và là ngôn ngữ chính thức tại Việt Nam. Đây là tiếng mẹ đẻ của khoảng 85 % dân cư Việt Nam, cùng với gần ba triệu người Việt hải ngoại, mà phần lớn là người Mỹ gốc Việt. Tiếng Việt còn là ngôn ngữ thứ hai của các dân tộc thiểu số tại Việt Nam.

그 이유는 모든 베트남 음절이 발음에 영향을 미치는 6 가지 톤 마크 중 하나를 가지고 있기 때문입니다. 또한 하나의 비표준 자음 글리프와 6 개의 비표준 모음이 있습니다.

유니 코드는 모음에 톤 표시를 구성합니다. 글리프를 구성 할 수있는 경우 베트남어에는 13 개의 추가 글리프 만 필요 하지만 그렇지 않은 경우 1 개의 추가 자음 + 12 개의 모음 * 6 개의 톤 + 6 개의 새로운 모음 톤없는 = 79 개의 추가 글리프가 소문자 및 대문자.

한국어

한국인은 나쁜 소식입니다. 한국어는 한글 이라는 알파벳을 사용하지만 기술적으로는 68 자 (자모라고 함) 의 알파벳 이지만 실제로 자모로 구성된 음절 크기의 블록으로 작성됩니다.

한국어 텍스트 모양의 예 :

1443 년 조선 제 4 대 임금 세종이 훈민정음 (訓 民 正音) 이후 한문을 고수하는 사대부들과 경의 의사들에게 경의를 표하다 이름을 사용했다.

유니 코드에는 11,172 개의 완성 된 블록 문자가 있지만 최종 “블록”을 직접 작성하도록 논리를 코딩하려는 경우 문자 세트를 크게 절약 할 수 있습니다.

기본적으로 모든 음절은 자음 + 모음과 자음 + 모음 + 최종의 두 가지 범주로 나눌 수 있습니다. 여기서 모음은 자음, 자음 또는 복합입니다. CV 음절은 왼쪽에 C, 오른쪽에 V로 구성됩니다. CVF 자음은 CV 블록 (왼쪽에서 오른쪽으로)으로 구성되며 맨 아래에서 마지막으로 구성됩니다.

따라서 기본적으로 다음이 필요합니다.

  • 두 가지 형태로 19 개의 이니셜
  • 두 가지 형태의 21 개 중간
  • 28 결승

108 개의 심볼이 있습니다. (한국어에는“리그 리트”가 없다는 것이 확실하지 않으므로 구성 블록이 구성 요소의 조합과 다르게 보일 수도 있지만 현재로서는 가장 좋습니다.)

일본어

올바르게 알다시피, 일본어에는 발음 알파벳이 있지만 실제로는 1 개가 아니라 2 개입니다! 히라가나와 가타카나는 같은 음절 48 개를 가진 음절이지만 다른 문맥에서 사용됩니다 (카타카나는 외국어, 히라가나는 문법에 사용됨).

슬프게도 (우리의 목적을 위해) 일본어는이 두 알파벳 만 사용하여 완전히 쓰는 것이 거의 불가능합니다 .이 문맥에서 알려진 한자 또는 한자 는 일본어 텍스트에 필수적입니다.

의무적 글쓰기 예 :

仮 名 (か な) と は 、 漢字 を も と に し て 日本 で 作 ら れ た 文字 の こ と。 現在 一般 に は 平 仮 名 と 片 仮 名 の こ と を 指 す。 表音文字 の 一種 で あ り 、 基本 的 に 1 字 が 1 音節 をあ ら わ す 音節 文字 に 分類 さ れ る。 漢字 に 対 し て 和 字 (わ じ) と も 言 う。 た だ し 和 字 は 和 製 漢字 を 意味 す る 事 も あ る。

한자 외에도 중국어에는없는 두 개의 발음 알파벳 + 7 개의 일반적인 한자를 매핑 하려면 103 개의 글리프 가 필요 합니다.

CKJ 문장 부호

이것에 대한 전문가는 아니지만 중국과 일본인 모두 고전적인 동아시아 문장 부호를 사용합니다. 유니 코드에는 64 개의 CJK 문장 부호와 기호가 사용됩니다.

중국말

따라서 “예산”에 7631 개의 문자가 남아 있습니다. 한자를 커버하기에 충분합니까?

1 字 為 上古 時代 的 華夏族 人 所 發明 創製 並 作 改進 , 目前 确切 歷史 可 追溯 至 約 公元前 1300 年 商朝 的 甲骨文 、 籀文 、 金文。 再到 秦朝 的 小篆 , 發展 至 漢朝 隸 變 ,要 唐代 楷 化為 今日 所 用 的 手寫 字體 標準 —— 正楷。 汉字 是 迄今为止 连续 使用 时间 最长 的 主要 文字, 也是 上古 时期 各大 文字 體系 中 唯一 传承 至今 的 文字, 期間 ​​東亞 諸國 都有 一定 程度 地 自行創製 漢字。

100,000 개가 넘는 문자가 존재하면 한자 문자 를 완전히 덮을 수 없으며, 실제로 사용되는 하위 세트가 훨씬 작습니다. 2000-3000 문자는 일반 문해력에 충분하다고합니다 (HSK, 중국어 (중국어의 TOEFL과 같은 시험, 최고 수준의 HSK 고급, HSK 고급에 대한 2800 자 지식 필요), 4000-5000 문자는 교육받은 사람에게 충분합니다.

단순화되고 전통적인 문자 (이전의 PRC에서 후자-대만에서 사용됨)가 있으며 많은 문자에 대해 다르며 나머지 7600 개의 기호는 대부분의 사용 사례를 다루기에 충분할 것 입니다. 두 문자 세트.

궁금한 점이 있으면 언제든지 문의하십시오!


답변