KS X 1001
KS X 1001是韓國用於書寫的諺文和漢字的字元編碼規格。以前稱作KS C 5601,現在多稱作KS X 1001,有时也简称为KS編碼。
其与JIS X 0208的94×94字集类似,包含諺文2,350字、漢字4,888字、英文字母、數字和假名共,8226字。諺文是由字母組合成一个音節的,但在这种编码中用一个字符表示一整个音节,难以包括所有可能的組成符號,存在許多無法表示的音節,受到許多批評。百事可樂的韓國法人因 KS X 1001 不含「펲」,在1992年改用 KS X 1001 中存在的諺文「펩」表示。[1]
漢字則是照讀音順序來配置的。朝鮮語原則上一字一音,但也存在破音字,KS X 1001對這樣的漢字在不同的读音位置重複編碼。这被称为「预组合字符编码」(Wansung,韓語:완성,羅馬化:wanseong,直译:预组合[2])。
雖然也有不一樣的,使用頭音法則,即轉成最先遇到的那個讀音,但如「盧」和「李」如此常用的字也有別的讀音和重複編碼。最多的是有4個重複編碼的「樂」。這個方式的好處是、字的讀音利於機械的判定,但卻也被批評違反字符編碼的大原則。此外,這樣重複編碼的漢字在統一碼和通用字符集中因互換性的關係,中日韓統一表意文字只收錄一個、其它的則收錄於中日韓兼容漢字。
KS X 1001在EUC的編碼稱作韓文EUC(EUC-KR)。實際上,KS X 1001 完全沒有被用於其它編碼(ISO-2022-KR完全沒有被使用),單獨的 KS C 5601 通常意指 EUC-KR 。
一些電腦系統将此標準改編成诸多版本。但他們並非完全一致,如將原标准中放在 0x5C 的反斜線改成韓圓(₩)。有些系統則使用非常規方法來擴充此標準。KS X 1001 可編碼成 EUC-KR、Windows-949(EUC-KR 的超集)、ISO-2022-KR 和「雙位元組合型符號」(Johab)。但後二個很少使用。
朝鮮則使用另一規格KPS 9566。
歷史
- 1974年9月27日 - 制訂 KS C 5601 為 7 位元諺文編碼。當時的配置為30個諺文子音字母(頭子音和終子音的集合)在 0x41-0x5E ,21個母音字母散佈在 0x62 - 0x7C 。這種系統無法區別頭子音和終子音。
- 1982年6月14日 - 修訂 KS C 5601。增加「十六位元符號」附錄。「十六位元符號」為初聲、中聲、終聲各5 位元的表示。最高位元為 1 的編碼。
- 1987年3月1日 - KS C 5601再次修訂,7 位元諺文碼和「十六位元符號」移動到附錄。本文定為94×94文字集合,含有2350個諺文字符、4888個漢字、986個其他文字。
- 1992年10月15日 - 修訂 KS C 5601。附錄中「16位元符號」變更為「雙位元組合型符號」。表示的碼點和初聲、中聲、終聲一樣,位元型式則完全不同。
- 1997年8月20日 - 伴隨新的情報部門(X)的設立,KS C 5601 改為 KS X 1001 。
- 1998年12月31日 - 修改 KS X 1001,增加歐元符號(€)和註冊商標符號(®)。
參考
另見
- 查
- 论
- 编
- 電報電碼(英语:Telegraph code)
- Fieldata(英语:Fieldata)
- ASCII
- ISO/IEC 646
- BCDIC(英语:BCD (character encoding))
- 電傳文訊(英语:Teletex)與電傳視訊(英语:Videotex)/電視資訊
- T.51/ISO/IEC 6937(英语:T.51/ISO/IEC 6937)
- ITU T.61(英语:ITU T.61)
- ITU T.101(英语:Videotex character set)
- 世界系統電傳文訊(英语:World System Teletext)
- 字元集(英语:Teletext character set)
- 現行
- 廢止
- 提議
- KOI-8西里爾字母(英语:ISO-IR-111)
- 薩米文(英语:ISO-IR-197)
- 改編
- 威爾斯文(英语:ISO-IR-182)
- 巴倫支西里爾字母(英语:ISO-IR-200)
- 愛沙尼亞文(英语:Code page 922)
- 烏克蘭西里爾字母(英语:Code page 1124)
- ArmSCII
- BraSCII(英语:BraSCII)
- 中文標準交換碼
- DIN 66003(英语:DIN 66003)
- ELOT 927(英语:ELOT 927)
- GOST 10859(英语:GOST 10859)
- GB 2312
- GB 12052
- GB 18030
- HKSCS
- ISCII
- JIS X 0201
- JIS X 0208
- JIS X 0212(英语:JIS X 0212)
- JIS X 0213(英语:JIS X 0213)
- KOI-7(英语:KOI-7)
- KPS 9566
- KS X 1001
- KS X 1002(英语:KS X 1002)
- LST 1564(英语:LST 1564)
- LST 1590-4(英语:LST 1590-4)
- PASCII
- Shift JIS
- SI 960(英语:SI 960)
- TIS-620(英语:Thai Industrial Standard 620-2533)
- TSCII
- VISCII(英语:VISCII)
- VSCII
- YUSCII(英语:YUSCII)
- ISO/IEC 8859
- ISO/IEC 10367(英语:ISO/IEC 10367)
- EUC
- ISO-IR-165
- 亞美尼亞文(英语:Mac OS Armenian)
- 阿拉伯文
- 巴倫支西里爾字母(英语:Mac OS Barents Cyrillic)
- 凱爾特語族(英语:Mac OS Celtic)
- 中歐語言
- 克羅埃西亞文(英语:Mac OS Croatian encoding)
- 西里爾字母(英语:Mac OS Cyrillic encoding)
- 梵文
- 波斯文(英语:MacFarsi encoding)
- 字體X(英语:Macintosh Font X encoding)
- 蓋爾文(英语:Mac OS Gaelic)
- 喬治亞文(英语:Mac OS Georgian)
- 希臘文(英语:MacGreek encoding)
- 古吉拉特文(英语:Mac OS Gujarati)
- 古木基文(英语:Mac OS Gurmukhi)
- 希伯來文(英语:Mac OS Hebrew)
- 冰島文(英语:Mac OS Icelandic encoding)
- 因紐特文(英语:Mac OS Inuit)
- 鍵盤(英语:Mac OS Keyboard encoding)
- 拉丁文(英语:Macintosh Latin encoding)
- 馬爾他文/世界文(英语:Mac OS Maltese/Esperanto encoding)
- 歐甘字母(英语:Mac OS Ogham)
- 羅曼語族
- 羅馬尼亞文(英语:Mac OS Romanian encoding)
- 薩米文(英语:Mac OS Sámi)
- 土耳其文(英语:Mac OS Turkish encoding)
- 土耳其西里爾字母(英语:Mac OS Turkic Cyrillic)
- 烏克蘭文(英语:Mac OS Ukrainian encoding)
- VT100(英语:VT100 encoding)
- 437
- 668(英语:Code page 668)
- 708(英语:Code page 708)
- 720(英语:Code page 720)
- 737(英语:Code page 737)
- 770(英语:Code page 770)
- 773(英语:Code page 773)
- 775(英语:Code page 775)
- 776(英语:Code page 776)
- 777(英语:Code page 777)
- 778(英语:Code page 778)
- 850(英语:Code page 850)
- 851(英语:Code page 851)
- 852(英语:Code page 852)
- 853(英语:Code page 853)
- 855(英语:Code page 855)
- 856(英语:Code page 856)
- 857(英语:Code page 857)
- 858(英语:Code page 858)
- 859(英语:Code page 859)
- 860(英语:Code page 860)
- 861(英语:Code page 861)
- 862(英语:Code page 862)
- 863(英语:Code page 863)
- 864(英语:Code page 864)
- 865(英语:Code page 865)
- 866(英语:Code page 866)
- 867(英语:Code page 867)
- 868(英语:Code page 868)
- 869(英语:Code page 869)
- 897(英语:Code page 897)
- 899(英语:Code page 899)
- 903(英语:Code page 903)
- 904(英语:Code page 904)
- 932(英语:Code page 932 (IBM))
- 936(英语:Code page 936 (IBM))
- 942(英语:Code page 942)
- 949(英语:Code page 949 (IBM))
- 950
- 951(英语:Code page 951)
- 1040(英语:Code page 1040)
- 1042(英语:Code page 1042)
- 1043(英语:Code page 1043)
- 1046(英语:Code page 1046)
- 1098(英语:Code page 1098)
- 1115(英语:Code page 1115)
- 1116(英语:Code page 1116)
- 1117(英语:Code page 1117)
- 1118(英语:Code page 1118)
- 1127(英语:Code page 1127)
- 3846(英语:Code page 3846)
- ABICOMP(英语:ABICOMP character set)
- CS Indic(英语:CS Indic character set)
- CSX Indic(英语:CSX Indic character set)
- CSX+ Indic(英语:CSX+ Indic character set)
- CWI-2(英语:CWI-2)
- 伊朗系統(英语:Iran System encoding)
- 卡梅尼茨(英语:Kamenický encoding)
- 馬索維亞(英语:Mazovia encoding)
- MIK(英语:MIK (character set))
- 895(英语:Code page 895)
- 896(英语:Code page 896)
- 912(英语:Code page 912)
- 915(英语:Code page 915)
- 921(英语:Code page 921)
- 922(英语:Code page 922)
- 1006(英语:Code page 1006)
- 1008(英语:Code page 1008)
- 1009(英语:Code page 1009)
- 1010(英语:Code page 1010)
- 1012(英语:Code page 1012)
- 1013(英语:Code page 1013)
- 1014(英语:Code page 1014)
- 1015(英语:Code page 1015)
- 1016(英语:Code page 1016)
- 1017(英语:Code page 1017)
- 1018(英语:Code page 1018)
- 1019(英语:Code page 1019)
- 1124(英语:Code page 1124)
- 1133(英语:Code page 1133)
- CER-GS(英语:CER-GS)
- 932(英语:Code page 932 (Microsoft Windows))
- 936
- 950
- 1169(英语:Code page 1169)
- Extended Latin-8(英语:Extended Latin-8)
- 1250(英语:Windows-1250)
- 1251(英语:Windows-1251)
- 1252
- 1253(英语:Windows-1253)
- 1254(英语:Windows-1254)
- 1255(英语:Windows-1255)
- 1256(英语:Windows-1256)
- 1257(英语:Windows-1257)
- 1258(英语:Windows-1258)
- 1270(英语:Windows-1270)
- 西里爾字母+芬蘭文(英语:Windows Cyrillic + Finnish)
- 西里爾字母+法文(英语:Windows Cyrillic + French)
- 西里爾字母+德文(英语:Windows Cyrillic + German)
- 希臘語變音符號(英语:Windows Polytonic Greek)
- 37(英语:Code page 37)
- EBCDIC中的日文(英语:Japanese language in EBCDIC)
- DKOI(英语:DKOI)
- MCS(英语:Multinational Character Set)
- NRCS(英语:National Replacement Character Set)
- 加拿大法文(英语:Code page 1020)
- 瑞士文(英语:Code page 1021)
- 西班牙文(英语:Code page 1023)
- 英國英文(英语:Code page 1101)
- 荷蘭文(英语:Code page 1102)
- 芬蘭文(英语:Code page 1103)
- 法文(英语:Code page 1104)
- 挪威文/丹麥文(英语:Code page 1105)
- 瑞典文(英语:Code page 1106)
- 挪威文/丹麥文(替代)(英语:Code page 1107)
- 8位元希臘文(英语:Code page 1287)
- 8位元土耳其文(英语:Code page 1288)
- SI 960(英语:SI 960)
- 希伯來文(英语:DEC Hebrew)
- 特殊圖形(英语:DEC Special Graphics)
- 技術(英语:DEC Technical Character Set)
- 1057(英语:Code page 1057)
- Acorn(英语:RISC OS character set)
- Adobe標準(英语:PostScript Standard Encoding)
- Adobe Latin 1(英语:PostScript Latin 1 Encoding)
- Amstrad CPC(英语:Amstrad CPC character set)
- Apple II(英语:Apple II character set)
- 雅達利資訊交換標準碼(英语:ATASCII)
- 雅達利ST(英语:Atari ST character set)
- BICS(英语:Bitstream International Character Set)
- 卡西歐計算機(英语:Casio calculator character sets)
- CDC(英语:CDC display code)
- Compucolor II(英语:Compucolor II character set)
- CP/M+(英语:Amstrad CP/M Plus character set)
- DEC RADIX 50(英语:DEC RADIX 50)
- DEC MCS(英语:Multinational Character Set)/NRCS(英语:National Replacement Character Set)
- DG國際(英语:DG International)
- Fieldata(英语:Fieldata)
- GEM(英语:GEM character set)
- GSM 03.38(英语:GSM 03.38)
- HP Roman(英语:HP Roman)
- HP FOCAL(英语:FOCAL character set)
- HP RPL(英语:RPL character set)
- SQUOZE(英语:SQUOZE)
- LICS(英语:Lotus International Character Set)
- LMBCS(英语:Lotus Multi-Byte Character Set)
- MSX(英语:MSX character set)
- NEC APC(英语:NEC APC character set)
- NeXT(英语:NeXT character set)
- PETSCII(英语:PETSCII)
- SEGA SC-3000(英语:Sega SC-3000 character set)
- 夏普計算機(英语:Sharp pocket computer character sets)
- 夏普MZ(英语:Sharp MZ character set)
- 辛克萊QL(英语:Sinclair QL character set)
- 符號
- 電傳文訊(英语:Teletext character set)
- 德州儀器計算機(英语:TI calculator character sets)
- TRS-80(英语:TRS-80 character set)
- 文圖拉國際(英语:Ventura International)
- WISCII(英语:Wang International Standard Code for Information Interchange)
- XCCS(英语:Xerox Character Code Standard)
- ZX80(英语:ZX80 character set)
- ZX81(英语:ZX81 character set)
- ZX Spectrum(英语:ZX Spectrum character set)
- 科克(英语:Cork encoding)
- LY1(英语:LY1 encoding)
- OML(英语:OML encoding)
- OMS(英语:OMS encoding)
- OT1(英语:OT1 encoding)
- ABICOMP(英语:ABICOMP character set)
- ASMO 449(英语:ASMO 449)
- 大五碼
- APL符號數位編碼(英语:Digital encoding of APL symbols)
- ISO-IR-68(英语:ISO-IR-68)
- ARIB STD-B24
- HZ(英语:HZ (character encoding))
- IEC-P27-1(英语:IEC-P27-1)
- INIS
- 7位元(英语:INIS character set)
- INIS-8(英语:8位元)
- ISO-IR-169(英语:ISO-IR-169)
- ISO 2033(英语:ISO 2033)
- KOI
- 今昔文字鏡
- SEASCII(英语:Stanford Extended ASCII)
- Stanford/ITS(英语:Stanford/ITS character set)
- TRON(英语:TRON (encoding))
- 統合韓文代碼(英语:Unified Hangul Code)
- 摩斯電碼專用代碼(英语:Prosigns for Morse code)
- C0与C1控制字符
- ISO/IEC 6429
- JIS X 0211(英语:JIS X 0211)
- Unicode控制字符
- 空白字元