00001
00002
00003
00004
00005
00006
00007
00008
00009
00010
00011
00012
00013
00014
00015
00016
00017
00018
00019
00020
00021
00022
00023
00024
00025
00026
00027
00028
00029
00030
00031
00032
00033
00034
00035
00036
00037
00038
00039
00040 #include <stdint.h>
00041 #include "utf8.hxx"
00042
00043 namespace sherpa {
00044
00045
00046
00047
00048
00049
00050
00051
00052
00053
00054
00055
00056
00057 uint32_t
00058 utf8_decode(const char *s, const char **snext)
00059 {
00060 uint32_t ucs4 = ~0u;
00061 const uint8_t *sb = (uint8_t *)s;
00062
00063 if (*sb <= 127) {
00064 ucs4 = *sb++;
00065 }
00066 else if (*sb <= 223) {
00067 ucs4 = (*sb++ - 192)*64;
00068 ucs4 += (*sb++ - 128);
00069 }
00070 else if (*sb <= 239) {
00071 ucs4 = (*sb++ - 192)*4096;
00072 ucs4 += (*sb++ - 128)*64;
00073 ucs4 += (*sb++ - 128);
00074 }
00075 else if (*sb <= 247) {
00076 ucs4 = (*sb++ - 192)*262144;
00077 ucs4 += (*sb++ - 128)*4096;
00078 ucs4 += (*sb++ - 128)*64;
00079 ucs4 += (*sb++ - 128);
00080 }
00081 else if (*sb <= 251) {
00082 ucs4 = (*sb++ - 192)*16777216;
00083 ucs4 += (*sb++ - 128)*262144;
00084 ucs4 += (*sb++ - 128)*4096;
00085 ucs4 += (*sb++ - 128)*64;
00086 ucs4 += (*sb++ - 128);
00087 }
00088 else if (*sb <= 253) {
00089 ucs4 = (*sb++ - 192)*1073741824;
00090 ucs4 += (*sb++ - 128)*16777216;
00091 ucs4 += (*sb++ - 128)*262144;
00092 ucs4 += (*sb++ - 128)*4096;
00093 ucs4 += (*sb++ - 128)*64;
00094 ucs4 += (*sb++ - 128);
00095 }
00096
00097 if (snext) *snext = (char *)sb;
00098 return ucs4;
00099 }
00100
00101 unsigned
00102 utf8_encode(uint32_t ucs4, char utf[7])
00103 {
00104 char *utf8 = utf;
00105
00106 if (ucs4 <= 0x7f) {
00107 *utf8++ = ucs4;
00108 }
00109 else if (ucs4 <= 0x7ff) {
00110 *utf8++ = 192u + (ucs4 / 64);
00111 *utf8++ = 128u + (ucs4 % 64);
00112 }
00113 else if (ucs4 <= 0xffff) {
00114 *utf8++ = 224u + (ucs4 / 4096);
00115 *utf8++ = 128u + ((ucs4 / 64) % 64);
00116 *utf8++ = 128u + (ucs4 % 64);
00117 }
00118 else if (ucs4 <= 0x1fffff) {
00119 *utf8++ = 240 + (ucs4 / 262144);
00120 *utf8++ = 128u + ((ucs4 / 4096) % 64);
00121 *utf8++ = 128u + ((ucs4 / 64) % 64);
00122 *utf8++ = 128u + (ucs4 % 64);
00123 }
00124 else if (ucs4 <= 0x3ffffff) {
00125 *utf8++ = 248u + (ucs4 / 16777216);
00126 *utf8++ = 128u + ((ucs4 / 262144) % 64);
00127 *utf8++ = 128u + ((ucs4 / 4096) % 64);
00128 *utf8++ = 128u + ((ucs4 / 64) % 64);
00129 *utf8++ = 128u + (ucs4 % 64);
00130 }
00131 else if (ucs4 <= 0x7fffffff) {
00132 *utf8++ = 252u + (ucs4 / 1073741824);
00133 *utf8++ = 128u + ((ucs4 / 16777216) % 64);
00134 *utf8++ = 128u + ((ucs4 / 262144) % 64);
00135 *utf8++ = 128u + ((ucs4 / 4096) % 64);
00136 *utf8++ = 128u + ((ucs4 / 64) % 64);
00137 *utf8++ = 128u + (ucs4 % 64);
00138 }
00139
00140 *utf8 = 0;
00141
00142 return utf8 - utf;
00143 }
00144
00145 }