ulidtko — Не, посоны. Вот мы тут срёмся, ...

ulidtko 21.05.2012 12:20

Не, посоны. Вот мы тут срёмся, обсуждаем, UTF-8 vs UTF-16, хуе-мое... Тем временем сириус тырпрайз до юникода не дорос (по крайней мере в мире плюсов). Тут такие-то юникодопроблемы, вы бы видели. В юзер мануале к одному из основых продуктов насчёт international characters написано несколько страничек сплошного DON'T, мол, типа, ascii хватит всем.

Так вот, опенсорц — счастливый мир. Местами нищий и наивный, но в нём пиздец как всё хорошо (сравнительно). Зависть.

unicode

Recommended by:

@rapture: Йобанный в рот, мне бы такую УДОВЛЕТВОРЕННОСТЬ

and @gelraen

#oggzft

33 comments

recommend

bookmark

tree plain

1. DZhon 21.05.2012 12:29

в Qt давно все проблемы с уникодом решены, why not ?

#oggzft/1

2. ulidtko → DZhon /1 21.05.2012 12:31

ага, и в ICU. И в WinAPI. Везде решены!

только всё вместе это почему-то не работает.

#oggzft/2

3. kurkuma 21.05.2012 12:37

Кстати, а нахуй UTF-16 нужен? Разве восьмерки не хватает?

#oggzft/3

4. ulidtko → kurkuma /3 21.05.2012 12:44

я тоже считаю, что он нахуй не нужен, когда есть UTF-8, но много кто не согласен.

#oggzft/4

5. kurkuma → ulidtko /4 21.05.2012 12:45 _

я рли не знаю зачем он нужен, если даже 8ку не забили еще вроде

#oggzft/5

6. gelraen → kurkuma /5 21.05.2012 12:45 work

пойди перемешай кашу в голове и почитай чем они отличаются

#oggzft/6

7. kurkuma → gelraen /6 21.05.2012 13:04 _

ну так объясни суть

#oggzft/7

8. gelraen → kurkuma /7 21.05.2012 13:12 work

UTF-16 — это не просто "в два раза шире чем UTF-8", это другой метод представления юникодных символов. Так что говорить о "не забили ещё" бессмысленно.

#oggzft/8

9. kurkuma → gelraen /8 21.05.2012 13:13 _

Ну объясни мне суть, в чем потенциально (или реально) utf-8 говно и от каких бед нас спасет отец русского юникода-16

#oggzft/9

10. gelraen → kurkuma /9 21.05.2012 13:16 work

его просто чуть проще парсить. А вообще, проще всего парсить UTF-32, но он занимает намного больше места.

#oggzft/10

11. kurkuma → gelraen /10 21.05.2012 13:17 _

А где существует проблема его парсить? И какая именно проблема? Дохуя ресурсов парсинг жрет штольц?

#oggzft/11

12. gelraen → kurkuma /11 21.05.2012 13:23 work

рекомендую таки сесть и почитать, а не ебать мне мозг. Можно начать даже с педивикии.

#oggzft/12

13. kurkuma → gelraen /12 21.05.2012 13:26 _

Почитал. Ничего интересного. Ненужно.

#oggzft/13

14. gelraen → kurkuma /13 21.05.2012 13:29 work

ну как сказать, в UTF-16, например, можно делать поиск подстроки обычным сравнением пар байтиков, в utf-8 для этого надо парсить всю входную строку на отдельные символы и сравнивать уже символы. Какой способ работает быстрее, думаю, сам догадаешься.

#oggzft/14

15. kurkuma → gelraen /14 21.05.2012 13:30 _

Даже в embedded, думаю, проблем с поиском в utf-8 нет, так зачем усложнять себе жизнь ради каких-то сферических оптимизаций?

#oggzft/15

16. gelraen → kurkuma /15 21.05.2012 13:30 work

а, ну думай дальше.

#oggzft/16

17. kurkuma → gelraen /16 21.05.2012 13:31 _

Диванный оптимизатор ИТТ

#oggzft/17

18. ulidtko → gelraen /14 21.05.2012 14:24

авотхуй, utf-16 surrogate pairs сделают такой алгоритм поиска зафейлить.

Где-то (на SO, кажется) было отличное резюме: UTF-8 идеален для передачи и хранения текста, UTF-32 — для хранения текста в памяти при хардкорных строковых операциях. UTF-16 плохо годится как для одной цели, так и для второй, сохраняя недостатки обоих методов. Не нужен, короче.

#oggzft/18

19. 238328 → ulidtko /18 21.05.2012 15:37

utf-8 идеален для хранения латинских символов, которых 99%, так что пускай все остальные идут в жопу

#oggzft/19

20. ulidtko → 238328 /19 21.05.2012 15:39

99% чего? всего юникодного алфавита? :LOL:

#oggzft/20

21. 238328 → ulidtko /20 21.05.2012 15:48

всего используемой текстовой информации

#oggzft/21

22. 238328 → ulidtko /20 21.05.2012 15:49

поэтому в тырпрайзе всё правильно сделали: либо нормальный юникод, либо надо подумать, а нужен ли он вообще

#oggzft/22

23. ulidtko → 238328 /21 21.05.2012 15:58

братюнь, ты реально много лет на подсчёты потратил, как я посмотрю

#oggzft/23

24. ulidtko → 238328 /22 21.05.2012 16:00

чего, блядь. Не надо никуда думать, кастомер сказал — мне нужен japanese, ему и делают. И хорошо ещё, что пытаются в юникоде, пусть и UTF-16. Проблема в том, что получается хуево.

#oggzft/24

25. 238328 → ulidtko /24 21.05.2012 16:01 23905484741337613625923416

всё правильно делают

#oggzft/25

26. 238328 → ulidtko /23 21.05.2012 16:01 23905484741337613625923416

int izobrazhenie_schyotchik = 0

#oggzft/26

27. ulidtko 21.05.2012 16:19

тащемта, http://programmers.stackexchange.com/a/1...

#oggzft/27