ulidtko 21.05.2012 12:20

Не, посоны. Вот мы тут срёмся, обсуждаем, UTF-8 vs UTF-16, хуе-мое... Тем временем сириус тырпрайз до юникода не дорос (по крайней мере в мире плюсов). Тут такие-то юникодопроблемы, вы бы видели. В юзер мануале к одному из основых продуктов насчёт international characters написано несколько страничек сплошного DON'T, мол, типа, ascii хватит всем.

Так вот, опенсорц — счастливый мир. Местами нищий и наивный, но в нём пиздец как всё хорошо (сравнительно). Зависть.

Recommended by:

@rapture: Йобанный в рот, мне бы такую УДОВЛЕТВОРЕННОСТЬ

and @gelraen
1. DZhon 21.05.2012 12:29

в Qt давно все проблемы с уникодом решены, why not ?

2. ulidtkoDZhon /1 21.05.2012 12:31

ага, и в ICU. И в WinAPI. Везде решены!

только всё вместе это почему-то не работает.

3. kurkuma 21.05.2012 12:37

Кстати, а нахуй UTF-16 нужен? Разве восьмерки не хватает?

4. ulidtkokurkuma /3 21.05.2012 12:44

я тоже считаю, что он нахуй не нужен, когда есть UTF-8, но много кто не согласен.

5. kurkumaulidtko /4 21.05.2012 12:45 _

я рли не знаю зачем он нужен, если даже 8ку не забили еще вроде

6. gelraenkurkuma /5 21.05.2012 12:45 work

пойди перемешай кашу в голове и почитай чем они отличаются

7. kurkumagelraen /6 21.05.2012 13:04 _

ну так объясни суть

8. gelraenkurkuma /7 21.05.2012 13:12 work

UTF-16 — это не просто "в два раза шире чем UTF-8", это другой метод представления юникодных символов. Так что говорить о "не забили ещё" бессмысленно.

9. kurkumagelraen /8 21.05.2012 13:13 _

Ну объясни мне суть, в чем потенциально (или реально) utf-8 говно и от каких бед нас спасет отец русского юникода-16

10. gelraenkurkuma /9 21.05.2012 13:16 work

его просто чуть проще парсить. А вообще, проще всего парсить UTF-32, но он занимает намного больше места.

11. kurkumagelraen /10 21.05.2012 13:17 _

А где существует проблема его парсить? И какая именно проблема? Дохуя ресурсов парсинг жрет штольц?

12. gelraenkurkuma /11 21.05.2012 13:23 work

рекомендую таки сесть и почитать, а не ебать мне мозг. Можно начать даже с педивикии.

13. kurkumagelraen /12 21.05.2012 13:26 _

Почитал. Ничего интересного. Ненужно.

14. gelraenkurkuma /13 21.05.2012 13:29 work

ну как сказать, в UTF-16, например, можно делать поиск подстроки обычным сравнением пар байтиков, в utf-8 для этого надо парсить всю входную строку на отдельные символы и сравнивать уже символы. Какой способ работает быстрее, думаю, сам догадаешься.

15. kurkumagelraen /14 21.05.2012 13:30 _

Даже в embedded, думаю, проблем с поиском в utf-8 нет, так зачем усложнять себе жизнь ради каких-то сферических оптимизаций?

16. gelraenkurkuma /15 21.05.2012 13:30 work

а, ну думай дальше.

17. kurkumagelraen /16 21.05.2012 13:31 _

Диванный оптимизатор ИТТ

18. ulidtkogelraen /14 21.05.2012 14:24

авотхуй, utf-16 surrogate pairs сделают такой алгоритм поиска зафейлить.

Где-то (на SO, кажется) было отличное резюме: UTF-8 идеален для передачи и хранения текста, UTF-32 — для хранения текста в памяти при хардкорных строковых операциях. UTF-16 плохо годится как для одной цели, так и для второй, сохраняя недостатки обоих методов. Не нужен, короче.

19. 238328ulidtko /18 21.05.2012 15:37

utf-8 идеален для хранения латинских символов, которых 99%, так что пускай все остальные идут в жопу

20. ulidtko238328 /19 21.05.2012 15:39

99% чего? всего юникодного алфавита? :LOL:

21. 238328ulidtko /20 21.05.2012 15:48

всего используемой текстовой информации

22. 238328ulidtko /20 21.05.2012 15:49

поэтому в тырпрайзе всё правильно сделали: либо нормальный юникод, либо надо подумать, а нужен ли он вообще

23. ulidtko238328 /21 21.05.2012 15:58

братюнь, ты реально много лет на подсчёты потратил, как я посмотрю

24. ulidtko238328 /22 21.05.2012 16:00

чего, блядь. Не надо никуда думать, кастомер сказал — мне нужен japanese, ему и делают. И хорошо ещё, что пытаются в юникоде, пусть и UTF-16. Проблема в том, что получается хуево.

25. 238328ulidtko /24 21.05.2012 16:01 23905484741337613625923416

всё правильно делают

26. 238328ulidtko /23 21.05.2012 16:01 23905484741337613625923416

int izobrazhenie_schyotchik = 0

28. ojabgelraen /14 21.05.2012 17:05 YGG!

http://lionet.livejournal.com/104884.htm...
мудакам, которые делают в utf-16 поиск подстроки сравнением пар байтиков, нужно руки отрывать

29. ojabulidtko /18 21.05.2012 17:06 YGG!

пиздец

30. gelraenojab /28 21.05.2012 17:07 imax

okay.jpg

31. ojab 21.05.2012 17:07 YGG!

А ещё UTF-8 позволяет обходиться без BOM, в отличие от остальных. Такие дела.

33. kurkumaojab /28 21.05.2012 19:13 _

байты себе сравни, юникод

Do you really want to delete ?