0xd34df00d 16.12.2012 11:06 Azoth_primary

Вконтактик отдает XHTML, не являющийся валидным XML, так что придется парсить хтмл регулярочками.

Recommended by:

@pooq: моча съела говно

and @magog
1. gelraen 16.12.2012 11:07 work-laptop

отпизди их ногами. Эти мудаки ещё и почту починить не могут у себя

2. 0xd34df00dgelraen /1 16.12.2012 11:09 Azoth_primary

Я б с радостью, но
[15:07:53] 0xd34df00d: Думаю, мне будет трудно объяснить, зачем я паршу страницу, предназначенную для согласия пользователем на доступ к его данным :3

ЛИЧКРАФТЫ ВОРУЮТ ДАННЫЕ, да.

3. kurkuma 16.12.2012 11:11

иногда проще починить xhtml регулярочками, а потом уже парсить валидный xml

4. 0xd34df00dkurkuma /3 16.12.2012 11:13 Aedalus

Я сначала попытался что-то там починить, в частности, вырезая ненужные незакрытые теги, но на unknown reference-ошибках понял, что это безнадега, и положил хуй. Атрибут action у единственной формы легче выдрать и так, наверное.

5. ruda0xd34df00d /2 16.12.2012 11:14 curiosity~

А зачем ты её парсишь?

6. gelraen0xd34df00d /2 16.12.2012 11:17 work-laptop

а зачем объяснять? ткни их носом в валидатор

7. kurkumagelraen /6 16.12.2012 11:19 Gajim

будто бы им не похуй

8. gelraenkurkuma /7 16.12.2012 11:19 work-laptop

ну мало ли, вдруг совесть проснётся. Да, я оптимист дохуя

9. kurkumagelraen /8 16.12.2012 11:19 Gajim

лол

10. 0xd34df00druda /5 16.12.2012 11:22 Azoth_primary

Я хочу согласиться за пользователя с возможностью доступа к аудиозаписям.

11. 0xd34df00dgelraen /6 16.12.2012 11:22 Azoth_primary

Не могу, там подразумеваются кукисы на этой странице, ибо она требует аутентификации.

12. 0xd34df00dkurkuma /7 16.12.2012 11:22 Azoth_primary

У яндекса проснулась в свое время, когда я их ткнул в то, что они неправильно указывают на опенсерч. Я даже от радости в жуйк насрал по этому поводу N лет назад.

13. gelraen0xd34df00d /11 16.12.2012 11:23 work-laptop

схорони и скорми валидатору сохраненную копию

14. 0xd34df00dgelraen /13 16.12.2012 11:24 Azoth_primary

Кстати, вариант.

15. hirthwork 16.12.2012 11:57 mcabber

пример дай. я свой рабочий самописный парсер на нём затесчу

16. 0xd34df00dhirthwork /15 16.12.2012 11:57 Azoth_primary

Не могу, ты access token для моей жены Монады Лямбдовны спалишь.

17. hirthwork0xd34df00d /16 16.12.2012 11:57 mcabber

замени его на d0d0d0d34df00d

18. kurkumahirthwork /17 16.12.2012 11:59 Gajim

меня в роддоме заменили

19. hirthwork0xd34df00d /12 16.12.2012 12:00 mcabber

когда она у яндекса во второй раз проснулась — вёрстка Яндекс.Почты отказалась от xslt специально, чтобы веб-мордой Яндекс.Почты можно было пользоваться из личкрафтов

20. magoghirthwork /19 16.12.2012 12:07 Azoth

сириосли?

21. hirthworkmagog /20 16.12.2012 12:10 mcabber

сириосли. ну может мотивация была чуть другая, например что XSLT всем надоел, а JSON вошёл в моду. не ебу, я их не спрашивал. но тот факт, что от XSLT отказались является официальным: http://habrahabr.ru/company/yandex/blog/...

22. arts 16.12.2012 12:11

Нахуя регулярочками-то? Парси как хтмл.

23. 0xd34df00darts /22 16.12.2012 12:12 Azoth_primary

Нечем без втягивания лишних зависимостей. Ну, вебкитом, разве что, но это перебор.

24. kb 16.12.2012 12:15

Проще их регулярками выровнять до валидного состояния, моэжт?

25. 0xd34df00dkb /24 16.12.2012 12:16 Azoth_primary

Неа, /4.

26. 0xd34df00d0xd34df00d /25 16.12.2012 12:16 Azoth_primary

Тащем, http://bpaste.net/show/aQaEUOxW8xpGIr9qs...

27. kurkuma0xd34df00d /4 16.12.2012 12:16 Gajim

а ну ок, я так же парсил поинт лол

28. hirthwork0xd34df00d /26 16.12.2012 12:16 mcabber

дай уже полный пример, ёпта

29. kurkuma0xd34df00d /26 16.12.2012 12:17 Gajim

блджад, а где регулярки?

30. 0xd34df00dkurkuma /29 16.12.2012 12:19 Azoth_primary

Без них обошелся.

31. kurkuma0xd34df00d /30 16.12.2012 12:19 Gajim

ну ок

32. 0xd34df00dhirthwork /28 16.12.2012 12:20 Azoth_primary

Да пажжи, оформлю тут у себя норм, а потом закину.

33. komar 16.12.2012 16:57 thinkpad

Дедфудик, валидного XHTML сейчас днем с огнем не найти. Все отдают дерьмо. А вот HTML5, напимер, и вовсе не XML ни разу. И ничо, стандарт, еб ее мать.
Для real life скрейпинга пользуются специальными парсерами, которые умеют парсить дерьмовый HTML. Но никак не дефолтные XML-парсеры.

34. kurkumakomar /33 16.12.2012 16:58 Gajim

дваждую

35. komarkurkuma /3 16.12.2012 16:58 thinkpad

Посмотрите на этого долбоеба, не осилившего ruby + nokogiri.

Do you really want to delete ?