0xd34df00d
16.12.2012 11:06 Azoth_primary
Вконтактик отдает XHTML, не являющийся валидным XML, так что придется парсить хтмл регулярочками.
Вконтактик отдает XHTML, не являющийся валидным XML, так что придется парсить хтмл регулярочками.
отпизди их ногами. Эти мудаки ещё и почту починить не могут у себя
Я б с радостью, но
[15:07:53] 0xd34df00d: Думаю, мне будет трудно объяснить, зачем я паршу страницу, предназначенную для согласия пользователем на доступ к его данным :3
ЛИЧКРАФТЫ ВОРУЮТ ДАННЫЕ, да.
иногда проще починить xhtml регулярочками, а потом уже парсить валидный xml
Я сначала попытался что-то там починить, в частности, вырезая ненужные незакрытые теги, но на unknown reference-ошибках понял, что это безнадега, и положил хуй. Атрибут action у единственной формы легче выдрать и так, наверное.
А зачем ты её парсишь?
а зачем объяснять? ткни их носом в валидатор
будто бы им не похуй
ну мало ли, вдруг совесть проснётся. Да, я оптимист дохуя
лол
Я хочу согласиться за пользователя с возможностью доступа к аудиозаписям.
Не могу, там подразумеваются кукисы на этой странице, ибо она требует аутентификации.
У яндекса проснулась в свое время, когда я их ткнул в то, что они неправильно указывают на опенсерч. Я даже от радости в жуйк насрал по этому поводу N лет назад.
схорони и скорми валидатору сохраненную копию
Кстати, вариант.
пример дай. я свой рабочий самописный парсер на нём затесчу
Не могу, ты access token для моей жены Монады Лямбдовны спалишь.
замени его на d0d0d0d34df00d
меня в роддоме заменили
когда она у яндекса во второй раз проснулась — вёрстка Яндекс.Почты отказалась от xslt специально, чтобы веб-мордой Яндекс.Почты можно было пользоваться из личкрафтов
сириосли?
сириосли. ну может мотивация была чуть другая, например что XSLT всем надоел, а JSON вошёл в моду. не ебу, я их не спрашивал. но тот факт, что от XSLT отказались является официальным: http://habrahabr.ru/company/yandex/blog/...
Нахуя регулярочками-то? Парси как хтмл.
Нечем без втягивания лишних зависимостей. Ну, вебкитом, разве что, но это перебор.
Проще их регулярками выровнять до валидного состояния, моэжт?
Неа, /4.
Тащем, http://bpaste.net/show/aQaEUOxW8xpGIr9qs...
а ну ок, я так же парсил поинт лол
дай уже полный пример, ёпта
блджад, а где регулярки?
Без них обошелся.
ну ок
Да пажжи, оформлю тут у себя норм, а потом закину.
Дедфудик, валидного XHTML сейчас днем с огнем не найти. Все отдают дерьмо. А вот HTML5, напимер, и вовсе не XML ни разу. И ничо, стандарт, еб ее мать.
Для real life скрейпинга пользуются специальными парсерами, которые умеют парсить дерьмовый HTML. Но никак не дефолтные XML-парсеры.
дваждую
Посмотрите на этого долбоеба, не осилившего ruby + nokogiri.
https://github.com/olamedia/kanon/blob/m...
http://code.google.com/p/phpquery/