Wpis z mikrobloga

Skopiuj link

11.05.2026, 11:03:29

#sztucznainteligencja #programista15k #programowanie

Trafiłem na piękne złoto. HTML vs Markdown dla LLM

Simon Willison napisal ze markdown go uwiera i woli HTML. W komentarzach kontra, jedna strona HTML to 36k tokenow, to samo w markdown 2.8k. Przy 10k stron robi sie 1000 dolarow.

O co chodzi. Jak budujesz agenta ktory chodzi po stronach, czyta dokumentacje, robi research, to kazda strona wpada do kontekstu modelu. HTML jest gadatliwy, polowa to divy, klasy tailwinda, inline style, skrypty, stopki, ciasteczka. Model placi tokenami za kazdy znak. A potem jeszcze w tym gubi sens, bo szuka tresci miedzy smieciami.i

I tu jest ten przelom. Konwersja do markdown przed wrzuceniem do kontekstu zbija koszt o 80 procent, latencja spada, a odpowiedzi sa celniejsze bo model widzi tresc a nie strukture. U mnie to dziala identycznie w RAG, embeddingi z czystego tekstu lapia sens lepiej niz z HTML.

Ale to dziala tylko w jedna strone. Kiedy model ma cos oddac czlowiekowi, raport, dashboard, prototyp do klikania, markdown jest za plaski. Tam HTML wygrywa bez gadania.

I caly spor stad ze ludzie myla te dwie rzeczy. Format ktorym karmisz modela to nie to samo co format ktory model ci oddaje. Markdown na wejsciu, HTML na wyjsciu, koniec dyskusji
.
https://simonwillison.net/2026/May/8/unreasonable-effectiveness-of-html/

slgdfhsdhjfbs

11.05.2026, 11:07:38 via Wykop

@JamesJoyce: na wyjściu to ja proszę LLMa o raport w pdfie a nie html xd

OlekAleksander

11.05.2026, 11:18:51 via Wykop

@JamesJoyce: Czyli jak puszczam agenta w przegladarke, np. daje Claude'owi Playwright, zeby mogl z chrome skorzystac to moge to jakos przyspieszyc mowiac, zeby najpierw zrobil markdown strony?

JamesJoyce

11.05.2026, 11:37:12 via iOS

@slgdfhsdhjfbs: Ale na wejściu htm

JamesJoyce

11.05.2026, 11:51:19 via iOS

@slgdfhsdhjfbs:
asymetrii formatu
Simon Willison broni HTML na wejsciu, bo niesie strukture, model widzi tabele jako tabele a nie splaszczony ciag liczb. W komentarzach kontra o tokenach, 36k vs 2.8k, przy 10k stron 1000 dolarow. Tylko ze obie strony omijaja to co najciekawsze. Klient i tak chce PDFa.
I
tu jest asymetria. Format ktorym karmisz modela i format ktory model oddaje czlowiekowi to dwa rozne problemy z roznymi ekonomiami. Simon ma racje

JamesJoyce

11.05.2026, 11:52:19 via iOS

@slgdfhsdhjfbs: ma giocie pisze że nad tym pracuje

TomSz

11.05.2026, 12:02:06 via Wykop

@JamesJoyce: ja sobie kiedyś skrypt zrobiłem który z moich stron bierze tylko content HTML który mnie interesuje, usuwa wszystkie klasy, spany, img etc i wysyła tylko potrzebny HTML, myślałem że to standard bo kto i po co wysyła do AI np. <head>. Jakbym chciał obce strony robić to bym wykorzystał https://github.com/mozilla/readability i wysyłał tylko to co wypluje

c.....s

konto usunięte 11.05.2026, 19:48:50 via Wykop

Simon ma racje na wejsciu, HTML niesie znaczenie, markdown gubi uklad i traktuje to jako feature. Te 80 procent oszczednosci jest realne tylko dla prostego tekstu, dla struktur placisz zgubionym sensem, nie tokenami.

@JamesJoyce: Ale przecież przy konwersji z html też można tabelki w markdown zrobić

Kresse

11.05.2026, 21:07:56 via Wykop

@TomSz: No właśnie. Jakby tylko zostawić semantyczne tagi, co można bez problemu zrobić skryptem, to masz wtedy całkiem kompaktowy format. Ale czy to robi aż taką różnicę? Większość semantycznych tagów w html ma odpowiednik w MD. Dla treści w Internetu dobre rozwiązanie, ale dla treści tworzonych przez ciebie imho bez większego sensu. No chyba, że LLMy są znacząco lepsze w interpretowaniu XML-like niż formatów typu MD. Trochę chyba są, ale

TomSz

11.05.2026, 22:24:02 via Wykop

@Kresse: odpowiadam za strony internetowe 400 klientów więc operuje na tym co jest ;) zaczęło się od tego że contentu było po prostu za dużo na zapytanie, pewnie przez SVG embedowane bezpośrednio w kodzie

JamesJoyce

14.05.2026, 12:59:14 via iOS

@cebulowy_krezus: większość tabel w dokumentacji, wiki, cennikach po konwersji do MD masz te same relacje. Płacisz 36k tokenów żeby zachować colspan którego tam nie ma.