Wpis z mikrobloga

#sztucznainteligencja #programista15k #programowanie

Trafiłem na piękne złoto. HTML vs Markdown dla LLM

Simon Willison napisal ze markdown go uwiera i woli HTML. W komentarzach kontra, jedna strona HTML to 36k tokenow, to samo w markdown 2.8k. Przy 10k stron robi sie 1000 dolarow.

O co chodzi. Jak budujesz agenta ktory chodzi po stronach, czyta dokumentacje, robi research, to kazda strona wpada do kontekstu modelu. HTML jest gadatliwy, polowa to divy, klasy tailwinda, inline style, skrypty, stopki, ciasteczka. Model placi tokenami za kazdy znak. A potem jeszcze w tym gubi sens, bo szuka tresci miedzy smieciami.i

I tu jest ten przelom. Konwersja do markdown przed wrzuceniem do kontekstu zbija koszt o 80 procent, latencja spada, a odpowiedzi sa celniejsze bo model widzi tresc a nie strukture. U mnie to dziala identycznie w RAG, embeddingi z czystego tekstu lapia sens lepiej niz z HTML.

Ale to dziala tylko w jedna strone. Kiedy model ma cos oddac czlowiekowi, raport, dashboard, prototyp do klikania, markdown jest za plaski. Tam HTML wygrywa bez gadania.

I caly spor stad ze ludzie myla te dwie rzeczy. Format ktorym karmisz modela to nie to samo co format ktory model ci oddaje. Markdown na wejsciu, HTML na wyjsciu, koniec dyskusji
.
https://simonwillison.net/2026/May/8/unreasonable-effectiveness-of-html/
  • 9
  • Odpowiedz
  • Otrzymuj powiadomienia
    o nowych komentarzach

  • 0
@slgdfhsdhjfbs:
asymetrii formatu
Simon Willison broni HTML na wejsciu, bo niesie strukture, model widzi tabele jako tabele a nie splaszczony ciag liczb. W komentarzach kontra o tokenach, 36k vs 2.8k, przy 10k stron 1000 dolarow. Tylko ze obie strony omijaja to co najciekawsze. Klient i tak chce PDFa.
I
tu jest asymetria. Format ktorym karmisz modela i format ktory model oddaje czlowiekowi to dwa rozne problemy z roznymi ekonomiami. Simon ma racje
  • Odpowiedz
  • 2
@JamesJoyce: ja sobie kiedyś skrypt zrobiłem który z moich stron bierze tylko content HTML który mnie interesuje, usuwa wszystkie klasy, spany, img etc i wysyła tylko potrzebny HTML, myślałem że to standard bo kto i po co wysyła do AI np. <head>. Jakbym chciał obce strony robić to bym wykorzystał https://github.com/mozilla/readability i wysyłał tylko to co wypluje
  • Odpowiedz
Simon ma racje na wejsciu, HTML niesie znaczenie, markdown gubi uklad i traktuje to jako feature. Te 80 procent oszczednosci jest realne tylko dla prostego tekstu, dla struktur placisz zgubionym sensem, nie tokenami.


@JamesJoyce: Ale przecież przy konwersji z html też można tabelki w markdown zrobić
  • Odpowiedz
@TomSz: No właśnie. Jakby tylko zostawić semantyczne tagi, co można bez problemu zrobić skryptem, to masz wtedy całkiem kompaktowy format. Ale czy to robi aż taką różnicę? Większość semantycznych tagów w html ma odpowiednik w MD. Dla treści w Internetu dobre rozwiązanie, ale dla treści tworzonych przez ciebie imho bez większego sensu. No chyba, że LLMy są znacząco lepsze w interpretowaniu XML-like niż formatów typu MD. Trochę chyba są, ale
  • Odpowiedz
@Kresse: odpowiadam za strony internetowe 400 klientów więc operuje na tym co jest ;) zaczęło się od tego że contentu było po prostu za dużo na zapytanie, pewnie przez SVG embedowane bezpośrednio w kodzie
  • Odpowiedz