Guida completa a llms.txt

Cos’è llms.txt, perché nasce, come usarlo in pratica e quali sono limiti e buone pratiche per ottenere risposte migliori da agenti e LLM sui contenuti del tuo sito.

Origini, scopo e stato dello standard

  • llms.txt è una proposta editoriale: un file Markdown in root che offre una “mappa curata” dei contenuti importanti e di come interpretarli.
  • Convive con robots.txt e sitemap.xml: non li sostituisce, ma aggiunge un livello curatoriale per ridurre rumore, ambiguità e costi di selezione del contesto.
  • Adozione eterogenea: utile per agenti/strumenti controllati (IDE, chatbot, helpdesk), meno come “segnale SEO” universale; non tutti i crawler AI lo scaricano sistematicamente.

Cos’è e come si usa in pratica

  • È leggibile da umani e modelli, ma abbastanza strutturato da poter essere parsato in modo deterministico.
  • Vive tipicamente in https://tuodominio.tld/llms.txt.
  • Favorisce l’uso di versioni Markdown pulite delle pagine importanti (anche tramite suffisso .md, inclusa la regola index.html.md per path senza filename).

Flusso operativo tipico

  1. Fetch di /llms.txt
  2. Parse: titolo, sintesi, note, sezioni con liste di link
  3. Selezione dei link pertinenti alla domanda dell’utente
  4. Fetch dei contenuti puntati (idealmente Markdown)
  5. Assemblaggio del contesto nel prompt o tramite RAG

llms-full.txt vs indice

  • llms.txt come indice con link: più leggero e navigabile.
  • llms-full.txt come dump completo: immediato ma potenzialmente enorme; spesso da usare con indicizzazione e retrieval (RAG).

Come scrivere un llms.txt efficace

Principi di contenuto

  • Linguaggio conciso e chiaro.
  • Descrizioni brevi ma informative accanto ai link.
  • Riduzione di ambiguità e gergo non spiegato.
  • Test empirico: espandi i link e verifica risposte su contenuti e policy reali.

Che cosa includere

  • Documentazione tecnica: Quickstart/Getting Started, API Reference, esempi runnable, guide decisionali, compatibilità/versioning.
  • Sito aziendale/prodotto: Chi siamo, Prodotti/Servizi, Pricing, FAQ, Supporto/Contatti, Sicurezza/Compliance, Privacy/Termini, policy resi/spedizioni.
  • Portfolio/personale: CV/biografia, progetti principali, contatti, talk/pubblicazioni rilevanti.

Quanto deve essere lungo

  • Nessun limite rigido, ma privilegia un “indice” curato rispetto a un dump indiscriminato.
  • Se serve il contenuto completo, separalo esplicitamente (llms-full.txt o file per sezioni) e valuta RAG per corpora grandi.

Limiti, sicurezza e considerazioni

  • Non è un meccanismo di controllo “hard”: i sistemi possono usarlo o ignorarlo.
  • Evidenza mista sull’uso da parte dei bot AI: utile, ma non aspettarti benefici automatici di discovery/traffico.
  • Governance: evita informazioni non pubbliche; cura stabilità e versioning delle pagine linkate per coerenza nel tempo.

Risorse correlate

  • Vedi “Specifiche” per struttura, sintassi e semantica del formato.
  • Vedi “Strumenti” per CLI, integrazioni CMS e generator/crawler.