Guida completa a llms.txt
Cos’è llms.txt, perché nasce, come usarlo in pratica e quali sono limiti e buone pratiche per ottenere risposte migliori da agenti e LLM sui contenuti del tuo sito.
Origini, scopo e stato dello standard
- llms.txt è una proposta editoriale: un file Markdown in root che offre una “mappa curata” dei contenuti importanti e di come interpretarli.
- Convive con robots.txt e sitemap.xml: non li sostituisce, ma aggiunge un livello curatoriale per ridurre rumore, ambiguità e costi di selezione del contesto.
- Adozione eterogenea: utile per agenti/strumenti controllati (IDE, chatbot, helpdesk), meno come “segnale SEO” universale; non tutti i crawler AI lo scaricano sistematicamente.
Cos’è e come si usa in pratica
- È leggibile da umani e modelli, ma abbastanza strutturato da poter essere parsato in modo deterministico.
- Vive tipicamente in
https://tuodominio.tld/llms.txt. - Favorisce l’uso di versioni Markdown pulite delle pagine importanti (anche tramite suffisso
.md, inclusa la regolaindex.html.mdper path senza filename).
Flusso operativo tipico
- Fetch di
/llms.txt - Parse: titolo, sintesi, note, sezioni con liste di link
- Selezione dei link pertinenti alla domanda dell’utente
- Fetch dei contenuti puntati (idealmente Markdown)
- Assemblaggio del contesto nel prompt o tramite RAG
llms-full.txt vs indice
- llms.txt come indice con link: più leggero e navigabile.
- llms-full.txt come dump completo: immediato ma potenzialmente enorme; spesso da usare con indicizzazione e retrieval (RAG).
Come scrivere un llms.txt efficace
Principi di contenuto
- Linguaggio conciso e chiaro.
- Descrizioni brevi ma informative accanto ai link.
- Riduzione di ambiguità e gergo non spiegato.
- Test empirico: espandi i link e verifica risposte su contenuti e policy reali.
Che cosa includere
- Documentazione tecnica: Quickstart/Getting Started, API Reference, esempi runnable, guide decisionali, compatibilità/versioning.
- Sito aziendale/prodotto: Chi siamo, Prodotti/Servizi, Pricing, FAQ, Supporto/Contatti, Sicurezza/Compliance, Privacy/Termini, policy resi/spedizioni.
- Portfolio/personale: CV/biografia, progetti principali, contatti, talk/pubblicazioni rilevanti.
Quanto deve essere lungo
- Nessun limite rigido, ma privilegia un “indice” curato rispetto a un dump indiscriminato.
- Se serve il contenuto completo, separalo esplicitamente (llms-full.txt o file per sezioni) e valuta RAG per corpora grandi.
Limiti, sicurezza e considerazioni
- Non è un meccanismo di controllo “hard”: i sistemi possono usarlo o ignorarlo.
- Evidenza mista sull’uso da parte dei bot AI: utile, ma non aspettarti benefici automatici di discovery/traffico.
- Governance: evita informazioni non pubbliche; cura stabilità e versioning delle pagine linkate per coerenza nel tempo.
Risorse correlate
- Vedi “Specifiche” per struttura, sintassi e semantica del formato.
- Vedi “Strumenti” per CLI, integrazioni CMS e generator/crawler.