Avatar of Niek Lintermans

Co-Founder & CMO

Waarom AI-teksten zoveel em-dashes gebruiken — en wat dat zegt over taalmodellen

#llms

AI-teksten zijn vaak te herkennen aan hun opvallende interpunctie. Vooral de em-dash — dat lange streepje — duikt overal op. Ontdek waarom taalmodellen er zo dol op zijn en wat dit betekent voor schrijvers en bedrijven.

Waarom AI-teksten zoveel em-dashes gebruiken — en wat dat zegt over taalmodellen

Leestijd: 5 minuten

Waarom AI-teksten zoveel em-dashes gebruiken

Veel mensen herkennen AI-teksten meteen aan één ding: bijzondere interpunctie. Zie je ineens een zin met een opvallend streepje, dan denken lezers al snel: “dit voelt als AI.” Dat is niet zomaar muggenzifterij; het laat zien hoe kleine stilistische eigenschappen ons lezen en vertrouwen beïnvloeden. Maar waarom gebruiken taalmodellen precies zoveel em-dashes?

In deze blog lees je in eenvoudige taal welke verklaringen er zijn, welke minder overtuigend zijn, en waarom de verandering in trainingsmateriaal — het digitaliseren van oudere boeken — de meest waarschijnlijke verklaring lijkt.


Voorbeeld: één zin, twee leestekens — een wereld van verschil

Met em-dash: Zij hield van stilte — en hij hield van muziek.

Met komma: Zij hield van stilte, en hij hield van muziek.

Het verschil is klein, maar het ritme en de toon veranderen direct.

Voor veel lezers voelt de versie met ‘—’ onmiddellijk anders: “AI-achtig” of ‘literairer’.

Dat effect is precies wat mensen opvalt — en waarom interpunctie zo’n sterke rol speelt in hoe we AI-schrijfstijl herkennen.


De drie verklaringen waarom AI zoveel em-dashes gebruikt

1. Structurele verklaring: “AI vindt em-dashes handig”

Sommigen denken dat voorspellende modellen (zoals LLM’s) em-dashes ‘handig’ vinden omdat ze opties openhouden of tokens besparen. Een em-dash kan immers zowel een verbinding als een pauze aangeven.

Dat klinkt logisch, maar overtuigt niet. Andere leestekens zijn net zo flexibel — en oudere modellen (zoals GPT-3.5) gebruikten de em-dash veel minder. Waarom zouden alleen nieuwere modellen die voorkeur ontwikkelen?

👉 Meer weten over hoe taalmodellen woorden voorspellen? Lees onze blog over AI-hallucinatie.


2. RLHF-verklaring: menselijke beoordelaars en stijlvoorkeuren

Tijdens de laatste trainingsfase, RLHF (Reinforcement Learning with Human Feedback), beoordelen menselijke testers modelantwoorden en belonen ze de prettigst leesbare tekst.

Een populaire theorie is dat deze menselijke beoordelaars — vaak werkzaam in Engelstalige landen met lagere inkomens — onbewust hun eigen lokale Engelse stijl overbrengen. Dat zou verklaren waarom AI meer em-dashes gebruikt.

Toch klopt dat niet helemaal. Onderzoek naar Nigeriaanse en Afrikaanse Engelse corpora laat géén hogere frequentie zien van em-dashes. Menselijke voorkeuren kunnen dus een kleine rol spelen, maar het is waarschijnlijk niet de hoofdoorzaak.


3. Trainingsdata-verklaring: oudere boeken vol em-dashes

De meest overtuigende verklaring: AI-modellen leren schrijven van oude boeken.

De datasets die LLM’s trainen, zijn tussen 2022 en 2024 sterk veranderd. Eerder bestonden ze vooral uit internetteksten en moderne bronnen. Maar toen AI-labs hogere kwaliteit wilden, gingen ze boeken digitaliseren — veelal uit de 19e en vroege 20e eeuw.

In die tijd waren em-dashes extreem populair: onderzoek toont pieken rond 1860, waarin ongeveer 0,26% van alle tekens een em-dash was.

Als je modellen traint op zulke teksten, leert het algoritme onbewust dat de em-dash bij ‘kwalitatieve’ of ‘literaire’ stijl hoort. En die gewoonte blijft hangen in nieuwere modellen.

Kort gezegd:

Als je een groot deel van je hoogwaardige trainingsdata haalt uit boeken die vol staan met em-dashes, leert het model: “Een em-dash = een teken van goede stijl.”


Waarom andere theorieën minder sterk zijn

Token-efficiëntie Het idee dat em-dashes efficiënter zijn is niet overtuigend — gewone leestekens doen hetzelfde met minder woorden.

Fouten in trainingsregels Fouten in trainingsregels of platformregels kunnen streepjes verwarren met em-dashes, maar verklaren niet waarom AI ze zo vaak gebruikt.

AI getraind op AI-output AI’s trainen steeds vaker op de output van andere modellen. Dat kan het em-dashgebruik versterken, maar niet verklaren waarom de sprong van weinig naar veel zo plotseling was.


Wat betekent dit voor schrijvers en bedrijven?

AI gebruikt inderdaad vaker em-dashes dan mensen nu doen. Dat is niet erg, maar wel iets om op te letten als je teksten publiceert namens je organisatie.

Drie tips:

  1. Controleer AI-output. Overmatig gebruik van em-dashes kan een “AI-handtekening” afgeven.
  2. Personaliseer je AI-modellen. Voeg in je instellingen toe dat het model “duidelijk en zonder em-dashes” moet schrijven.
  3. Gebruik AI als assistent, niet als auteur. Een menselijke redactieslag houdt je toon herkenbaar en betrouwbaar.

Instellingstip: Instellingen > Personalisatie > Aangepaste instructies

👉 Bekijk deze handleiding voor meer uitleg.


Conclusie: oude boeken, nieuwe gewoonten

De sterkste verklaring is dat de toename van em-dashes een bijeffect is van veranderde trainingsdata: meer (gedigitaliseerde) boeken uit oudere periodes, waarin het gebruik van em-dashes normaal was.

Dat verklaart waarom oudere modellen dit minder deden — en waarom moderne AI-modellen ineens zo ‘stijlbewust’ lijken te schrijven en meer em-dashes gebruiken.

Toch blijft het deels speculatie: er zijn aanwijzingen en voorbeelden (zoals het hoge aantal em-dashes in Moby-Dick), maar harde bevestiging van AI-bedrijven ontbreekt nog altijd.


🔍 Meer leren over AI-taal en schrijfstijl? Lees verder op lumans.ai/blog en ontdek hoe je AI slim kunt inzetten in je dagelijkse communicatie.