Taal

Hier gaat het over mijn activiteiten rond (Stichting) OpenTaal, maar ook over niet direct daaraan gerelateerde aspecten van taal en talen.

Er komen in het Nederlands voortdurend nieuwe woorden bij. Om de spellingwoordenlijst van OpenTaal actueel te houden moet je die woorden kunnen signaleren. Een stukje software waar ik aan werk kan nieuwe woorden verzamelen via RSS-feeds van online media.

De software is geschreven in Python en maakt onder andere gebruik van Hunspell, MySQL, XPath.

Wat het doet is:

  1. De RSS-feed lezen.
  2. De tekst uit nieuwe artikelen opsplitsen in afzonderlijke woorden.
  3. Als zo'n woord niet in de spellingwoordenlijst (OpenTaal 2.10) staat, het toevoegen aan een databasetabel.

Een PHP-script genereert uit de databasetabel het overzicht hieronder.

In de databasetabel kan worden aangegeven of het woord correct is of fout. Verder staat erin aangegeven of het woord herkend wordt door de spellingcontrole (doordat het herkend wordt als samenstelling).

Vanaf 14 maart 2017 wordt bijgehouden of een woord vaker is tegengekomen. Dit geeft een indicatie of het zelden of veel voorkomt. Mogelijk wordt de telling naderhand per periode bijgehouden, bijvoorbeeld per half jaar. Daardoor kun je beter onderscheid maken tussen woorden die tijdelijk veel in het nieuws zijn en die je daarna eigenlijk niet meer hoort, of om woorden die zich langdurig in het Nederlands hebben genesteld.

Ook kan bij een woord commentaar worden getoond, bijvoorbeeld om te verduidelijken waarom het als fout is aangemerkt, of wat er "speciaal" aan is.

De functionaliteit kan nog worden uitgebreid. Ik heb onder andere de volgende plannen:

  • Stukjes context van het woord opslaan. Dit kan helpen beoordelen of het zinnig/correct Nederlands is. Alternatief: de URL van het artikel opslaan.
  • RSS-feeds van meerdere bronnen gebruiken (nu alleen binnen- en buitenlands nieuws van De Telegraaf).

Als een woord in het onderstaande overzicht voorkomt, kan het zijn dat het al is opgenomen in de nieuwe versie van de spellingwoordenlijsten die momenteel wordt voorbereid. Als achter een woord (*) staat, dan wordt het wel door de spellingcontrole herkend (als samenstelling) al komt het niet als geheel woord in de woordenlijst voor.

Hieronder de (sinds 14 maart 2017) vaakst getelde woorden.