Wat is een corpus?

In de taalkunde is een corpus een database aan teksten waarin je kunt zoeken. Zo heb je een Wikipediacorpus waar alle teksten van Wikipedia in staan. Huh, maar dat is dan toch gewoon Wikipedia? Zul je nu misschien zeggen. Het verschil is dat een taalkundig corpus op een andere – en voor taalkundigen betere – manier doorzoekbaar is.

Taalkundigen gebruiken een corpus om onderzoek te doen. Zo kijk ik regelmatig welke uitdrukkingen vaker gebruikt worden dan anderen, en vergelijk ik regionaal Engels om te weten of een bepaald woord bijvoorbeeld vooral in Amerika gebruikt wordt en haast niet in het Verenigd Koninkrijk. Bijvoorbeeld bij het Engelse woord voor toilettas.

Nederlanders die hun Engels willen verbeteren kunnen corpora (dat is de meervoudvorm van corpus) gebruiken om te kijken of een woordgroep natuurlijk klinkt of niet. Dat heb ik ook in dit artikel besproken.

Gepensioneerd professor Mark Davies heeft een fantastische collectie corpora online gezet, je vind ze hier. Helaas is de interface niet bepaald intuïtief. Als je een beetje rondklikt dan vind je wel veel instructies, maar je hebt wel even nodig om te snappen hoe het werkt. Meer iets voor onderzoekers.

Wil je een corpus dat wel makkelijk te doorzoeken is, dan kan ik het nieuwe Ludwig.guru aanraden. Die website is niet voor taalkundigen gemaakt, maar voor “normale mensen” (geef toe, taalkundigen zijn een beetje raar ­čśë ) die graag hun Engels willen verbeteren.

Heddwen Newton heeft intussen al 555 woorden en uitdrukkingen behandeld op hoezegjeinhetEngels.nl. Voor 2 Euro kun je haar daarvoor bedanken. Heddwen is docent en vertaler Engels.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.