Corpora
De taal- en spraaktechnologie is ondenkbaar zonder corpora, ofwel, grote gestructureerde verzamelingen taal. Een corpus kan geluidsopnames en/of geschreven teksten bevatten uit één of meer talen. Voor een automatische vertaalmachine, bijvoorbeeld, is het noodzakelijk een tweetalig corpus te hebben met vertalingen.
Om een corpus voor onderzoek interessant te maken wordt het bewerkt: de woorden en zinnen worden voorzien van taalkundige informatie. Dit is het annoteren van het corpus. Een vorm van annotatie is part-of-speech tagging (POS-tagging), waarbij de woorden en zinsdelen een labeltje krijgen met hun grammaticale categorie, zoals zelfstandig naamwoord, werkwoord of bijwoordelijke bepaling. Om een indruk te geven van de complexiteit: het Corpus Gesproken Nederlands onderscheidt meer dan 300 grammaticale categorieën.
Corpora worden gebruikt voor veel verschillende doeleinden.
Ontwikkelaars van taal- en spraaktoepassingen gebruiken corpora om systemen te trainen en te testen. Daarnaast kunnen, ook door scholieren, allerlei vergelijkende onderzoeken worden gedaan:
- gebruiken inwoners uit West-Nederland andere woorden dan inwoners uit Oost-Nederland?
- welke grammaticale verschillen zijn er tussen het Nederlands uit Nederland en het Nederlands uit Vlaanderen?
- welke verschillen in taalgebruik zijn er tussen mannen en vrouwen?
- praten jonge mensen anders dan ouderen? Waar zie je dat aan?
- welke relatie is er tussen opleidingsgraad en taalgebruik?
- welke stijlkenmerken heeft een bepaalde auteur?