Ga naar hoofdinhoud

Ondersteunde talen

rosetta wordt geleverd met Language Cards — gestructureerde referentiebestanden voor meer dan 42 talen. Elke kaart bevat register-presets, metadata van het formaliteitssysteem, ondersteuningsvlaggen voor methoden en scriptinformatie. Elke taal die uw LLM kent, kan met een enkele configuratieregel worden toegevoegd — dit zijn de talen met gecureerde, productieklare registers.


Vertaalmethoden

Elke taal kan een of meer van deze vertaalmethoden gebruiken:

IcoonMethodeHoe het werktKosten
🟢Google TranslateNeurale MT-basislijn. 130+ talen. Alleen key-value strings — kan Markdown-content niet veilig vertalen.~$20/1M tekens
🔵LLM (OpenRouter)Elke taal die het model kent. Register-gestuurde prompts. Verwerkt key-value + Markdown-content.Varieert per model
🟣LLM-CoachedLLM + grammaticewoordenboeken + coaching-data geïnjecteerd in prompts. Het beste voor morfologisch complexe talen.Varieert per model
🟠API (Plugin)Door de community gehoste vertaalpijplijnen die via HTTP worden aangeboden. OCAP-compatibel.Varieert per provider

Stel GOOGLE_TRANSLATE_API_KEY in voor Google Translate, of OPENROUTER_API_KEY voor LLM-methoden. Zie Vertaalmethoden voor volledige details.


Prioriteitstalen

Dit zijn de meest gevraagde locales voor web- en mobiele applicaties, vermeld in de door rosetta aanbevolen 'accessibility-first' volgorde.

VlagTaalCodeGoogleLLMCoachedScriptOpmerkingen
🇸🇦ArabischarRTL. Modern Standaard-Arabisch (فصحى).
🇵🇭Filipijns (Taglish)tlCode-switching: Tagalog primair, technische termen in het Engels.
🇫🇷FransfrVous-vorm. Genderinclusief (Connecté·e).
🇪🇸SpaansesNeutraal Latijns-Amerikaans.
🇩🇪DuitsdeSie-vorm. Genderinclusief (Benutzer:innen).
🇯🇵Japansjaです/ます voor bodytekst, する voor UI-labels.
🇨🇳Chinees (Vereenvoudigd)zh简体中文.
🇮🇹ItaliaansitLei-vorm.
🇧🇷Portugees (BR)ptBraziliaans-Portugees.
🇰🇷Koreaansko해요체 beleefdheidsregister.

Belangrijke wereldtalen

VlagTaalCodeGoogleLLMCoachedScriptOpmerkingen
🇧🇩BengaalsbnVoorkeur voor শুদ্ধ ভাষা.
🇧🇬Bulgaarsbg
🇨🇿TsjechischcsVykání (vy-vorm).
🇩🇰Deensda
🇬🇷GriekselModern Δημοτική.
🇮🇷PerzischfaRTL.
🇫🇮FinsfiGeen grammaticaal geslacht.
🇮🇱HebreeuwsheRTL.
🇮🇳Hindihiशुद्ध हिन्दी. Minimale Engelse leenwoorden.
🇭🇺HongaarshuÖn-vorm.
🇮🇩Indonesischid
🇲🇾Maleisms
🇳🇱NederlandsnlU-vorm.
🇳🇴NoorsnbBokmål.
🇵🇱PoolsplPan/Pani-vorm.
🇵🇹Portugees (EU)pt-PTEuropees-Portugees.
🇷🇴Roemeensro
🇷🇺RussischruВы-vorm.
🇸🇰SlowaaksskVykanie (vy-vorm).
🇷🇸Servischsr🔤 Latijns→CyrillischDeterministische script-converter.
🇸🇪Zweedssv
🇰🇪Swahilisw
🇹🇭Thaisthครับ/ค่ะ beleefdheidspartikels.
🇹🇷TurkstrSiz-vorm.
🇺🇦OekraïensukВи-vorm.
🇵🇰UrduurRTL. آپ-vorm.
🇻🇳Vietnameesvi
🇹🇼Chinees (Traditioneel)zh-TW繁體中文.

Regionale varianten

VlagTaalCodeGoogleLLMCoachedScriptOpmerkingen
🇲🇽Mexicaans-Spaanses-MXTú-vorm. Warm register.
🇨🇦Canadees-Fransfr-CAQuébécois-idiomen.

Inheemse en low-resource talen

Deze talen worden niet ondersteund door commerciële MT-diensten. rosetta biedt de tooling voor taalgemeenschappen om hun eigen methoden te bouwen volgens de OCAP-principes.

TaalCodeGoogleLLMCoachedScriptStatus
🪶Plains Creecrk🔤 SRO→Syllabics🚧 In ontwikkeling

:::info Plains Cree is actief in ontwikkeling Het register, de coaching-infrastructuur, de script-converter en het evaluatieharnas voor Plains Cree zijn allemaal functioneel, maar de vertaalpijplijn is nog niet vrijgegeven. Wij werken samen met taalgemeenschappen volgens de OCAP-principes om de kwaliteit te waarborgen vóór de release. Zie Een low-resource taal ondersteunen voor het volledige verhaal — en hoe u kunt bijdragen. :::

:::tip Meer low-resource talen toevoegen Het methode-pluginsysteem van rosetta is hiervoor ontworpen. Een taalgemeenschap kan een aangepaste vertaalmethode bouwen, deze onder eigen beheer hosten en aanbieden via de API-methode. Het Method Leaderboard houdt scores bij voor elk talenpaar — bouw een methode, voer het harnas uit en claim de topscore. :::


Geconstrueerde talen

Conlangs worden ondersteund via LLM-registers en optionele script-converters. Ze gebruiken dezelfde infrastructuur als echte talen — de kwaliteitscontrole (quality gate), het coaching-systeem en de scriptconversiepijplijn werken identiek.

TaalCodeGoogleLLMScriptOpmerkingen
🖖Klingontlh🔤 Romanisatie→pIqaDPUA-lettertype vereist. Marc Okrand-vocabulaire.
🧝Sindarin (Tolkien-Elfs)x-elvish-s🔤 Latijns→TengwarCSUR PUA-lettertype vereist.
🏴‍☠️Piraten-Engelsx-pirateAlleen register. Nautische metaforen.
🦸Kryptoniaansx-kryptonian🔤 Latijns→KryptoniaansPUA-lettertype vereist.
🎭Shakespeareaans Engelsx-shakespeareAlleen register. Thee/thou, -eth/-est-vormen.
🐸Yoda-taalx-yodaAlleen register. OSV-woordvolgorde.

Zie Conlangs, Scripts & Orthografie voor vereisten voor PUA-lettertypen, Unicode-beperkingen en hoe u uw eigen taal kunt toevoegen.


Taal-presets

De init wizard ondersteunt preset-namen voor een snelle configuratie. U kunt presets combineren met individuele codes.

PresetWordt uitgevouwen tot
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
i18n-rosetta init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Elke taal toevoegen

rosetta kan vertalen naar elke taal die uw LLM kent — de bovenstaande tabel toont alleen talen met ingebouwde register-presets. Om een niet-vermelde taal toe te voegen, neemt u de BCP-47-code op in uw configuratie:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

De LLM zal vertalen op basis van zijn getrainde kennis van de taal. Het instellen van een register geeft u controle over toon, formaliteit en orthografische conventies. Zie Configuratie voor details.


Language Cards

Elke ingebouwde taal heeft een Language Card — een JSON-bestand in lib/data/language-cards/ met daarin:

VeldWat het bevat
FormaliteitssysteemT-V-onderscheid, spraakniveaus, keigo, partikels, enz.
Register-presetsBenoemde presets specifiek voor het karakter van de taal
Methode-ondersteuningWelke vertaal-API's deze taal ondersteunen
Gender-richtlijnenRegels voor grammaticaal geslacht en tips voor inclusief schrijven
Script/richtingISO 15924-scriptcode en RTL/LTR
Evaluatie-datasetsWelke benchmarks deze taal dekken

Preset-sleutels gebruiken

In plaats van volledige registertekst te schrijven, kunt u de naam van een preset-sleutel gebruiken:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Rosetta herleidt de sleutel naar de volledige register-prompt. Voer npx i18n-rosetta init uit om de beschikbare presets voor elke taal te bekijken.

Voorbeeld-presets

TaalPresetsStandaard
Fransformal-vous, casual-tuformal-vous
Koreaanspolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Japanspolite, formal-keigo, casualpolite
Duitsformal-Sie, casual-duformal-Sie
Thaisneutral-professional, polite-male, polite-femaleneutral-professional
Spaansneutral-professional, formal-usted, casual-tuteoneutral-professional

Zie Bijdragen aan een Language Card voor informatie over het toevoegen of verbeteren van presets.


Zie ook