Passer au contenu principal

Langues prises en charge

rosetta est fourni avec des Language Cards — des fichiers de référence structurés pour plus de 42 langues. Chaque carte contient des préréglages de registre, des métadonnées sur le système de formalité, des indicateurs de prise en charge des méthodes et des informations sur les scripts. Toute langue connue par votre LLM peut être ajoutée avec une seule ligne de configuration — celles-ci sont celles dotées de registres soigneusement sélectionnés et prêts pour la production.


Méthodes de traduction

Chaque langue peut utiliser une ou plusieurs de ces méthodes de traduction :

IcôneMéthodeFonctionnementCoût
🟢Google TranslateRéférence en traduction automatique neuronale (Neural MT). Plus de 130 langues. Chaînes de type clé-valeur uniquement — ne peut pas traduire le contenu Markdown de manière fiable.~20 $/1M de caractères
🔵LLM (OpenRouter)Toute langue connue par le modèle. Prompts orientés par le registre. Gère les clés-valeurs et le contenu Markdown.Varie selon le modèle
🟣LLM-CoachedLLM + dictionnaires de grammaire + données d'entraînement (coaching) injectées dans les prompts. Idéal pour les langues morphologiquement complexes.Varie selon le modèle
🟠API (Plugin)Pipelines de traduction hébergés par la communauté et servis via HTTP. Compatible OCAP.Varie selon le fournisseur

Définissez GOOGLE_TRANSLATE_API_KEY pour Google Translate, ou OPENROUTER_API_KEY pour les méthodes LLM. Consultez Méthodes de traduction pour plus de détails.


Langues prioritaires

Il s'agit des paramètres régionaux (locales) les plus fréquemment demandés pour les applications web et mobiles, répertoriés dans l'ordre recommandé par rosetta, qui privilégie l'accessibilité.

DrapeauLangueCodeGoogleLLMCoachedScriptNotes
🇸🇦ArabearRTL. Arabe standard moderne (فصحى).
🇵🇭Philippin (Taglish)tlAlternance codique : Tagalog principal, termes techniques en anglais.
🇫🇷FrançaisfrVouvoiement. Écriture inclusive (Connecté·e).
🇪🇸EspagnolesAmérique latine neutre.
🇩🇪AllemanddeForme de politesse (Sie). Écriture inclusive (Benutzer:innen).
🇯🇵Japonaisjaです/ます pour le corps du texte, する pour les étiquettes de l'interface utilisateur.
🇨🇳Chinois (Simplifié)zh简体中文.
🇮🇹ItalienitForme de politesse (Lei).
🇧🇷Portugais (BR)ptPortugais brésilien.
🇰🇷CoréenkoRegistre poli 해요체.

Principales langues mondiales

DrapeauLangueCodeGoogleLLMCoachedScriptNotes
🇧🇩BengalibnPréférence pour শুদ্ধ ভাষা.
🇧🇬Bulgarebg
🇨🇿TchèquecsVouvoiement (Vykání).
🇩🇰Danoisda
🇬🇷GrecelΔημοτική moderne.
🇮🇷PersanfaRTL.
🇫🇮FinnoisfiPas de genre grammatical.
🇮🇱HébreuheRTL.
🇮🇳Hindihiशुद्ध हिन्दी. Emprunts minimaux à l'anglais.
🇭🇺HongroishuForme de politesse (Ön).
🇮🇩Indonésienid
🇲🇾Malaisms
🇳🇱NéerlandaisnlForme de politesse (U).
🇳🇴NorvégiennbBokmål.
🇵🇱PolonaisplForme de politesse (Pan/Pani).
🇵🇹Portugais (EU)pt-PTPortugais européen.
🇷🇴Roumainro
🇷🇺RusseruVouvoiement (Вы).
🇸🇰SlovaqueskVouvoiement (Vykanie).
🇷🇸Serbesr🔤 Latin→CyrilliqueConvertisseur de script déterministe.
🇸🇪Suédoissv
🇰🇪Swahilisw
🇹🇭ThaïthParticules de politesse ครับ/ค่ะ.
🇹🇷TurctrVouvoiement (Siz).
🇺🇦UkrainienukVouvoiement (Ви).
🇵🇰OurdouurRTL. Forme de politesse آپ.
🇻🇳Vietnamienvi
🇹🇼Chinois (Traditionnel)zh-TW繁體中文.

Variantes régionales

DrapeauLangueCodeGoogleLLMCoachedScriptNotes
🇲🇽Espagnol mexicaines-MXTutoiement (Tú). Registre chaleureux.
🇨🇦Français canadienfr-CAIdiomes québécois.

Langues autochtones et à faibles ressources

Ces langues ne sont pas prises en charge par les services commerciaux de traduction automatique (MT). rosetta fournit les outils nécessaires aux communautés linguistiques pour concevoir leurs propres méthodes selon les principes OCAP.

LangueCodeGoogleLLMCoachedScriptStatut
🪶Cri des plainescrk🔤 SRO→Syllabique🚧 En cours de développement

:::info Le cri des plaines est en cours de développement actif Le registre, l'infrastructure d'entraînement (coaching), le convertisseur de script et le dispositif d'évaluation pour le cri des plaines sont tous fonctionnels, mais le pipeline de traduction n'a pas encore été publié. Nous collaborons avec les communautés linguistiques selon les principes OCAP afin de garantir la qualité avant la publication. Consultez Soutenir une langue à faibles ressources pour connaître l'histoire complète — et savoir comment vous pouvez y contribuer. :::

:::tip Ajouter d'autres langues à faibles ressources Le système de plugins de méthodes de rosetta est conçu à cet effet. Une communauté linguistique peut créer une méthode de traduction personnalisée, l'héberger sous son propre contrôle et la servir via la méthode API. Le Classement des méthodes (Method Leaderboard) suit les scores pour n'importe quelle paire de langues — concevez une méthode, exécutez le dispositif d'évaluation et visez le meilleur score. :::


Langues construites

Les langues construites (conlangs) sont prises en charge via les registres LLM et des convertisseurs de script optionnels. Elles utilisent la même infrastructure que les langues réelles — le contrôle qualité, le système d'entraînement (coaching) et le pipeline de conversion de script fonctionnent de manière identique.

LangueCodeGoogleLLMScriptNotes
🖖Klingontlh🔤 Romanisation→pIqaDPolice PUA requise. Vocabulaire de Marc Okrand.
🧝Sindarin (Elfique de Tolkien)x-elvish-s🔤 Latin→TengwarPolice CSUR PUA requise.
🏴‍☠️Anglais piratex-pirateRegistre uniquement. Métaphores nautiques.
🦸Kryptonienx-kryptonian🔤 Latin→KryptonienPolice PUA requise.
🎭Anglais shakespearienx-shakespeareRegistre uniquement. Formes Thee/thou, -eth/-est.
🐸Parler Yodax-yodaRegistre uniquement. Ordre des mots OSV (Objet-Sujet-Verbe).

Consultez Langues construites, scripts et orthographe pour connaître les exigences relatives aux polices PUA, les limites d'Unicode et la procédure pour ajouter les vôtres.


Préréglages de langue

L'assistant init prend en charge des noms de préréglages pour une configuration rapide. Vous pouvez combiner des préréglages avec des codes individuels.

PréréglageSe développe en
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
i18n-rosetta init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Ajouter n'importe quelle langue

rosetta peut traduire vers n'importe quelle langue connue par votre LLM — le tableau ci-dessus répertorie uniquement les langues dotées de préréglages de registre intégrés. Pour ajouter une langue non répertoriée, incluez son code BCP-47 dans votre configuration :

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

Le LLM traduira en utilisant ses connaissances d'entraînement de la langue. La définition d'un register vous donne le contrôle sur le ton, la formalité et les conventions orthographiques. Consultez Configuration pour plus de détails.


Language Cards

Chaque langue intégrée possède une Language Card — un fichier JSON dans lib/data/language-cards/ contenant :

ChampContenu
Système de formalitéDistinction T-V (tutoiement/vouvoiement), niveaux de discours, keigo, particules, etc.
Préréglages de registrePréréglages nommés spécifiques au caractère de la langue
Prise en charge des méthodesLes API de traduction qui prennent en charge cette langue
Directives de genreRègles de genre grammatical et conseils d'écriture inclusive
Script/directionCode de script ISO 15924 et RTL/LTR
Jeux de données d'évaluationLes benchmarks qui couvrent cette langue

Utilisation des clés de préréglage

Au lieu de rédiger le texte complet du registre, vous pouvez utiliser un nom de clé de préréglage :

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

Rosetta résout la clé vers le prompt de registre complet. Exécutez npx i18n-rosetta init pour voir les préréglages disponibles pour chaque langue.

Exemples de préréglages

LanguePréréglagesPar défaut
Françaisformal-vous, casual-tuformal-vous
Coréenpolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Japonaispolite, formal-keigo, casualpolite
Allemandformal-Sie, casual-duformal-Sie
Thaïneutral-professional, polite-male, polite-femaleneutral-professional
Espagnolneutral-professional, formal-usted, casual-tuteoneutral-professional

Consultez Contribuer à une Language Card pour savoir comment ajouter ou améliorer des préréglages.


Voir aussi