Saltar al contenido principal

Idiomas compatibles

rosetta incluye Language Cards — archivos de referencia estructurados para más de 42 idiomas. Cada tarjeta contiene ajustes preestablecidos de registro, metadatos del sistema de formalidad, indicadores de compatibilidad de métodos e información de escritura. Cualquier idioma que su LLM conozca puede agregarse con una sola línea de configuración — estos son los que cuentan con registros seleccionados y listos para producción.


Métodos de traducción

Cada idioma puede usar uno o más de estos métodos de traducción:

IconoMétodoCómo funcionaCosto
🟢Google TranslateBase de traducción automática neuronal (Neural MT). Más de 130 idiomas. Solo cadenas de clave-valor — no puede traducir de forma segura contenido en Markdown.~$20/1M de caracteres
🔵LLM (OpenRouter)Cualquier idioma que el modelo conozca. Prompts guiados por registro. Maneja contenido de clave-valor + Markdown.Varía según el modelo
🟣LLM-CoachedLLM + diccionarios de gramática + datos de entrenamiento (coaching) inyectados en los prompts. Ideal para idiomas morfológicamente complejos.Varía según el modelo
🟠API (Plugin)Pipelines de traducción alojados por la comunidad y servidos a través de HTTP. Compatible con OCAP.Varía según el proveedor

Configure GOOGLE_TRANSLATE_API_KEY para Google Translate, o OPENROUTER_API_KEY para los métodos LLM. Consulte Métodos de traducción para obtener todos los detalles.


Idiomas prioritarios

Estas son las configuraciones regionales (locales) más solicitadas para aplicaciones web y móviles, enumeradas en el orden recomendado por rosetta que prioriza la accesibilidad.

BanderaIdiomaCódigoGoogleLLMCoachedEscrituraNotas
🇸🇦ÁrabearRTL. Árabe estándar moderno (فصحى).
🇵🇭Filipino (Taglish)tlCambio de código (Code-switching): Tagalo principal, términos técnicos en inglés.
🇫🇷FrancésfrForma "vous". Inclusivo en cuanto al género (Connecté·e).
🇪🇸EspañolesLatinoamericano neutral.
🇩🇪AlemándeForma "Sie". Inclusivo en cuanto al género (Benutzer:innen).
🇯🇵Japonésjaです/ます para el cuerpo del texto, する para etiquetas de la interfaz de usuario (UI).
🇨🇳Chino (Simplificado)zh简体中文.
🇮🇹ItalianoitForma "Lei".
🇧🇷Portugués (BR)ptPortugués brasileño.
🇰🇷CoreanokoRegistro cortés 해요체.

Principales idiomas del mundo

BanderaIdiomaCódigoGoogleLLMCoachedEscrituraNotas
🇧🇩BengalíbnPreferencia por শুদ্ধ ভাষা.
🇧🇬Búlgarobg
🇨🇿ChecocsVykání (forma "vy").
🇩🇰Danésda
🇬🇷GriegoelΔημοτική moderno.
🇮🇷PersafaRTL.
🇫🇮FinlandésfiSin género gramatical.
🇮🇱HebreoheRTL.
🇮🇳Hindihiशुद्ध हिन्दी. Mínimos préstamos del inglés.
🇭🇺HúngarohuForma "Ön".
🇮🇩Indonesioid
🇲🇾Malayoms
🇳🇱NeerlandésnlForma "U".
🇳🇴NoruegonbBokmål.
🇵🇱PolacoplForma "Pan/Pani".
🇵🇹Portugués (EU)pt-PTPortugués europeo.
🇷🇴Rumanoro
🇷🇺RusoruForma "Вы".
🇸🇰EslovacoskVykanie (forma "vy").
🇷🇸Serbiosr🔤 Latino→CirílicoConvertidor de escritura determinista.
🇸🇪Suecosv
🇰🇪Suajilisw
🇹🇭TailandésthPartículas de cortesía ครับ/ค่ะ.
🇹🇷TurcotrForma "Siz".
🇺🇦UcranianoukForma "Ви".
🇵🇰UrduurRTL. Forma آپ.
🇻🇳Vietnamitavi
🇹🇼Chino (Tradicional)zh-TW繁體中文.

Variantes regionales

BanderaIdiomaCódigoGoogleLLMCoachedEscrituraNotas
🇲🇽Español de Méxicoes-MXForma "tú". Registro cálido.
🇨🇦Francés canadiensefr-CAModismos quebequenses.

Idiomas indígenas y de bajos recursos

Estos idiomas no son compatibles con los servicios comerciales de traducción automática (MT). rosetta proporciona las herramientas para que las comunidades lingüísticas construyan sus propios métodos bajo los principios OCAP.

IdiomaCódigoGoogleLLMCoachedEscrituraEstado
🪶Cree de las llanurascrk🔤 SRO→Silábico🚧 En desarrollo

:::info El cree de las llanuras está en desarrollo activo El registro, la infraestructura de entrenamiento (coaching), el convertidor de escritura y el entorno de evaluación para el cree de las llanuras son completamente funcionales, pero el pipeline de traducción aún no se ha lanzado. Estamos trabajando con comunidades lingüísticas bajo los principios OCAP para garantizar la calidad antes del lanzamiento. Consulte Apoyar un idioma de bajos recursos para conocer la historia completa — y cómo puede contribuir. :::

:::tip Agregar más idiomas de bajos recursos El sistema de plugins de métodos de rosetta está diseñado para esto. Una comunidad lingüística puede construir un método de traducción personalizado, alojarlo bajo su propio control y servirlo a través del método API. La Tabla de clasificación de métodos rastrea las puntuaciones para cualquier par de idiomas — construya un método, ejecute el entorno de evaluación y reclame la puntuación más alta. :::


Idiomas construidos

Los idiomas construidos (conlangs) son compatibles a través de registros LLM y convertidores de escritura opcionales. Utilizan la misma infraestructura que los idiomas reales — el control de calidad, el sistema de entrenamiento (coaching) y el pipeline de conversión de escritura funcionan de manera idéntica.

IdiomaCódigoGoogleLLMEscrituraNotas
🖖Klingontlh🔤 Romanización→pIqaDSe requiere fuente PUA. Vocabulario de Marc Okrand.
🧝Sindarin (Élfico de Tolkien)x-elvish-s🔤 Latino→TengwarSe requiere fuente CSUR PUA.
🏴‍☠️Inglés piratax-pirateSolo registro. Metáforas náuticas.
🦸Kriptonianox-kryptonian🔤 Latino→KriptonianoSe requiere fuente PUA.
🎭Inglés shakesperianox-shakespeareSolo registro. Formas thee/thou, -eth/-est.
🐸Habla de Yodax-yodaSolo registro. Orden de palabras OSV.

Consulte Idiomas construidos, escrituras y ortografía para conocer los requisitos de fuentes PUA, las limitaciones de Unicode y cómo agregar el suyo propio.


Ajustes preestablecidos de idioma

El asistente init admite nombres de ajustes preestablecidos para una configuración rápida. Puede combinar ajustes preestablecidos con códigos individuales.

Ajuste preestablecidoSe expande a
europeanfr, de, es, it, pt, nl
asianja, zh, ko
globalfr, es, de, ja, zh, ko, pt, ar
nordicda, fi, nb, sv
# Mix presets with individual codes
i18n-rosetta init
# → Target languages: european, ja
# → Resolves to: fr, de, es, it, pt, nl, ja

Agregar cualquier idioma

rosetta puede traducir a cualquier idioma que su LLM conozca — la tabla anterior solo enumera los idiomas con ajustes preestablecidos de registro incorporados. Para agregar un idioma que no esté en la lista, incluya su código BCP-47 en su configuración:

{
"languages": {
"sw": {},
"am": {
"register": "Formal Amharic. Professional register with Geʽez script."
}
}
}

El LLM traducirá utilizando su conocimiento de entrenamiento del idioma. Configurar un register le otorga control sobre el tono, la formalidad y las convenciones ortográficas. Consulte Configuración para obtener más detalles.


Language Cards

Cada idioma incorporado tiene una Language Card — un archivo JSON en lib/data/language-cards/ que contiene:

CampoQué contiene
Sistema de formalidadDistinción T-V, niveles de habla, keigo, partículas, etc.
Ajustes preestablecidos de registroAjustes preestablecidos con nombre específicos para el carácter del idioma
Compatibilidad de métodosQué APIs de traducción son compatibles con este idioma
Guía de géneroReglas de género gramatical y consejos de escritura inclusiva
Escritura/direcciónCódigo de escritura ISO 15924 y RTL/LTR
Conjuntos de datos de evaluaciónQué benchmarks (puntos de referencia) cubren este idioma

Uso de claves preestablecidas

En lugar de escribir el texto de registro completo, puede usar un nombre de clave preestablecida:

{
"languages": {
"fr": "casual-tu",
"ko": "formal-hapsyo",
"ja": "polite"
}
}

rosetta resuelve la clave al prompt de registro completo. Ejecute npx i18n-rosetta init para ver los ajustes preestablecidos disponibles para cada idioma.

Ejemplos de ajustes preestablecidos

IdiomaAjustes preestablecidosPredeterminado
Francésformal-vous, casual-tuformal-vous
Coreanopolite-haeyo, formal-hapsyo, casual-haepolite-haeyo
Japonéspolite, formal-keigo, casualpolite
Alemánformal-Sie, casual-duformal-Sie
Tailandésneutral-professional, polite-male, polite-femaleneutral-professional
Españolneutral-professional, formal-usted, casual-tuteoneutral-professional

Consulte Contribuir con una Language Card para saber cómo agregar o mejorar los ajustes preestablecidos.


Consulte también