Filter by input type
Filter by category
Google presenta MedASR, un modelo de reconocimiento de voz especializado en el ámbito médico

La herramienta permite transcribir dictados clínicos y conversaciones médico-paciente con terminología especializada y puede integrarse con modelos de AI generativa.

Google Health dio a conocer MedASR, un modelo de reconocimiento automático de voz diseñado específicamente para el sector salud, cuyo objetivo es facilitar la transcripción precisa de dictados médicos y conversaciones clínicas. La herramienta está orientada a desarrolladores que buscan crear aplicaciones de voz enfocadas en entornos sanitarios.

MedASR se basa en la arquitectura Conformer y fue entrenado con aproximadamente 5,000 horas de audio médico previamente desidentificado, que incluyen dictados de profesionales de la salud y diálogos clínicos reales. El conjunto de datos abarca distintas especialidades, como radiología, medicina interna y medicina familiar, lo que permite al modelo manejar vocabulario técnico y contextos clínicos complejos.

El modelo cuenta con 105 millones de parámetros, acepta audio monoaural a 16 kHz y genera transcripciones en texto. De acuerdo con Google Health, MedASR está optimizado para tareas de dictado médico y transcripción clínica, en contraste con los modelos de reconocimiento de voz de uso general.

Entre los usos previstos se encuentra la transcripción de reportes radiológicos, que suelen incluir términos anatómicos y patológicos especializados, así como la documentación clínica, mediante la conversión de conversaciones entre médicos y pacientes en texto que puede utilizarse para elaborar notas médicas.

Además, MedASR está pensado como un modelo base que puede ajustarse a contextos específicos mediante procesos de entrenamiento adicional. Esto permitiría adaptarlo, por ejemplo, a distintos acentos del inglés, a entornos con ruido, a hardware de grabación de menor calidad o a la incorporación de vocabulario médico adicional no incluido en el entrenamiento original.

Google también destaca que MedASR puede integrarse con modelos de inteligencia artificial generativa, como MedGemma, para desarrollar aplicaciones más avanzadas. En este tipo de flujos de trabajo, la herramienta convierte el audio clínico en texto, que posteriormente puede utilizarse para generar resúmenes, responder preguntas o elaborar notas clínicas estructuradas, como el formato SOAP (Subjetivo, Objetivo, Evaluación y Plan).

Related Content

Secured By miniOrange