Эта публикация является переводом оригинальной статьи «Automated quality assessment of GenAI-based translation» (оригинал доступен по ссылке: https://phrase.com/blog/posts/genai-translation-quality-assessment/). Адаптация материала выполнена при консультационной поддержке экспертов бюро переводов English Geeks.
В первой части статьи мы изучили, почему традиционные метрики (BLEU, COMET) становятся неэффективными в эпоху генеративного ИИ и переводов на уровне документа. Теперь, понимая масштаб проблемы, давайте разберёмся с решениями. Как гарантировать качество, когда ИИ создаёт сложные, контекстно-зависимые тексты?
Предыдущую часть статьи вы можете найти по заголовку: «Вызовы новой эры: как Generative AI меняет оценку качества перевода».
Редактирование человеком и лексические метрики
Хотя описанные выше новые целевые метрики полезны во процессе выполнения перевода, когда «эталонные» образцы перевода того же текста недоступны, в сценариях бенчмаркинга и офлайн-тестирования качества их можно дополнять и усиливать другими методами.
В этих сценариях возможна подготовка тщательно отредактированных финальных переводов, выполненных профессиональным переводчиком, для использования в качестве эталонных. В дальнейшем традиционные лексические метрики, например Translation Edit Rate (TER) и Character n-gram F-score (ChrF), могут применяться для измерения «расстояния» между различными промежуточными версиями перевода и финальным эталонным переводом.
Это позволяет подтвердить, что преобразования, выполняемые на таких этапах рабочего процесса, как использование AutoAdapt, работают согласно замыслу и значительно сокращают объем редактирования, необходимого для достижения эталонного перевода.
Контрастивное A/B-тестирование
Еще один все более широко применяемый подход к контрастивной оценке относительного качества переводов, выполненных с использованием генеративного ИИ, заключается в привлечении экспертов для их целостной оценки. Эксперты сравнивают два полных перевода друг с другом и указывают, какой из них лучше.
Этот подход может использоваться как в офлайн-сценариях бенчмаркинга, так и в живых рабочих процессах, где эксперты могут выражать свои предпочтения при выборе финального перевода из нескольких альтернатив.
LLM как судья
Наконец, развивающиеся возможности современных LLM открыли новые перспективы для использования самих LLM в целях автоматизированной оценки выполнения различных задач. Такой подход в последнее время получил название «LLM как судья».
Используя относительно небольшие объемы данных, собранные в ходе контрастивного «человеческого» A/B-тестирования, LLM можно специализированно обучать для выполнения таких контрастивных оценок самостоятельно. Используя обучение в контексте (In-Context Learning, ICL), мы можем настраивать «LLM-судью» с учетом предпочтений к контенту и примеров перевода, выполненного профессиональными переводчиками, позволяя ему оценивать машинный перевод на основе заданных критериев.
Новые агентные рабочие процессы
Для использования потенциала этих новых и существующих методологий оценки в настоящее время активно исследуются более гибкие рабочие процессы, основанные на агентных ИИ-модулях.
Такие рабочие процессы могут гибко объединять многие или все из описанных выше подходов в комплексную систему, способную проверять и обеспечивать качество, согласованность и соответствие корпоративным стандартам на уровне документа.
Заключение: принятие будущего автоматизированной оценки качества перевода
Рост популярности перевода на основе генеративного ИИ и LLM не просто меняет способы создания многоязычного контента — он фундаментально меняет то, как мы должны измерять его качество. По мере перехода от перевода на уровне сегментов к сложным результатам на уровне документа, отражающим принятые на корпоративном уровне стандарты языка, наши методы оценки тоже должны меняться соответствующим образом.
Именно поэтому одной метрики или подхода, применявшегося в прошлом, уже недостаточно. Более полное представление о качестве перевода с точки зрения его «соответствия назначению» можно получить, если использовать комбинацию целевых метрик качества, сравнительных оценок под руководством человека и новых способов использования LLM в качестве инструмента оценки.
В совокупности эти методы позволяют получить практический способ оценки того, действительно ли переводы, выполненные инструментами основе ИИ, соответствуют стандартам согласованности, точности и соответствия бренду, которых ожидают глобальные компании.
В перспективе эти подходы будут продолжать развиваться вместе с самими технологиями многоязычной генерации контента. Работая над созданием этой многоуровневой системы уже сейчас, мы сможем гарантировать, что качество автоматизированного перевода будет и дальше соответствовать реальным потребностям корпоративных заказчиков по мере роста возможностей генеративного ИИ.





11.02.2026 19:57