Normalization Evaluation Plan
1. Цель оценки
Качество Normalization означает:
-
requested semantic style действительно виден в результате;
-
смысл источника не теряется неприемлемым образом;
-
composition coherence сохраняется;
-
placeholders и structural constraints не ломаются.
Главные риски:
-
hallucinated rewrite;
-
over-editing;
-
semantic drift;
-
broken composition coherence;
-
placeholder breakage in block normalization.
2. Измерения качества
Оцениваемые измерения:
-
faithfulness to source Сохраняется ли исходный смысл.
-
style adherence Видно ли requested tone/tense/language shift.
-
language correctness Насколько результат грамматически и stylistically пригоден.
-
composition coherence Остаётся ли normalized composition логичной и цельной.
-
placeholder preservation Сохраняются ли обязательные placeholders в derived blocks.
3. Критерии приёмки
Функция считается проходящей оценку, если:
-
requested style changes заметны;
-
original meaning остаётся приемлемым;
-
normalized composition остаётся reviewable и структурно понятной;
-
placeholder-preservation check стабильно проходит на representative blocks;
-
derived assets полезны, а не просто stylistically different.
4. Стратегия датасета
Нужно собирать:
-
representative render outputs;
-
multilingual cases;
-
tone and tense shift cases;
-
composition cases с несколькими типами blocks;
-
negative cases с under-specified style requests;
-
blocks с placeholders и более сложной template structure.
5. Offline evaluation
Нужно проводить:
-
сравнение normalized outputs с curated expectations;
-
review preservation of meaning;
-
review style shift;
-
composition-level inspection;
-
placeholder-preservation verification.
Полезно отдельно проверять:
-
text normalization;
-
composition normalization;
-
behavior with and without static text normalization.
6. Ручная проверка
Ревьюеры:
-
author;
-
domain owner;
-
при composition path - владелец composition workflow.
Принцип разрешения споров:
-
при конфликте stylistic polish и meaning preservation приоритет у сохранения смысла и structural correctness.
7. Пороговые значения и правило решения
Go, если:
-
representative cases показывают полезный style change;
-
fidelity к source остаётся приемлемой;
-
placeholder violations редки и корректно отсекаются.
No-Go, если:
-
semantic drift частый;
-
normalized output системно хуже исходника;
-
derived compositions теряют coherence;
-
placeholder preservation часто ломается на нормальных кейсах.