Block Generation Evaluation Plan
1. Цель оценки
Цель оценки качества:
-
понять, действительно ли generated draft ускоряет authoring;
-
убедиться, что функция даёт структурно валидный и содержательно полезный стартовый результат;
-
определить, можно ли считать
Block Generationштатным drafting workflow, а не экспериментальной опцией.
Главные риски качества:
-
unusable schema;
-
неверный
block_type; -
слабый или пустой template;
-
плохой
block_id; -
слишком высокая стоимость ручной доводки после генерации.
2. Измерения качества
Оцениваемые измерения:
-
structural validity Базовая пригодность payload к domain validation.
-
semantic relevance Насколько draft соответствует пользовательской инструкции.
-
type correctness Насколько выбранный тип блока соответствует смыслу запроса.
-
template usefulness Насколько template уже похож на production-usable draft, а не на общую болванку.
-
editability Насколько просто автору довести результат до publish.
3. Критерии приёмки
Функция считается проходящей оценку, если:
-
generated draft валиден по базовой структуре;
-
template, description и defaults не противоречат друг другу;
-
author может довести результат до publish без полной регенерации в большинстве representative cases;
-
revision mode сохраняет identity существующего блока;
-
доля полностью unusable drafts остаётся низкой на curated наборе кейсов.
4. Стратегия датасета
Нужно собирать:
-
gold cases для
role,style,safety,constraint,domain,system; -
кейсы с preferred type и preferred id;
-
revision cases для существующих blocks;
-
vague prompts;
-
contradictory instructions;
-
prompts with missing context;
-
multilingual and mixed-language prompts.
Набор должен включать:
-
простые кейсы;
-
средние по сложности product-like instructions;
-
негативные кейсы, где модель склонна давать generic output.
5. Offline evaluation
Нужно проводить:
-
прогон по curated prompt set;
-
проверку structural validity;
-
ручную оценку semantic relevance;
-
сравнение create mode и revise mode;
-
сравнение качества до и после изменений prompt policy.
Полезно фиксировать:
-
сколько кейсов проходят validation;
-
сколько кейсов требуют light edit, heavy edit или full rewrite;
-
где чаще всего ломается
id,type,templилиdescription.
6. Ручная проверка
Ревьюеры:
-
prompt author;
-
product/domain owner;
-
при необходимости владелец block library.
Что проверять вручную:
-
relevance;
-
correctness of type;
-
usability of template;
-
review cost;
-
можно ли сохранить результат после разумной ручной правки.
7. Пороговые значения и правило решения
Go, если:
-
большинство representative prompts дают usable draft;
-
structural failures редки;
-
revision mode обычно сохраняет identity блока;
-
review cost заметно ниже полностью ручного authoring с нуля.
No-Go, если:
-
часты structural failures;
-
draft почти всегда приходится переписывать с нуля;
-
модель системно выбирает неверные типы блоков;
-
revision mode разрушает ожидаемую идентичность существующих блоков.