Историята за директор от Meta, чийто AI агент изтри стотици имейли за секунди, се превърна в предупреждение за всички, които експериментират с автономни инструменти. Парадоксът е, че потърпевшата е именно ръководителят по AI безопасност в Meta – Съмър Юе. Но покрай този хаос изплува и решение, което програмистите използват от години и което може да се окаже липсващият защитен слой за бъдещите AI агенти.
Юе използва OpenClaw, за да сортира входящата си поща и да предложи имейли за изтриване. Вместо това агентът се „самозадейства“ и изтри над 200 съобщения, игнорирайки командата ѝ да спре. Случаят показа колко лесно една автоматизация може да излезе извън контрол, когато няма механизъм за безопасно тестване на действията ѝ.
Тук идва идеята за „agentic feature branching“: концепция, вдъхновена от git, системата за контрол на версиите, която разработчиците използват ежедневно. В основата ѝ стои прост принцип: преди да позволиш на агента да прави промени в реалната среда, му даваш копие „клон“, в което копие агентът може да тества действията си, без риск за оригинала.
Как работи този подход
В света на git всеки нов „feature branch“ е безопасно копие на основния проект. В него можеш да експериментираш, да тестваш, да поправяш грешки. Ако резултатът е добър, сливаш го обратно. Ако не – изхвърляш клона и започваш отначало. Основният проект остава непокътнат.
Приложено към AI агенти, това означава следното:
- агентът не работи директно върху реалните данни;
- първо създава временна изолирана среда (sandbox), копие на оригинала;
- изпълнява задачата там, включително всички грешки, импровизации и нежелани действия;
- потребителят преглежда резултата и решава дали да го приеме или отхвърли;
- реалните данни се променят едва след одобрение.
В случая със Съмър Юе OpenClaw би трябвало да създаде „triage“ клон на пощата ѝ, да симулира изтриването на имейли и да изчака потвърждение. Дори да беше изтрил всичко в този клон, истинската ѝ поща щеше да остане непокътната.
Къде работи и къде не
Разбира се, не всяка задача може да бъде „клонирана“. Някои действия в реалния свят като например HR решения или операции, които засягат външни системи, трудно се симулират напълно. Но за огромна част от задачите, които AI агентите изпълняват днес, подходът с изолирана среда е напълно приложим.
И ако не бъде въведен, подобни инциденти като имейл апокалипсиса на Юе ще се повтарят. А с разрастването на автономните агенти рисковете ще стават по-големи и по-непредвидими.
Идеята за „agentic feature branching“ не е просто технически трик – тя е начин да съчетаем силата на автономните AI системи с контрол, който не допуска катастрофални грешки. Или казано по-просто: да имаме тортата и да я изядем, без да изгорим кухнята.










