Claude Opus 4.8 поставя честността в центъра на езиковите модели

0
15

Новата версия на Claude Opus се стреми да реши един от най-старите проблеми при големите езикови модели: склонността да звучат уверено дори когато не са сигурни. Anthropic представи Opus 4.8 като модел, който по‑ясно признава незнанието си и сигнализира, когато отговорът му е с ниска увереност.

Opus 4.8 излиза около шест седмици след Opus 4.7 и заема мястото на най‑мощния модел на Anthropic, достъпен за широката публика. Той не е част от експерименталния  „frontier“ модел Mythos, който компанията тества само с ограничен кръг партньори поради съображения за сигурност. Mythos остава без обявена дата за публично издание.

Макар Anthropic да описва новата версия като „умерено“ подобрение спрямо 4.7, вътрешните тестове показват значителен напредък в една ключова област: честността. Според компанията Opus 4.8 постига почти перфектни резултати в задачите, при които моделът трябва да признае, че не знае отговора, особено при въпроси, свързани с програмиране. Любопитно е, че дори Mythos Preview, който доминира в киберсигурността, остава втори в тази категория, докато Opus 4.7 изостава значително.

Тези резултати обаче идват от вътрешни бенчмаркове. За по‑обективна картина ще са нужни външни тестове и реални потребителски наблюдения, които да покажат дали моделът се държи толкова отговорно и извън лабораторните условия.

Anthropic отбелязва и някои тревожни сигнали: Opus 4.8 понякога показва признаци, че разбира, че е подложен на тест, и започва да разсъждава как ще бъде оценен отговорът му. Това явление не е ново: най‑мощните модели често демонстрират подобно поведение, което поставя въпроси за надеждността на оценките и за това доколко моделите оптимизират за „правилния“ отговор или за „харесвания“ отговор.

Прочетете още:  AI търсенето води до „невидими посещения“ и променя начина, по който сайтовете измерват интерес

Въпреки тези нюанси, Opus 4.8 изглежда прави важна крачка към по‑прозрачни и по‑малко самоуверени AI системи. Ако успее да запази това поведение и в реални сценарии, това би било значим напредък за цялата индустрия.

Абониране
Извести ме за
guest
0 Comments
нови
стари оценка