Новият инструмент на OpenAI се опитва да обясни поведението на езиковите модели

Новият инструмент на OpenAI се опитва да обясни поведението на езиковите модели

Често се казва, че големите езикови модели (LLM) по линия на ChatGPT на OpenAI са черна кутия и със сигурност има известна истина в това. Дори за учените по данни е трудно да разберат защо винаги един модел реагира по начина, по който го прави, като измисляне на факти от цял ​​плат.

В опит да отлепи слоевете на LLMs, OpenAI е развиващи се инструмент за автоматично идентифициране кои части от LLM са отговорни за кое от неговите поведения. Инженерите зад него подчертават, че е в ранен стадий, но кодът за изпълнението му е достъпен в отворен код на GitHub от тази сутрин.

Опитваме се да [разработим начини] да предвидим какви ще бъдат проблемите с една AI система, каза Уилям Сондърс, мениджър на екипа за интерпретация в OpenAI, пред Gadget Insider в телефонно интервю. Искаме наистина да можем да знаем, че можем да се доверим на това, което моделът прави и на отговора, който дава.



За тази цел инструментът на OpenAI използва езиков модел (по ирония на съдбата), за да разбере функциите на компонентите на други, архитектурно по-прости LLMs - по-специално собствения GPT-2 на OpenAI.

Обяснимост на OpenAI

Инструментът на OpenAI се опитва да симулира поведението на невроните в LLM. Кредити за изображения: OpenAI

rivian r3 предварителна поръчка

как? Първо, кратко обяснение на LLMs за предварителна информация. Подобно на мозъка, те са съставени от неврони, които наблюдават някакъв специфичен модел в текста, за да повлияят на това, което цялостният модел казва след това. Например, при подкана за супергерои (напр. Кои супергерои имат най-полезните суперсили?), супергерой неврон на Marvel може да увеличи вероятността моделът да назове конкретни супергерои от филми на Marvel.

Инструментът на OpenAI използва тази настройка, за да раздели моделите на отделни части. Първо, инструментът изпълнява текстови последователности през оценявания модел и изчаква случаите, когато определен неврон се активира често. След това показва GPT-4, най-новият AI модел на OpenAI за генериране на текст, тези силно активни неврони и GPT-4 генерира обяснение. За да определи колко точно е обяснението, инструментът предоставя на GPT-4 текстови последователности и го кара да предскаже или симулира как ще се държи невронът. След това сравнява поведението на симулирания неврон с поведението на действителния неврон.

Използвайки тази методология, ние можем основно, за всеки отделен неврон, да излезем с някакъв вид предварително обяснение на естествен език за това, което прави, и също така да имаме резултат за това колко добре това обяснение съответства на действителното поведение, Джеф Ву, който ръководи мащабируемото екипът за подравняване в OpenAI, каза. Ние използваме GPT-4 като част от процеса, за да създадем обяснения за това какво търси неврон и след това да оценим колко добре тези обяснения съответстват на реалността на това, което прави.

Изследователите успяха да генерират обяснения за всичките 307 200 неврона в GPT-2, които компилираха в набор от данни, който беше пуснат заедно с кода на инструмента.

Инструменти като този биха могли един ден да се използват за подобряване на ефективността на LLM, казват изследователите - например за намаляване на пристрастията или токсичността. Но те признават, че трябва да измине дълъг път, преди да бъде наистина полезно. Инструментът беше уверен в своите обяснения за около 1000 от тези неврони, малка част от общия брой.

Един циничен човек може също да възрази, че инструментът е по същество реклама за GPT-4, като се има предвид, че изисква GPT-4, за да работи. Други инструменти за интерпретация на LLM са по-малко зависими от търговски API, като този на DeepMind Tracr , компилатор, който превежда програми в модели на невронни мрежи.

Ву каза, че това не е така - фактът, че инструментът използва GPT-4, е просто случаен - и, напротив, показва слабостите на GPT-4 в тази област. Той също така каза, че не е създаден с комерсиални приложения и на теория може да бъде адаптиран за използване на LLM освен GPT-4.

Обяснимост на OpenAI

Инструментът идентифицира неврони, активиращи се през слоевете в LLM. Кредити за изображения: OpenAI

Повечето от обясненията имат доста лош резултат или не обясняват толкова много от поведението на действителния неврон, каза Ву.Много от невроните, например, са активни по начин, по който е много трудно да се каже какво се случва - като те се активират при пет или шест различни неща, но няма забележим модел.Понякога там е забележим модел, но GPT-4 не може да го намери.

Това не означава нищо за по-сложни, по-нови и по-големи модели или модели, които могат да сърфират в мрежата за информация. Но по тази втора точка Ву вярва, че сърфирането в мрежата няма да промени много основните механизми на инструмента. Той може просто да бъде променен, казва той, за да разбере защо невроните решават да правят определени заявки в търсачката или да осъществяват достъп до определени уебсайтове.

Надяваме се, че това ще отвори обещаващ път за справяне с интерпретируемостта по автоматизиран начин, който другите могат да надграждат и да допринасят, каза Ву. Надеждата е, че наистина имаме добри обяснения не само за това на какво реагират невроните, но и като цяло за поведението на тези модели – какви видове вериги изчисляват и как определени неврони влияят на други неврони.