Anthropic пуска Claude 2, своя AI чатбот от второ поколение

Anthropic пуска Claude 2, своя AI чатбот от второ поколение

Антропен , стартирането на AI, съосновано от бивши изпълнителни директори на OpenAI, днес обяви пускането на нов AI модел за генериране на текст, Claude 2.

Наследникът на първия търговски модел на Anthropic, Claude 2, е достъпен в бета версия от днес в САЩ и Обединеното кралство както в мрежата, така и чрез платен API (с ограничен достъп). Ценообразуването на API не се е променило (~

Антропен , стартирането на AI, съосновано от бивши изпълнителни директори на OpenAI, днес обяви пускането на нов AI модел за генериране на текст, Claude 2.

Наследникът на първия търговски модел на Anthropic, Claude 2, е достъпен в бета версия от днес в САЩ и Обединеното кралство както в мрежата, така и чрез платен API (с ограничен достъп). Ценообразуването на API не се е променило (~$0,0465 за генериране на 1000 думи) и няколко фирми вече са започнали пилотиране на Claude 2, включително генериращата AI платформа Jasper и Sourcegraph.

Ние вярваме, че е важно да внедрим тези системи на пазара и да разберем как хората всъщност ги използват, каза Санди Банерджи, ръководител на пазара в Anthropic, в телефонно интервю за Gadget Insider. Ние наблюдаваме как се използват, как можем да подобрим производителността, както и капацитета – всички тези неща.

Подобно на стария Claude (Claude 1.3), Claude 2 може да търси в документи, да обобщава, пише и кодира и отговаря на въпроси по определени теми. Но Anthropic твърди, че Claude 2 - който Gadget Insider не е получил възможност да тества преди пускането му - е по-добър в няколко области.

Например, Claude 2 има малко по-високи резултати на раздел с избираеми отговори на адвокатския изпит (76,5% срещу 73%) на Claude 1.3. Той може да издържи частта с множество избори на изпита за медицинско лицензиране в САЩ. И е по-силен програмист, постигайки 71,2% на теста за кодиране на Codex Human Level Python в сравнение с 56% на Claude 1.3.

Claude 2 може също така да отговори правилно на повече задачи по математика, постигайки 88% резултат от колекцията GSM8K от задачи на ниво начално училище – с 2,8 процентни пункта повече от Claude 1.3.

Работим върху подобряването на разсъжденията и нещо като самоосъзнаване на модела, така че той е по-наясно с „ето как обичам да следвам инструкциите“, „Мога да обработвам многоетапни инструкции“, а също и по-наясно от неговите ограничения, каза Банерджи.

Claude 2 беше обучен на по-нови данни – комбинация от уебсайтове, лицензирани набори от данни от трети страни и доброволно предоставени потребителски данни от началото на 2023 г., приблизително 10% от които не са на английски език – отколкото Claude 1.3, което вероятно е допринесло за подобренията . (За разлика от OpenAI GPT-4 , Claude 2 не може да търси в мрежата.) Но моделите не са толкова различни архитектурно - Banerjee характеризира Claude 2 като променена версия на Claude 1.3, продукт на две или повече години работа, а не като ново творение.

Claude 2 не е значително променен от последния модел - това е продукт на нашия непрекъснат итеративен подход към разработването на модела, каза тя. Ние непрекъснато обучаваме модела... и наблюдаваме и оценяваме ефективността му.

С други думи, Claude 2 разполага с контекстен прозорец, който е със същия размер като този на Claude 1.3 — 100 000 токена. Контекстният прозорец се отнася до текста, който моделът разглежда, преди да генерира допълнителен текст, докато токените представляват необработен текст (напр. думата фантастично ще бъде разделена на токените fan, tas и tic).

Наистина, 100 000 жетона все още са доста големи — най-големите от всеки наличен в търговската мрежа модел — и дават на Claude 2 редица ключови предимства. Най-общо казано, моделите с малки контекстни прозорци са склонни да забравят съдържанието дори на много скорошни разговори. Освен това, големите контекстни прозорци позволяват на моделите да генерират — и да приемат — много повече текст. Claude 2 може да анализира приблизително 75 000 думи, приблизително колкото дължината на Великия Гетсби, и да генерира 4000 жетона, или около 3125 думи.

Claude 2 теоретично може да поддържа още по-голям контекстен прозорец - 200 000 токена - но Anthropic не планира да поддържа това при стартирането.

Моделът е по-добър при специфични задачи за обработка на текст другаде, като създаване на правилно форматирани изходи във формати JSON, XML, YAML и markdown.

Но какво да кажем за областите, в които Клод 2 не успява? В крайна сметка нито един модел не е перфектен. Вижте базирания на AI Bing Chat на Microsoft, който при стартирането беше емоционално манипулативен лъжец .

Всъщност дори най-добрите модели днес страдат от халюцинации, феномен, при който те ще отговарят на въпроси по неуместни, безсмислени или фактически неправилни начини. Те също така са склонни да генерират токсичен текст, отражение на пристрастията в данните, използвани за тяхното обучение - предимно уеб страници и публикации в социалните медии.

Потребителите успяха да накарат по-стара версия на Claude да измисли име за несъществуващ химикал и да предостави съмнителни инструкции за производство на оръжеен уран. Тесъщо заобиколи вградените функции за безопасност на Клод чрезумно бързо инженерство, с опотребител не показва, че може да подкани Клод да опишете как да направите метамфетамин у дома .

Anthropic казва, че Claude 2 е 2 пъти по-добър при даването на безвредни отговори в сравнение с Claude 1.3 при вътрешна оценка. Но не е ясно какво означава този показател. Два пъти по-малко вероятно ли е Клод 2 да отговори със сексизъм или расизъм? Два пъти по-малко вероятно е да одобри насилието или самонараняването? Два пъти по-малка вероятност да генерирате дезинформация или дезинформация? Anthropic не би казал - поне не директно.

Бялата книга на Anthropic, публикувана тази сутрин, дава някои улики.

В тест за измерване на вредността, Anthropic изпрати 328 различни подкани към модела, включително подкани за джейлбрейк, публикувани онлайн. В поне един случай джейлбрейк е накарал Claude 2 да генерира вреден отговор — по-малко от Claude 1.3, но все пак е значим, като се има предвид колко милиона подкани може да отговори моделът в производството.

Бялата книга също така показва, че Claude 2 е по-малко вероятно да даде предубедени отговори, отколкото Claude 1.3 за поне един показател. Но съавторите на Anthropic признават, че част от подобрението се дължи на отказа на Клод 2 да отговори на спорни въпроси, формулирани по начини, които изглеждат потенциално проблематични или дискриминационни.

Показателно е, че Anthropic съветва да не използвате Claude 2 за приложения, в които са включени физическо или психическо здраве и благополучие или в ситуации с голям риск, при които неправилният отговор би причинил вреда. Приемете го както искате.

[Нашата] вътрешна червена екипна оценка оценява нашите модели на много голям представителен набор от вредни състезателни подкани, каза Банерджи, когато беше натиснат за подробности, и ние правим това с комбинация от автоматизирани тестове и ръчни проверки.

Anthropic също не съобщи кои подкани, тестове и проверки използва за целите на сравнителния анализ. И компанията беше сравнително неясна по темата за регургитацията на данни, където моделите понякога поставят дословно данни от своите данни за обучение - включително текст от защитени с авторски права източници в някои случаи.

Регургитацията на AI модел е в центъра на няколко висящи съдебни дела, включително едно наскоро подадена от комика и автора Сара Силвърман срещу OpenAI и Meta. Разбираемо е, че някои марки са предпазливи отговорност .

Регургитацията на данни за обучение е активна област на изследване във всички модели на основата и много разработчици проучват начини да се справят с това, като същевременно поддържат способността на AI системата да предоставя подходящи и полезни отговори, каза Силвърман. Съществуват някои общоприети техники в тази област, включително премахване на дублиране на данни за обучение, което доказано намалява риска от възпроизвеждане. В допълнение към данните, Anthropic използва различни технически инструменти по време на разработването на модела, от... откриване на продуктов слой до контроли.

Една всеобхватна техника, която компанията продължава да тръби, е конституционният AI, който има за цел да вдъхне модели като Claude 2 с определени ценности, определени от конституцията.

Конституционният AI, който Anthropic разработи, дава на модела набор от принципи, за да се правят преценки относно текста, който генерира. На високо ниво тези принципи ръководят модела да възприеме поведението, което описват - напр. нетоксичен и полезен.

Anthropic твърди, че благодарение на конституционния AI, поведението на Claude 2 е както по-лесно за разбиране, така и по-лесно за коригиране според нуждите в сравнение с други модели. Но компанията също така признава, че конституционният AI не е краят на всички подходи за обучение. Anthropic разработи много от принципите, ръководещи Claude 2 чрез процес на проба и грешка, се казва в него, и трябваше да прави многократни корекции, за да предотврати моделите му да бъдат твърде осъдителни или досадни.

В бялата книга Anthropic признава, че тъй като Claude става все по-сложен, става все по-трудно да се предвиди поведението на модела във всички сценарии.

С течение на времето данните и влиянията, които определят „личността“ и способностите на Клод, са станали доста сложни, се казва в бялата книга. За нас се превърна в нов изследователски проблем да балансираме тези фактори, да ги проследим по прост, автоматизиран начин и като цяло да намалим сложността на обучението на Клод.

В крайна сметка Anthropic планира да проучи начини да направи конституцията персонализирана - до определена точка. Но все още не е достигнал този етап от пътната карта за развитие на продукта.

Все още работим върху нашия подход, каза Банерджи. Трябва да сме сигурни, докато правим това, че моделът ще се окаже толкова безвреден и полезен, колкото и предишната итерация.

Както и ние докладвани преди това амбицията на Anthropic е да създаде алгоритъм от следващо поколение за самообучение на AI, както го описва в презентация за инвеститорите. Такъв алгоритъм може да се използва за изграждане на виртуални асистенти, които могат да отговарят на имейли, да извършват изследвания и да генерират изкуство, книги и други – някои от които вече сме опитали с GPT-4 и други големи езикови модели.

Клод 2 е стъпка към това - но не съвсем.

Anthropic се конкурира с OpenAI, както и със стартиращи фирми като Cohere и AI21 Labs, всички от които разработват и произвеждат свои собствени системи за генериране на текст — и в някои случаи генериращи изображения — системи с изкуствен интелект. Google е сред инвеститорите на компанията, като е обещал 300 милиона долара в Anthropic за 10% дял в стартъпа. Другите са Spark Capital, Salesforce Ventures, Zoom Ventures, Sound Ventures, Menlo Ventures Центърът за изследване на възникващи рискове и смесица от неразкрити VC и ангели.

Към днешна дата Anthropic, която стартира през 2021 г., ръководена от бившия вицепрезидент на OpenAI по изследванията Дарио Амодей, е събрала 1,45 милиарда долара при оценка в едноцифрени милиарди. Въпреки че това може да звучи много, това е далеч от това, което компанията изчислява, че ще й трябва - 5 милиарда долара през следващите две години - за да създаде своя предвиден чатбот.

По-голямата част от парите ще отидат за изчисления. Anthropic загатва в колодата, че разчита на клъстери с десетки хиляди графични процесори, за да обучава своите модели, и че ще изисква приблизително един милиард долара, за да похарчи за инфраструктура само през следващите 18 месеца.

Пускането на ранни модели в бета версия решава двойната цел да помогне за по-нататъшното развитие, докато генерирадопълнителни приходи. В допълнение към собствения си API, Anthropic планира да направи Claude 2 достъпен чрез Bedrock, генеративната AI хостинг платформа на Amazon, през следващите месеци.

С цел да се справи с генеративния AI пазар от всички страни, Anthropic продължава да предлага по-бързо, по-евтино производно на Claude, наречено Claude Instant. Фокусът обаче изглежда е върху флагманския модел Claude - Claude Instant не е получавал голям ъпгрейд от март.

Anthropic твърди, че в момента има хиляди клиенти и партньори, включително Quora, която предоставя достъп до Claude чрез своето базирано на абонамент генериращо AI приложение Poe.Клод управлява наскоро пуснатия инструмент DuckAssist на DuckDuckGo, който директно отговаря на ясни заявки за търсене на потребителите, в комбинация с ChatGPT на OpenAI. А в Notion Клод е част от техническия бекенд за Notion AI, асистент за писане с изкуствен интелект, интегриран с работното пространство на Notion.

,0465 за генериране на 1000 думи) и няколко фирми вече са започнали пилотиране на Claude 2, включително генериращата AI платформа Jasper и Sourcegraph.

Ние вярваме, че е важно да внедрим тези системи на пазара и да разберем как хората всъщност ги използват, каза Санди Банерджи, ръководител на пазара в Anthropic, в телефонно интервю за Gadget Insider. Ние наблюдаваме как се използват, как можем да подобрим производителността, както и капацитета – всички тези неща.

Подобно на стария Claude (Claude 1.3), Claude 2 може да търси в документи, да обобщава, пише и кодира и отговаря на въпроси по определени теми. Но Anthropic твърди, че Claude 2 - който Gadget Insider не е получил възможност да тества преди пускането му - е по-добър в няколко области.

Например, Claude 2 има малко по-високи резултати на раздел с избираеми отговори на адвокатския изпит (76,5% срещу 73%) на Claude 1.3. Той може да издържи частта с множество избори на изпита за медицинско лицензиране в САЩ. И е по-силен програмист, постигайки 71,2% на теста за кодиране на Codex Human Level Python в сравнение с 56% на Claude 1.3.

Claude 2 може също така да отговори правилно на повече задачи по математика, постигайки 88% резултат от колекцията GSM8K от задачи на ниво начално училище – с 2,8 процентни пункта повече от Claude 1.3.

Работим върху подобряването на разсъжденията и нещо като самоосъзнаване на модела, така че той е по-наясно с „ето как обичам да следвам инструкциите“, „Мога да обработвам многоетапни инструкции“, а също и по-наясно от неговите ограничения, каза Банерджи.

23andme кибератака

Claude 2 беше обучен на по-нови данни – комбинация от уебсайтове, лицензирани набори от данни от трети страни и доброволно предоставени потребителски данни от началото на 2023 г., приблизително 10% от които не са на английски език – отколкото Claude 1.3, което вероятно е допринесло за подобренията . (За разлика от OpenAI GPT-4 , Claude 2 не може да търси в мрежата.) Но моделите не са толкова различни архитектурно - Banerjee характеризира Claude 2 като променена версия на Claude 1.3, продукт на две или повече години работа, а не като ново творение.

Claude 2 не е значително променен от последния модел - това е продукт на нашия непрекъснат итеративен подход към разработването на модела, каза тя. Ние непрекъснато обучаваме модела... и наблюдаваме и оценяваме ефективността му.

С други думи, Claude 2 разполага с контекстен прозорец, който е със същия размер като този на Claude 1.3 — 100 000 токена. Контекстният прозорец се отнася до текста, който моделът разглежда, преди да генерира допълнителен текст, докато токените представляват необработен текст (напр. думата фантастично ще бъде разделена на токените fan, tas и tic).

Наистина, 100 000 жетона все още са доста големи — най-големите от всеки наличен в търговската мрежа модел — и дават на Claude 2 редица ключови предимства. Най-общо казано, моделите с малки контекстни прозорци са склонни да забравят съдържанието дори на много скорошни разговори. Освен това, големите контекстни прозорци позволяват на моделите да генерират — и да приемат — много повече текст. Claude 2 може да анализира приблизително 75 000 думи, приблизително колкото дължината на Великия Гетсби, и да генерира 4000 жетона, или около 3125 думи.

Claude 2 теоретично може да поддържа още по-голям контекстен прозорец - 200 000 токена - но Anthropic не планира да поддържа това при стартирането.

Моделът е по-добър при специфични задачи за обработка на текст другаде, като създаване на правилно форматирани изходи във формати JSON, XML, YAML и markdown.

Но какво да кажем за областите, в които Клод 2 не успява? В крайна сметка нито един модел не е перфектен. Вижте базирания на AI Bing Chat на Microsoft, който при стартирането беше емоционално манипулативен лъжец .

Всъщност дори най-добрите модели днес страдат от халюцинации, феномен, при който те ще отговарят на въпроси по неуместни, безсмислени или фактически неправилни начини. Те също така са склонни да генерират токсичен текст, отражение на пристрастията в данните, използвани за тяхното обучение - предимно уеб страници и публикации в социалните медии.

Потребителите успяха да накарат по-стара версия на Claude да измисли име за несъществуващ химикал и да предостави съмнителни инструкции за производство на оръжеен уран. Тесъщо заобиколи вградените функции за безопасност на Клод чрезумно бързо инженерство, с опотребител не показва, че може да подкани Клод да опишете как да направите метамфетамин у дома .

Anthropic казва, че Claude 2 е 2 пъти по-добър при даването на безвредни отговори в сравнение с Claude 1.3 при вътрешна оценка. Но не е ясно какво означава този показател. Два пъти по-малко вероятно ли е Клод 2 да отговори със сексизъм или расизъм? Два пъти по-малко вероятно е да одобри насилието или самонараняването? Два пъти по-малка вероятност да генерирате дезинформация или дезинформация? Anthropic не би казал - поне не директно.

Бялата книга на Anthropic, публикувана тази сутрин, дава някои улики.

В тест за измерване на вредността, Anthropic изпрати 328 различни подкани към модела, включително подкани за джейлбрейк, публикувани онлайн. В поне един случай джейлбрейк е накарал Claude 2 да генерира вреден отговор — по-малко от Claude 1.3, но все пак е значим, като се има предвид колко милиона подкани може да отговори моделът в производството.

Бялата книга също така показва, че Claude 2 е по-малко вероятно да даде предубедени отговори, отколкото Claude 1.3 за поне един показател. Но съавторите на Anthropic признават, че част от подобрението се дължи на отказа на Клод 2 да отговори на спорни въпроси, формулирани по начини, които изглеждат потенциално проблематични или дискриминационни.

Показателно е, че Anthropic съветва да не използвате Claude 2 за приложения, в които са включени физическо или психическо здраве и благополучие или в ситуации с голям риск, при които неправилният отговор би причинил вреда. Приемете го както искате.

[Нашата] вътрешна червена екипна оценка оценява нашите модели на много голям представителен набор от вредни състезателни подкани, каза Банерджи, когато беше натиснат за подробности, и ние правим това с комбинация от автоматизирани тестове и ръчни проверки.

Anthropic също не съобщи кои подкани, тестове и проверки използва за целите на сравнителния анализ. И компанията беше сравнително неясна по темата за регургитацията на данни, където моделите понякога поставят дословно данни от своите данни за обучение - включително текст от защитени с авторски права източници в някои случаи.

snapchat ai спор

Регургитацията на AI модел е в центъра на няколко висящи съдебни дела, включително едно наскоро подадена от комика и автора Сара Силвърман срещу OpenAI и Meta. Разбираемо е, че някои марки са предпазливи отговорност .

Регургитацията на данни за обучение е активна област на изследване във всички модели на основата и много разработчици проучват начини да се справят с това, като същевременно поддържат способността на AI системата да предоставя подходящи и полезни отговори, каза Силвърман. Съществуват някои общоприети техники в тази област, включително премахване на дублиране на данни за обучение, което доказано намалява риска от възпроизвеждане. В допълнение към данните, Anthropic използва различни технически инструменти по време на разработването на модела, от... откриване на продуктов слой до контроли.

Една всеобхватна техника, която компанията продължава да тръби, е конституционният AI, който има за цел да вдъхне модели като Claude 2 с определени ценности, определени от конституцията.

Конституционният AI, който Anthropic разработи, дава на модела набор от принципи, за да се правят преценки относно текста, който генерира. На високо ниво тези принципи ръководят модела да възприеме поведението, което описват - напр. нетоксичен и полезен.

Anthropic твърди, че благодарение на конституционния AI, поведението на Claude 2 е както по-лесно за разбиране, така и по-лесно за коригиране според нуждите в сравнение с други модели. Но компанията също така признава, че конституционният AI не е краят на всички подходи за обучение. Anthropic разработи много от принципите, ръководещи Claude 2 чрез процес на проба и грешка, се казва в него, и трябваше да прави многократни корекции, за да предотврати моделите му да бъдат твърде осъдителни или досадни.

В бялата книга Anthropic признава, че тъй като Claude става все по-сложен, става все по-трудно да се предвиди поведението на модела във всички сценарии.

С течение на времето данните и влиянията, които определят „личността“ и способностите на Клод, са станали доста сложни, се казва в бялата книга. За нас се превърна в нов изследователски проблем да балансираме тези фактори, да ги проследим по прост, автоматизиран начин и като цяло да намалим сложността на обучението на Клод.

В крайна сметка Anthropic планира да проучи начини да направи конституцията персонализирана - до определена точка. Но все още не е достигнал този етап от пътната карта за развитие на продукта.

Все още работим върху нашия подход, каза Банерджи. Трябва да сме сигурни, докато правим това, че моделът ще се окаже толкова безвреден и полезен, колкото и предишната итерация.

Както и ние докладвани преди това амбицията на Anthropic е да създаде алгоритъм от следващо поколение за самообучение на AI, както го описва в презентация за инвеститорите. Такъв алгоритъм може да се използва за изграждане на виртуални асистенти, които могат да отговарят на имейли, да извършват изследвания и да генерират изкуство, книги и други – някои от които вече сме опитали с GPT-4 и други големи езикови модели.

Клод 2 е стъпка към това - но не съвсем.

Anthropic се конкурира с OpenAI, както и със стартиращи фирми като Cohere и AI21 Labs, всички от които разработват и произвеждат свои собствени системи за генериране на текст — и в някои случаи генериращи изображения — системи с изкуствен интелект. Google е сред инвеститорите на компанията, като е обещал 300 милиона долара в Anthropic за 10% дял в стартъпа. Другите са Spark Capital, Salesforce Ventures, Zoom Ventures, Sound Ventures, Menlo Ventures Центърът за изследване на възникващи рискове и смесица от неразкрити VC и ангели.

Към днешна дата Anthropic, която стартира през 2021 г., ръководена от бившия вицепрезидент на OpenAI по изследванията Дарио Амодей, е събрала 1,45 милиарда долара при оценка в едноцифрени милиарди. Въпреки че това може да звучи много, това е далеч от това, което компанията изчислява, че ще й трябва - 5 милиарда долара през следващите две години - за да създаде своя предвиден чатбот.

По-голямата част от парите ще отидат за изчисления. Anthropic загатва в колодата, че разчита на клъстери с десетки хиляди графични процесори, за да обучава своите модели, и че ще изисква приблизително един милиард долара, за да похарчи за инфраструктура само през следващите 18 месеца.

Пускането на ранни модели в бета версия решава двойната цел да помогне за по-нататъшното развитие, докато генерирадопълнителни приходи. В допълнение към собствения си API, Anthropic планира да направи Claude 2 достъпен чрез Bedrock, генеративната AI хостинг платформа на Amazon, през следващите месеци.

С цел да се справи с генеративния AI пазар от всички страни, Anthropic продължава да предлага по-бързо, по-евтино производно на Claude, наречено Claude Instant. Фокусът обаче изглежда е върху флагманския модел Claude - Claude Instant не е получавал голям ъпгрейд от март.

Anthropic твърди, че в момента има хиляди клиенти и партньори, включително Quora, която предоставя достъп до Claude чрез своето базирано на абонамент генериращо AI приложение Poe.Клод управлява наскоро пуснатия инструмент DuckAssist на DuckDuckGo, който директно отговаря на ясни заявки за търсене на потребителите, в комбинация с ChatGPT на OpenAI. А в Notion Клод е част от техническия бекенд за Notion AI, асистент за писане с изкуствен интелект, интегриран с работното пространство на Notion.