AI and beyond
Mar. 2nd, 2023 09:57 pmВ продолжение записи про ChatGPT:
Сходил на конференцию по AI в Технионе. Там преобладает сдержанный оптимизм.
Первая лекция была про grounding, consistency и ещё что-то от чувака из Гугла - он говорит, что все будет. Причем, прямо с помощью тех же самых моделей — тренируем модели так, чтобы они вместе с генерированным текстом выдавали токен правда/вранье, точнее начинали прямо с него. А потом в промт пихаем слово «правда». Ну, неудивительво — у них LAMDA так устроена, трансформеры all the way down. Еще можно попросить модель выдавать сразу УРЛ, подтверждающий сгенерированный текст. Правда, иногда УРЛ она тоже выдумывает. Или можно сначала натягать результатов обычным поиском, а потом попроситъ модель их по-человечески перескажет (лучше всего). Для consistency можно еще одной моделью проверить сгенерированный результат. Например, просим нарисовать картинку с коровой и желтым котом, потом у другой модели спрашиваем, есть ли там кот.
Интересно, что выступающие не могут удержаться от того, чтобы обозначить свою позицию по поводу последних (политических) событий, несмотря на то что на общей сессии начали с предложения оставить политику за дверью. Панелисты, да и ведущая, на общей сессии тоже, разумеется, не удержались.
Вторая лекция:
Рассказывают, что натренированная NN внезапно может использоваться как модель мозга. Например, visual cortex. Можно в каком-то смысле найти соответствие в поведении (т.е. активности) межу нейронами в мозгу и в (предпосленем слое) NN при показе картинок. И соответствие тем лучше, чем точнее NN.
Прямо, full circle обратно в 60-ые.
Третья лекция от AI21 немного рекламная по-моему - мы очень крутые и хитрые. Все что раньше делали подходит к маленьким большим моделям, а большие большие модели сами справятся.
Но суть такая: можно взять LLM (точнее Giant LM) и приготовить ей хитрый промпт, или embedding и решить разные прлблемы, а именно grounding, long prompts и fine-tuning под разные domains без того чтобы перетренировывать модель или строить специализированную модель. Разные подходы к few-shot learning, так сказать.
На 4-ой лекции I lost it - очень много математики.
Сама проблема интересная: предположим мы обучаем экспертную систему, которая выписывает лекарства. И у нас есть много исторических данных. Но мы к сожалению знаем только, что случилось с больным, которому дали лекарство А, и не знаем чтобы было, если бы он получил лекарство Б. Плюс, мы знаем, что мы не видим всей информации, которой руководствовался врач.
Они пытаются оценить как оценить степень нашей неуверенности и учесть это при обучении.
И то же самое с автопилотом.
P.S. лектор выглядел и звучал так, будто у него должна быть кипа. Но нет
Пятая лекция "Taming the tiger" точно promo от Gong - они делают summarization телефонных разговоров в контексте бизнес-переговоров.
ChatGPT говорят хорош, но нестабилен, так что nlp engineers есть ещё чем заняться. Например, prompt engineering. И много чем ещё.
Ну может не promo, просто без огонька. И повторяет предыдущие лекции. Какой-то literature review.
Это должно было быть на industrial track, а не NLP
Fun fact: натренировать GPT-3 стоило 3 миллиона. А теперь можно за полмиллиона. Наверное.
Технион, если от него отдохнуть, производит довольно приятное впечатление.

no subject
Date: 2023-03-03 05:05 am (UTC)Да вроде и так неплохо с железом. Или ты имеешь в виду, что тогда NN всюду можно будет засунуть
no subject
Date: 2023-03-03 08:47 am (UTC)Ну да, чтобы железо не в шкаф влезало, а в спичечный коробок.