gianthare | AI and beyond

В продолжение записи про ChatGPT:

Сходил на конференцию по AI в Технионе. Там преобладает сдержанный оптимизм.

Первая лекция была про grounding, consistency и ещё что-то от чувака из Гугла - он говорит, что все будет. Причем, прямо с помощью тех же самых моделей — тренируем модели так, чтобы они вместе с генерированным текстом выдавали токен правда/вранье, точнее начинали прямо с него. А потом в промт пихаем слово «правда». Ну, неудивительво — у них LAMDA так устроена, трансформеры all the way down. Еще можно попросить модель выдавать сразу УРЛ, подтверждающий сгенерированный текст. Правда, иногда УРЛ она тоже выдумывает. Или можно сначала натягать результатов обычным поиском, а потом попроситъ модель их по-человечески перескажет (лучше всего). Для consistency можно еще одной моделью проверить сгенерированный результат. Например, просим нарисовать картинку с коровой и желтым котом, потом у другой модели спрашиваем, есть ли там кот.

Интересно, что выступающие не могут удержаться от того, чтобы обозначить свою позицию по поводу последних (политических) событий, несмотря на то что на общей сессии начали с предложения оставить политику за дверью. Панелисты, да и ведущая, на общей сессии тоже, разумеется, не удержались.

Вторая лекция:
Рассказывают, что натренированная NN внезапно может использоваться как модель мозга. Например, visual cortex. Можно в каком-то смысле найти соответствие в поведении (т.е. активности) межу нейронами в мозгу и в (предпосленем слое) NN при показе картинок. И соответствие тем лучше, чем точнее NN.
Прямо, full circle обратно в 60-ые.

Третья лекция от AI21 немного рекламная по-моему - мы очень крутые и хитрые. Все что раньше делали подходит к маленьким большим моделям, а большие большие модели сами справятся.

Но суть такая: можно взять LLM (точнее Giant LM) и приготовить ей хитрый промпт, или embedding и решить разные прлблемы, а именно grounding, long prompts и fine-tuning под разные domains без того чтобы перетренировывать модель или строить специализированную модель. Разные подходы к few-shot learning, так сказать.

На 4-ой лекции I lost it - очень много математики.
Сама проблема интересная: предположим мы обучаем экспертную систему, которая выписывает лекарства. И у нас есть много исторических данных. Но мы к сожалению знаем только, что случилось с больным, которому дали лекарство А, и не знаем чтобы было, если бы он получил лекарство Б. Плюс, мы знаем, что мы не видим всей информации, которой руководствовался врач.

Они пытаются оценить как оценить степень нашей неуверенности и учесть это при обучении.

И то же самое с автопилотом.

P.S. лектор выглядел и звучал так, будто у него должна быть кипа. Но нет

Пятая лекция "Taming the tiger" точно promo от Gong - они делают summarization телефонных разговоров в контексте бизнес-переговоров.

ChatGPT говорят хорош, но нестабилен, так что nlp engineers есть ещё чем заняться. Например, prompt engineering. И много чем ещё.

Ну может не promo, просто без огонька. И повторяет предыдущие лекции. Какой-то literature review.

Это должно было быть на industrial track, а не NLP

Fun fact: натренировать GPT-3 стоило 3 миллиона. А теперь можно за полмиллиона. Наверное.

Технион, если от него отдохнуть, производит довольно приятное впечатление.

А это я перед Таубом. На самом деле, я в очках, но они почему-то бликуют.

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Воинствующий агностик

Вы не знаете как правильно. Нет, я тоже не знаю. Нет, это не значит, что вы знаете как правильно.

AI and beyond

AI and beyond

no subject

no subject

Profile

March 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags