Дайджест:

📹 ВИДЕО + АРТ 🎨

FaceFusion: новый инструмент для создания дипфеков.

DenseDiffusion: метод позволяющий text-2-image моделям точнее следовать промту без переобучения.

Метод изменения освещения в NeRF-сценах.

🎸 ЗВУК 🎸

Google: через AudioLDM 2 теперь можно генерить звук с частотой 48 kHz.

VALL-E X: модель для клонирования голоса и мультиязычного text-2-speech перевода (английский, китайский, японский). Для клонирования голоса достаточно семпла в 3-10 секунд.

🤖 ЧАТЫ 🤖

WizardCoder-34B: генерим код на зафайнтюненой версии Code Lama 34B. Есть встроенная поддержка библиотеки Diffusers. На бенчмарках HumanEval показывает 73,2%, что лучше GPT 4 и Claude-2.

Phind: тоже зафайнтюнили эту CodeLama 34B, но они на HumanEval получили 69,5%.

HuggingChat: добавили поддержку Code Lama 34B Instruct для генерации кода.

Open Assistant CodeLama 13B SFT v10: зафайнтюненная версия OpenAssistant на CodeLama 13B тоже чтобы код генерить.

SoTaNa: ассистент в написании кода. SoTaNa использует ChatGPT для генерации высококачественных инструкций для разработки ПО, и отдаёт это команды на выполнение ламе.

Alibaba: выпустили Qwen-VL, визуальную языковую модель (VLM) для чата по картинкам.

Dolma: датасет из 3Т токенов разного контента (академические доки, код, книги, энциклопедии).

Nougat: визуальный трансформер, который делает распознавание PDF и переводит данные в маркап.

💬  Делайте выжимки из доков и чатьтесь по ним с помощью Claude

От Neuro

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.