Итоги недели в мире ИИ и обзоры новых сервисов: новый чип LPU от Groq в 12.5 раз быстрее GPU от NVIDIA
Привет!
Мы запустили еженедельную email-рассылку, посвященную последним новостям и тенденциям в мире искусственного интеллекта. Наша цель – держать подписчиков в курсе самых интересных открытий, исследований и приложений ИИ.
В еженедельных письмах ты найдешь:
- Новости о прорывных исследованиях в области машинного обучения и нейросетей.
- Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
- Статьи об этических аспектах развития технологий.
- Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
- Обзоры инструментов и библиотек для разработки нейронных сетей.
- Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
- Фильмы, сериалы и книги, которые заслуживают внимания AI энтузиастов.
? Подписаться на рассылку
Reddit продала Google право на использование своего контента за $60 млн в год; Adobe добавила ИИ-ассистента в ПО для работы с PDF; Модель стартапа Magic демонстрирует недоступный ранее уровень логики.
? Новости
Платформа Reddit в очередной раз подтвердила тезис о том, что данные – это новая нефть, и продала Google право на использование своего контента за $60 млн в год.
Тестировщики сенсационной модели Sora (OpenAI) слегка охладили всеобщие восторги – оказывается, генерация 1 минуты видео занимает более 1 часа.
Компания Groq (не путать с чат-ботом Илона Маска Grok) выпустила новый чип LPU (Language Processing Unit), кастомный ASIC, который обеспечивает феноменально высокую скорость работы с большими языковыми моделями. Оценить производительность можно на сайте компании: чат-бот Groq, работающий на собственном железе, генерирует в среднем 500 токенов в секунду, в то время как ChatGPT-3.5 на GPU выдает не больше 40.
Adobe добавила ИИ-ассистента в ПО для работы с PDF – Reader и Acrobat . ИИ отвечает на вопросы по содержимому файлов, выполняет суммаризацию и интеллектуальный поиск, делает отчеты, пишет эссе, рефераты и имейлы. Помимо PDF, ассистент работает с любыми другими офисными документами, презентациями и транскриптами.
Компания 1X опубликовала записанное в январе видео, демонстрирующее возможности автономных андроидов EVE. По утверждению разработчиков, роботы способны обучаться выполнен
Стартап Magic, работающий над созданием полностью автоматического ИИ-генератора кода, преодолел очередной барьер: модель поддерживает гигантский объем контекста (3,5 млн токенов) и демонстрирует недоступный ранее уровень логики. Стартап пополняет свою команду ведущими специалистами из GitHub, и успешно привлекает внушительные инвестиции ($117 млн на прошлой неделе). Кажется, Copilot скоро придется потесниться.
Google выпустила набор опенсорсных моделей Gemma (2В и 7В), которые по нескольким бенчмаркам превосходят модели Mistral и Llama 2*. Протестировать модели Gemma можно на Hugging Face . Кроме того, Google открыла доступ к Gemini Advanced. Результаты тестирования показывают, что модель пока еще не может сравниться с ChatGPT-4: у Gemini Advanced по-прежнему есть проблемы с логическими рассуждениями, подсчетом предметов, решением задач, написанием качественных текстов, и странной зацикленностью на ломтиках фруктов.
? Инструменты
Zenfetch Personal AI – создает ИИ-ассистента и личную интерактивную базу знаний на основе любого сохраненного из веба контента – статей, PDF-файлов, фото и YouTube-видео.
Retell AI – голосовой API для LLM.
Retool Forms – создает кастомные формы любой сложности и подключает их к любым локальным или облачным базам данных. Создает CRUD в один клик, предоставляет дашборды для обработки и визуализации данных.
AdGen – генератор рекламных креативов.
NotesOllama – позволяет использовать локально установленную LLM в Apple Notes. Работает на macOS.
Sheet Savvy AI – ассистент для работы с данными в таблицах Google Sheets.
Swizzle – браузерный ИИ-конструктор фуллстек-приложений: сделает бэкенд, фронтенд, авторизацию и базу данных.
Lexica Aperture – генератор реалистичных 4k/8k изображений.
Промпт: A cute cat pilot wearing aviator outfit, 4k, detailed background, cinema 4d
GigaBrain – мощный ИИ-поисковик: 1) найдет максимально релевантный и полезный ответ на ваш вопрос, сканируя дискуссии на самых популярных площадках; 2) покажет профили самых авторитетных пользователей, который разбираются в этой теме; 3) сгенерирует собственный ответ.
Пример собственного ответа GigaBrain
Rio – персональный репортер: приносит новости из надежных источников, и только на интересные вам темы. Билл Гейтс рекомендует.
Melon – верный помощник в изучении чего угодно: станет копией вашего мозга, потому что одна голова – хорошо, а две – лучше. Работает на iOS.
Shortwave – поможет автоматизировать работу с объемной корреспонденцией:
- ответит на имейлы, имитируя ваш стиль (на любом языке);
- составит расписание встреч; проанализирует документы, на которые ссылаются авторы сообщений;
- подготовит нужные отчеты.
Похожие на Shortwave ИИ-ассистенты для работы с почтой – Superhuman и Emails Copilot.
Shortwave разберется со всеми коммуникациями
MagiScan – создает реалистичные 3D-модели объектов, используя смартфон в качестве сканера.
Kippy AI – ИИ-репетитор: поможет освоить 10 иностранных языков. Корректирует произношение, предлагает интересные темы для практики, контролирует прогресс.
Cliptics – реалистично озвучивает текст, при необходимости – делает перевод на любой из 30+ языков.
? Сделай сам
Распознавание голоса и извлечение ключевых действий
Автор статьи подробно рассказал о процессе создания NotesGPT – веб-приложения для работы с голосовыми заметками и сделанными на их основе списками дел:
- Для создания приложения использованы фреймворк Next.js и база данных Convex, а для аутентификации пользователей разработчик интегрировал систему Clerk.
- Для распознавания речи используется модель Whisper через сервис Replicate.
- Полученная из аудио текстовая транскрипция отправляется в модель Mixtral через Together.ai для создания краткого содержания заметки, заголовка и списка ключевых действий. Для векторного поиска по транскриптам используются эмбеддинги, созданные на Together.ai.
В итоге получается вот такое приложение
Локальный ИИ-копирайтер на базе Ollama
В этой статье описан процесс создания локального помощника для генерации технических текстов с помощью Ollama. Ollama – это платформа для создания и локального запуска языковых моделей, по умолчанию использует Llama 2* . Автор проекта выполнил тонкую настройку Llama 2*, чтобы модель писала тексты в нужном стиле (для айтишного блога), и сделал простой интерфейс на Vue.js.
Готовый ИИ-генератор постов для блога
Видеотуториал продемонстрирует процесс создания кастомного чат-бота на базе Langchain, Streamlit и OpenAI API. В результате получается мощный и реально полезный бот, и в то же время проект отлично подходит для начинающих разработчиков, поскольку вся сложная логика в нем выполняется с помощью готовых инструментов. Исходный код приложения – в репозитории проекта.
* Llama 2 – продукт компании Meta, деятельность которой признана экстремистской и запрещена на территории РФ.