Урок 16. Промпты с изображениями, PDF и файлами
Современные AI-модели работают не только с текстом, но и с изображениями, PDF, аудио и видео. Большинство пользователей ещё не используют эту возможность полностью. Умение правильно составлять промпты с вложенными файлами — это серьёзное преимущество.
Разбор темы
Мультимодальный промптинг — это отправка модели текста вместе с другими форматами (изображение, документ, аудио). GPT-4o, Claude и Gemini принимают такие запросы.
Фото продукта, рабочий документ, скриншот, PDF договора, схема — их можно загрузить и анализировать. Но то, что модель умеет 'видеть', не значит, что она видит всё правильно.
Важно: как спросить, на что обратить внимание и что не нужно предполагать — всё это влияет на результат. 'Проанализируй изображение' работает хуже, чем конкретный вопрос.
Большинство моделей принимают несколько изображений в одном диалоге. Нумеруйте их и ссылайтесь на каждое отдельно — это повышает точность.
Что вы получите из урока
- знать, как писать промпты с прикреплёнными изображениями и документами
- применять правильную структуру мультимодального промпта
- работать с фото продуктов, договорами и дизайн-файлами
- знать ограничения: что модель может не увидеть
План урока
Что такое мультимодальность?
Возможность отправлять вместе с текстом изображения, PDF, аудио или видео. GPT-4o, Claude и Gemini поддерживают такие запросы.
Конкретный вопрос к изображению
Не 'проанализируй изображение', а конкретный вопрос: 'На какой сегмент аудитории рассчитана упаковка?' — это даёт лучший результат.
Работа с документами и PDF
Загрузите договор, отчёт или презентацию и задайте конкретный вопрос. Модель прочитает весь документ и извлечёт нужную информацию.
Что модель может не увидеть
Очень мелкий текст, низкое качество изображения, рукописные заметки — модели иногда их пропускают. Используйте инструкцию 'если неясно — скажи мне'.
Слабый и сильный prompt
Проанализируй это изображение.
Ты специалист по UX в e-commerce. По карточке товара на изображении: 1) определи основные UX-недостатки; 2) дай 3 рекомендации по улучшению конверсии; 3) оцени цвета и типографику. Опирайся только на то, что видишь.
Второй промпт задаёт роль, конкретный список задач и запрещает домысливать. Результат — структурированный и полезный анализ.
Готовый prompt-шаблон
Копируйте и адаптируйте[Изображение или документ прикреплён]. Ты [роль]. По этому [изображению/документу/файлу] выполни следующее: 1) [первая задача]; 2) [вторая задача]. Опирайся только на то, что видишь или читаешь — если что-то неясно, скажи мне. Формат ответа: [нужный формат].
Почему это работает
Прикрепить изображение недостаточно. Нужно чётко указать, что именно модель должна увидеть и проанализировать.
Для документа формулируйте конкретный вопрос: 'Каковы сроки оплаты в этом договоре?' работает лучше, чем 'Проанализируй договор'.
Инструкция 'опирайся только на то, что видишь' защищает от домысливания и повышает достоверность ответа.
При работе с несколькими изображениями нумеруйте их и обращайтесь к каждому: 'на первом изображении', 'на втором изображении'.
Практика
- Найдите изображение или скриншот, связанный с вашей работой.
- Отправьте его в ChatGPT или Claude с запросом 'Проанализируй изображение' и запишите ответ.
- Отправьте то же изображение с 3 конкретными вопросами.
- Сравните оба ответа и оцените разницу от конкретной формулировки.
Мини-проект
Мини-проект: анализ документа или изображения
Возьмите рабочий документ, договор или фото продукта и проведите полный анализ с помощью AI.
Что сделать
- Выберите документ или изображение для анализа.
- Сформулируйте 3 конкретных вопроса: что именно нужно узнать.
- Загрузите в ChatGPT или Claude и задайте эти вопросы.
- Проверьте результат: что модель увидела правильно, что пропустила.
Что должно получиться
- анализируемый документ или изображение
- 3 вопроса и ответы AI
- оценка точности: что верно, что нет
Checklist
Частые ошибки
- общий запрос 'проанализируй изображение' — модель не знает, что именно важно
- ожидать от модели того, чего она не видит: мелкий текст, низкое качество изображения
- не добавлять контекст к изображению
- загружать много изображений без конкретного вопроса к каждому
Вопросы по уроку
Все ли модели умеют работать с изображениями?
Нет. GPT-4o, Claude 3 и Gemini Pro поддерживают изображения. Старые модели и текстовые модели этого не умеют.
Можно ли загружать PDF напрямую?
Claude и Gemini принимают PDF напрямую. В ChatGPT PDF можно вставить как текст или загрузить через Code Interpreter.