Урок 16 / 18Модуль 5. Продвинутые техникиПодробный урок

Academy/Урок 16. Промпты с изображениями, PDF и файлами

Средний19 минут

Урок 16. Промпты с изображениями, PDF и файлами

Современные AI-модели работают не только с текстом, но и с изображениями, PDF, аудио и видео. Большинство пользователей ещё не используют эту возможность полностью. Умение правильно составлять промпты с вложенными файлами — это серьёзное преимущество.

Разбор темы

Мультимодальный промптинг — это отправка модели текста вместе с другими форматами (изображение, документ, аудио). GPT-4o, Claude и Gemini принимают такие запросы.

Фото продукта, рабочий документ, скриншот, PDF договора, схема — их можно загрузить и анализировать. Но то, что модель умеет 'видеть', не значит, что она видит всё правильно.

Важно: как спросить, на что обратить внимание и что не нужно предполагать — всё это влияет на результат. 'Проанализируй изображение' работает хуже, чем конкретный вопрос.

Большинство моделей принимают несколько изображений в одном диалоге. Нумеруйте их и ссылайтесь на каждое отдельно — это повышает точность.

Что вы получите из урока

знать, как писать промпты с прикреплёнными изображениями и документами
применять правильную структуру мультимодального промпта
работать с фото продуктов, договорами и дизайн-файлами
знать ограничения: что модель может не увидеть

План урока

Что такое мультимодальность?

Возможность отправлять вместе с текстом изображения, PDF, аудио или видео. GPT-4o, Claude и Gemini поддерживают такие запросы.

Конкретный вопрос к изображению

Не 'проанализируй изображение', а конкретный вопрос: 'На какой сегмент аудитории рассчитана упаковка?' — это даёт лучший результат.

Работа с документами и PDF

Загрузите договор, отчёт или презентацию и задайте конкретный вопрос. Модель прочитает весь документ и извлечёт нужную информацию.

Что модель может не увидеть

Очень мелкий текст, низкое качество изображения, рукописные заметки — модели иногда их пропускают. Используйте инструкцию 'если неясно — скажи мне'.

Слабый и сильный prompt

Слабый prompt

Проанализируй это изображение.

Сильный prompt

Ты специалист по UX в e-commerce. По карточке товара на изображении: 1) определи основные UX-недостатки; 2) дай 3 рекомендации по улучшению конверсии; 3) оцени цвета и типографику. Опирайся только на то, что видишь.

Второй промпт задаёт роль, конкретный список задач и запрещает домысливать. Результат — структурированный и полезный анализ.

Готовый prompt-шаблон

Копируйте и адаптируйте

[Изображение или документ прикреплён]. Ты [роль]. По этому [изображению/документу/файлу] выполни следующее: 1) [первая задача]; 2) [вторая задача]. Опирайся только на то, что видишь или читаешь — если что-то неясно, скажи мне. Формат ответа: [нужный формат].

Почему это работает

Прикрепить изображение недостаточно. Нужно чётко указать, что именно модель должна увидеть и проанализировать.

Для документа формулируйте конкретный вопрос: 'Каковы сроки оплаты в этом договоре?' работает лучше, чем 'Проанализируй договор'.

Инструкция 'опирайся только на то, что видишь' защищает от домысливания и повышает достоверность ответа.

При работе с несколькими изображениями нумеруйте их и обращайтесь к каждому: 'на первом изображении', 'на втором изображении'.

Практика

Найдите изображение или скриншот, связанный с вашей работой.
Отправьте его в ChatGPT или Claude с запросом 'Проанализируй изображение' и запишите ответ.
Отправьте то же изображение с 3 конкретными вопросами.
Сравните оба ответа и оцените разницу от конкретной формулировки.

Мини-проект

Мини-проект: анализ документа или изображения

Возьмите рабочий документ, договор или фото продукта и проведите полный анализ с помощью AI.

Что сделать

Выберите документ или изображение для анализа.
Сформулируйте 3 конкретных вопроса: что именно нужно узнать.
Загрузите в ChatGPT или Claude и задайте эти вопросы.
Проверьте результат: что модель увидела правильно, что пропустила.

Что должно получиться

анализируемый документ или изображение
3 вопроса и ответы AI
оценка точности: что верно, что нет

Checklist

✓Изображение или документ чётко загружены?

✓Задан конкретный вопрос или задача?

✓Добавлена инструкция 'опирайся только на то, что видишь'?

✓Указан формат ответа?

✓Проверены ли неточности в ответе модели?

Частые ошибки

общий запрос 'проанализируй изображение' — модель не знает, что именно важно
ожидать от модели того, чего она не видит: мелкий текст, низкое качество изображения
не добавлять контекст к изображению
загружать много изображений без конкретного вопроса к каждому

Вопросы по уроку

Все ли модели умеют работать с изображениями?

Нет. GPT-4o, Claude 3 и Gemini Pro поддерживают изображения. Старые модели и текстовые модели этого не умеют.

Можно ли загружать PDF напрямую?

Claude и Gemini принимают PDF напрямую. В ChatGPT PDF можно вставить как текст или загрузить через Code Interpreter.

Следующий шаг

Предыдущий урокУрок 15. Какую AI-модель выбрать для задачи?Следующий урок: Урок 17. Агентный ИИ: многошаговые задачи