Видео-из-текста: как SORA может применяться в здравоохранении

Видео-из-текста: как SORA может применяться в здравоохранении

23 Apr 2024
87

Недавно компания OpenAI представила Sora — новую модель искусственного интеллекта (ИИ), способную генерировать короткие видеоролики на основе текстовых подсказок.

В настоящее время Sora недоступна для широкой публики и проходит стресс-тестирование для противодействия возможным недобросовестным действиям.

Sora — не единственный анонсированный ИИ-генератор, способный преобразовывать текст в видео, и подобные технологии могут быть применены в здравоохранении, но при этом вызовут новые опасения.

Способность создавать видеоролики из простого текста, несомненно, будет иметь последствия для кинематографа и рекламной индустрии. Это также заставляет нас задуматься о возможных последствиях ее применения в медицине и здравоохранении, когда она станет общедоступной в конце этого года.

Когда OpenAI впервые публично представила Sora в начале 2024 года, они описали ее как "модель ИИ, способную создавать реалистичные и фантастические сцены из текстовых инструкций". Это не было гиперболой, поскольку продемонстрированные ролики были не так уж далеки от реалистичности. Отличительной чертой Sora является то, что она понимает как подсказку, так и то, как элементы выходных данных должны взаимодействовать в физическом мире.

С технической точки зрения, Sora — это диффузионная модель, созданная на основе исследований OpenAI в области моделей DALL-E и GPT. Она способна интерпретировать вводимый текст и выдавать убедительные видеоролики длительностью до 60 секунд. Она генерирует ролик, начиная работу с создания "зашумленного" ролика со статичными элементами и постепенно удаляя этот шум.

OpenAI признает, что ее модель имеет некоторые недостатки. Например, она может не справляться со сложными сценами, точными описаниями и пространственными элементами (например, перепутать левое и правое). Необходимость дальнейшей доработки модели, вероятно, является одной из причин того, что Sora не находится в открытом доступе.

От текста к адаптированным видеороликам о здравоохранении

Хотя Sora еще не доступна для широкой публики, а другие модели преобразования текста в видео еще не нашли применения в здравоохранении, стоит задуматься о потенциале таких технологий в контексте здравоохранения. У системы существуют следующие потенциальные возможности.

  1. Обучение и ведение пациентов
    Благодаря возможности создавать реалистичные видеоролики медицинские работники смогут помочь пациентам лучше понять свое состояние. В видеороликах можно показать прогрессирование заболевания и влияние адекватного приема лекарств и изменения образа жизни. Такой инструмент может способствовать соблюдению пациентами режима лечения и повышению их медицинской грамотности. Кроме того, пациенты и их врачи могут создавать видеоролики, чтобы разработать подходящий "маршрут" лечения, который будет соответствовать индивидуальному графику пациентов.

    Например, можно создать новое видео, чтобы проинструктировать пациента о том, как правильно выполнять упражнения, рекомендованные физиотерапевтом, или как использовать персональную систему контроля здоровья в домашних условиях.
  2. Учебные материалы для медиков
    Создание видеороликов может помочь в обучении медицинских работников. С помощью таких визуализаций обучающиеся могут лучше понять редкие заболевания, представить сложные процедуры и даже смоделировать сложные условия.

Это всего лишь два примера, но реальные варианты использования могут быть ограничены только творческим потенциалом человека. Вполне вероятно и другое применение видео, созданных ИИ, — от визуализации результатов ученых до наглядных пособий для студентов-медиков.

Проблемы, связанные с видеороликами, создаваемыми искусственным интеллектом

Несмотря на то, что результаты работы генераторов, преобразующих текст в видео, потенциально могут улучшить практику и оказание медицинской помощи, они также, несомненно, приведут к возникновению некоторых проблем. Такие инструменты ИИ опираются на обучающие данные, и для создания релевантных с медицинской точки зрения видеороликов их придется обучать на аналогичном контенте. Это может вызвать вполне обоснованные опасения по поводу конфиденциальности информации о пациентах. Большинство людей не будут легкомысленно относиться к тому, что их снимают на видео во время медицинской консультации или операции только для того, чтобы это видео использовалось для обучения искусственного интеллекта.

Кроме того, с легкостью создания реалистичных видеороликов возрастает риск появления дезинформационного контента. В контексте здравоохранения это может привести к непоправимым последствиям, если пациенту будет предоставлена неверная информация о его состоянии. Одним из решений может стать интеграция водяных знаков, видимых или встроенных в метаданные, в видео, созданные ИИ.

Подобные опасения, хотя в настоящее время и носят спекулятивный характер, заслуживают нашего внимания. Поскольку в этом году ожидается появление Sora от OpenAI, аналогичные инструменты, скорее всего, последуют за ней. Индустрия здравоохранения должна быть готова не только рассмотреть возможности таких инструментов, но и противостоять их вызовам.