Сегодня я расскажу Вам о том, о чем большинство людей не знает или над чем серьезно не задумывается – о метаданных. Это информация о файле (не отображается в файле). Метаданные могут превратить обычный цифровой документ в источник очень «полезной» информации для преступников.
Что такое метаданные документа
Начнем с теории. Выделяются три категории метаданных:
- Метаданные приложения добавляются в файл через приложение, которое использовалось для создания данного документа. Содержат информацию о правках, внесенных пользователем, в том числе журналы изменений и комментарии.
- Метаданные системы содержат информацию об имени автора, имени и размере файла, а также изменениях и т.д.
- Встроенные метаданные могут быть формулами в ячейках Excel, гиперссылками и файлами, связанными с документом. К этой категории относятся также метаданные EXIF, характерные для графических файлов.
Классический пример проблем, которые может вызвать утечка метаданных, подготовленный в 2003 году отчет британского правительства о предполагаемом наличии оружия массового поражения в Ираке. Отчет в формате .doc содержал метаданные об авторе (а говоря точнее: об авторах последних 10 изменений). Эти сведения вызвали некоторые сомнения в качестве, подлинности и достоверности отчета.
Как позже отметило BBC, из-за публикации метаданных оригинального файла правительство решило использовать версию pdf-отчета, который содержит гораздо меньше информации.
20 миллионов долларов за (созданный) файл
Другой интересный случай, который затронул вопрос использования метаданных, касался клиентов американской юридической фирмы, Venable, в 2015 году. Незадолго до событий Venable сообщала, что вице-президент компании отказался от своих функций. Вскоре после его ухода эта компания потеряла договор с государственной организацией в пользу её конкурента – в которой работал бывший вице-президент.
Компания обвинила бывшего вице-президента в нарушении коммерческой тайны, утверждая, что таким образом он выиграл тендер на соглашение с правительством. В качестве доказательства в рамках защиты ответчик и его новая компания представили подробное коммерческое предложение, подготовленное для иностранного правительства. По их словам, оно было подготовлено для другого клиента перед подписанием договора с США.
Однако, обвиняемые не приняли во внимание то, что в метаданных их доказательств находится тег времени. Согласно метаданным файл был сохранен в последний раз перед последней печатью, что, как подтвердил эксперт, не могло произойти. Метка времени последней печати относится к группе метаданных приложения и сохраняется в документе только тогда, когда сохраняется сам файл. Если документ будет напечатан и не будет позже сохранен, новая дата печати не сохраняется в метаданных.
Ещё одним доказательством фальсификации этого документа была дата его создания на официальном сервере: по ней этот документ был создан после подачи искового заявления в суд. Более того, обвиняемого обвинили в манипуляциях с маркером времени последнего редактирования файлов .olm (это расширение используется для файлов Microsoft Outlook на Mac).
Доказательства в виде метаданных были для суда достаточными, чтобы вынести решение в пользу истцов, которым, в конечном счете, присудили сумму в размере 20 миллионов долларов. В свою очередь, на обвиняемых были наложены дополнительные миллионы в рамках санкций.
Скрытые файлы в документах
Файлы пакета Microsoft Office предлагают богатый набор инструментов для сбора личных данных. Например, сноски текста, могут содержать дополнительную информацию, не предназначенную для публичного использования. Встроенная в Word функция отслеживания изменений может быть использована, чтобы шпионить за пользователем. Хотя при выборе Показать окончательную версию (в зависимости от версии Word) отслеживание изменений исчезнет с экрана, но останется в файлах, ожидая какого-то аккуратного пользователя.
Кроме того, стоит знать также о заметках к слайдам в презентации Power Point или скрытых столбцах в таблицах Excel.
Попытки сокрытия данных о документе, если нет соответствующего опыта в этой области, могут не принести желаемого результата. Прекрасным примером здесь является судебный документ, опубликованный на сайте CBSLocal, описывающий дело между Соединенными Штатами и Родом Благовичем, бывшим губернатором штата Иллинойс.
Некоторые фрагменты текста были покрыты черными полосками. Однако, если скопировать и вставить текст в любую программу редактирования текста, то прочитать его можно в полном объеме.
Черные поля в PDF-файле удобно использовать для сокрытия информации при печати, однако в цифровом формате, их можно успешно обойти
Файлы в файлах
Данные из внешних файлов, встроенных в документе, это совсем другая история.
Чтобы привести пример из жизни, мы направились на веб-сайты правительств (это те, что с расширением .gov) и мы выбрали отчет налогового Департамента Образования США за 2010 финансовый год.
Мы загрузили файл и отключили защиту Только для чтения (что не требовало пароля). На странице номер 41 находится схема. С помощью её контекстного меню Изменить данные, мы добрались до заключенного в нём исходном файла Microsoft Excel, содержащего все исходные данные.
Встроенные файлы могут содержать много информации, в том числе частных. Можно предположить, что человек, который опубликовал этот документ, не ожидал что эти данные будут доступны.
Урожай метаданных
Процесс сбора метаданных из документов, относящихся к конкретной организации, может быть автоматизирован с помощью таких программ, как FOCA компании ElevenPaths (Fingerprinting Organizations with Collected Archives).
Программа FOCA может найти и скачать нужные форматы документов (например .docx и .pdf), проанализировать их метаданные и найти много информации об организации, например, какое программное обеспечение на стороне сервера используется, каковы имена пользователей и т.д.
В этом месте следует напомнить, что анализ сайтов с помощью таких инструментов, даже для исследований, может быть признан владельцем сайта в качестве кибератаки.
Странности в документах
Вот несколько необычных фактов, связанных с метаданными, о которых не знают многие ИТ-специалисты.
Возьмем под лупу файловую систему NTFS операционной системой Windows.
- Факт 1. Если вы удалите файл из папки и сразу же сохраните новый файл с тем же именем в той же папке, дата его создания будет такой же, как и дата удаленного файла.
- Факт 2. Помимо других метаданных, NTFS сохраняет дату последнего открытия файла. Однако, если открыть файл и проверить в его свойствах время последнего открытия, дата будет такой же.
Вы, наверное, думаете, что это только ошибки. Нет ничего более далекого от истины, это функции документа. В первом случае мы говорим о механизме туннелирования, который обеспечивает обратную совместимость. По умолчанию, этот эффект длится в течение 15 секунд, в это время новый файл получает метку времени создания такую же, как предыдущий файл (этот интервал времени можно изменить в настройках системы или полностью отключить туннелирование в реестре).
Если речь идёт о втором случае, начиная с Windows 7, для улучшения производительности, компания Microsoft отключила автоматическую маркировку времени в отношении последнего открытия файла. Эту функцию можно включить в реестре. Однако, тогда вы не сможете перевернуть этот процесс, чтобы исправить проблему; файловая система не хранит правильных меток времени (как доказал редактор жесткого диска, дающий доступ на низком уровне).
Пользуясь случаем, добавлю, что метаданные файлов можно изменить, используя стандартные приложения операционной системы и специальные программы. К тому же метаданные не могут быть доказательством в суде.
Метаданные: как обеспечить себе безопасность
Встроенная в Microsoft Office функция называется Проверка документа (в Word 2016 находится она в меню Файл → Сведения → Аудит документа) отображает данные, которые находятся в файле. В определенной степени эти данные можно удалить по запросу, однако, данные остаются встроенными (как в отчете Департамента Образования, приведенном выше). Пользователи заботиться об этом вопросе при вставке диаграмм и графиков.
Программа Adobe Acrobat также обеспечивает возможность удаления метаданных из файлов.
В любом случае, утечки должны предотвращать программы следящие за безопасностью. Идеальный метод (читай: недостижимый), гарантирующий полную защиту от утечек – подготовка ответственного, сознательного и хорошо обученного коллектива сотрудников.