Что такое метаданные файлов и как редактировать их в Windows 7 и Windows 8. Что хранится в метаданных файла.

Содержание

Такой файл, в отличие от торрента, содержит информацию, связанную с человеком, и поэтому не требует пояснений: вы можете открыть его в любое время и посмотреть, на что он ссылается, а также найти его в Google, просто выбрав соответствующую команду из контекстного меню файла.

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Чем больше ваш медиафайл, тем сложнее в нем ориентироваться. Как быстро найти нужную фотографию среди тысяч похожих? Как вы можете выделить работу конкретного сотрудника из массы контента? Как можно найти фотографии сотрудника-ветерана Петрова А.И. на снимках позапрошлого года, когда в компании работает более 50 000 человек?

Система DAM решает все эти проблемы поиска, и основой этого решения являются метаданные. Сегодня мы подробно поговорим о том, какую информацию содержат ваши изображения и как ее использовать.

Что такое метаданные? Какие форматы метаданных существуют?

Метаданные обычно определяются как «данные, предоставляющие информацию о других данных» (Википедия). То есть это набор информации, который содержит фактический медиа-актив (изображение, видео или другой файл).

Изображения без метаданных не имеют практической ценности: трудно быстро найти нужный файл в большом архиве, не ясен контекст (что, где, когда), нет информации о том, можно ли законно использовать контент и так далее.

Когда пользователи понимают, что поля метаданных каждого файла должны содержать большое количество информации, возникает опасение, что они «утонут» в этих процессах: Работа по описанию, маркировке и заполнению полей данных игнорируется — в результате вместо полноценной электронной библиотеки получается беспорядочный набор файлов и папок.

Однако при профессиональном подходе и наличии необходимых инструментов обогатить изображения метаданными гораздо проще, чем вы думаете. Давайте сначала разберемся, что такое метаданные.

Часть работы по описанию файлов выполняется в электронном виде. Например, камера автоматически предоставляет метаданные EXIF.

EXIF — Exchangeable Image File Format — это стандарт, используемый по умолчанию в большинстве цифровых камер и широко поддерживаемый. Он предназначен для файлов изображений JPEG, RAW и TIFF. Первая версия EXIF была представлена в 1995 году Японской ассоциацией развития электронной промышленности (JEIDA). Стандарт, разработанный JEIDA, впоследствии был принят во всем мире.

Для просмотра данных EXIF достаточно открыть свойства любой фотографии на компьютере с ОС Microsoft:

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Время и дата в Настройках камеры.

Одним из наиболее важных полей метаданных EXIF является «Дата создания». :

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Параметры съемки в метаданных EXIF:

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Поля, которые входят в состав метаданных EXIF (с примерами):

  • Производитель — производитель камеры (Canon),
  • Модель — модель камеры (600d),
  • Программное обеспечение — программное обеспечение ( v 1.01 ),
  • Дата и время — дата и время ( 2020:08:11 17:32:40 ),
  • Позиционирование YCbCr — позиционирование YCbCr, цветовое пространство изображения (в центре),
  • Compression — сжатие, формат файла ( JPEG ),
  • X-разрешение — разрешение оси X ( 72.0 ),
  • Y-разрешение — Y-разрешение ( 72.0 ),
  • Единица разрешения — единица разрешения (дюймы),
  • Время экспозиции — выдержка ( 1/659 с),
  • F-номер — диафрагма (f/4.0),
  • Версия Exif (2.1),
  • ISO — ISO ( ISO-100 ),
  • искажение экспозиции (шаг 0),
  • Режим замера экспозиции: Замер экспозиции (по шаблону),
  • Сжатые биты на пиксель ( 4.01 ),
  • Вспышка (без вспышки),
  • Фокусное расстояние (50 мм),
  • Цветовое пространство — Цветовое пространство (SRGB),
  • Pixel X Dimension — Размер оси X в пикселях ( 2240 ),
  • Pixel Y Dimension — размер в пикселях по оси Y ( 1680 ),
  • Баланс белого ( Авто );; Баланс белого ( Авто ),
  • GEO latitude — Геолокация, широта ( 36; 6; 48.360000589 ),
  • GEO longitude — геолокация, долгота ( 115; 10; 20.72999999999999981 ).

Вовсе нет, просто используйте профессиональные инструменты для редактирования изображений, такие как программное обеспечение DAM, Adobe Bridge или аналогичные программы. С помощью этой программы можно изменять метаданные сразу для нескольких фотографий или создавать шаблоны по мере необходимости.

Например, если фотограф знает, что завтра он будет снимать матч ЖСКА-Интер, он может заранее подготовить шаблон:

  • Название : Матч ЦСКА — Интер
  • Описание : 20.03.2019 Матч чемпионата УЕФА сезона 2018-2019, стадион «Спартак», победа «Интера» 1:0.
  • Ключевые слова : футбол, спорт, УЕФА, чемпионат УЕФА, ЦСКА, Интер, 2018-2019.

Имея такой шаблон, фотограф может описать сотни изображений в течение нескольких секунд после совпадения.

Что такое метаданные и как они облегчают работу с файлами в цифровом архиве

Метаданные в Adobe Bridge

Конечно, подробное описание кадра может занять больше времени, но основная информация для профессионального использования и поиска доступна сразу после загрузки изображений. Описать фотографии с большим количеством людей может быть непросто, но эту задачу можно автоматизировать с помощью искусственного интеллекта. Обогащение метаданных с помощью технологий искусственного интеллекта является современной тенденцией. Эти технологии могут распознавать лица, объекты, числа на изображении, местоположение и т.д. и переводить текстовые описания на другие языки.

Описание метаданных с использованием установленных процедур и профессиональных инструментов не занимает много времени.

Такой файл, в отличие от торрента, содержит информацию, связанную с человеком, и поэтому не требует пояснений: вы можете открыть его в любое время и посмотреть, на что он ссылается, а также найти его в Google, просто выбрав соответствующую команду из контекстного меню файла.

Что такое метаданные файлов и как редактировать их в Windows 7 и Windows 8

Что такое метаданные файлов и как редактировать их в Windows 7 и Windows 8

Немногие пользователи знают, что для каждого файла, хранящегося на их компьютере, существует набор метаданных, которые, в зависимости от типа файла, содержат информацию об источнике, создателе и другие важные детали. В этой статье я расскажу о метаданных и объясню, что это такое и для чего они используются. Затем я объясню, как можно добавлять и удалять метаданные. Приведенная выше информация относится ко всем версиям Windows.

Большинство файлов имеют свой собственный набор метаданных, но зачастую их можно изменить только с помощью специального программного обеспечения сторонних производителей. Хотя метаданные в файлах Office (Word, Excel, PowerPoint) довольно легко редактировать. Чтобы получить доступ и просмотреть метаданные одного из этих файлов, сначала откройте контекстное меню, щелкнув правой кнопкой мыши и выбрав «Свойства».

Откроется окно со свойствами файла. В этом окне откройте вкладку «Подробности». Здесь вы увидите список полей с информацией о файле: например, имя его создателя, когда он был создан или изменен, или даже сколько слов и символов он содержит.

Некоторые из этих полей можно редактировать. Для этого просто наведите указатель мыши на поле, которое вы хотите изменить, и введите то, что вам нужно. Если вы хотите, чтобы эти поля оставались пустыми, просто удалите то, что вы в них написали.

После завершения нажмите на кнопку «OK» в нижней части окна.

С другой стороны, если вы работаете в юридической сфере или просто хотите сохранить конфиденциальность, при передаче файлов другому лицу следует удалять как можно больше информации, поскольку метаданные следуют за этими файлами, куда бы они ни попали.

Дата изменения

Дата модификации показывает, когда файл был изменен в последний раз — что-то было добавлено или удалено. Это хороший способ узнать, изменил ли кто-то файл с момента его создания.

  Как посмотреть понравившееся в ВК (Записи, Фото, Публикации, Видео). Как найти видео в вк?

7 неочевидных свойств файла, которые могут многое рассказать 7 неочевидных свойств файла, которые могут многое рассказать

Дата последнего доступа к файлу

Это свойство легко увидеть в Windows. Он показывает, когда файл был открыт в последний раз, не обязательно когда он был изменен. Windows сохраняет факт того, что она была открыта.

Допустим, вы наняли человека для анализа данных о продажах за прошлый год и создания на их основе отчета. Оригинальные файлы находятся на сервере Windows, к которому все сотрудники имеют удаленный доступ. Через два дня вы получаете папку, в которой явно ошибка в данных. Вы заходите на сервер, находите исходные файлы и смотрите на дату последнего обращения к ним. Если они имеют давность более нескольких дней, то сотрудник вообще не открывал их.

7 неочевидных свойств файла, которые могут многое рассказать

Кто автор или владелец файла

Многие офисные программы добавляют в свойства файла имя автора или владельца документа. Они получают его из своих настроек (если кто-то ввел его при установке) или из зарегистрированного в системе имени пользователя.

Многие забывают об этом параметре, а зря. Были случаи, когда иностранные агентства размещали на своих сайтах, казалось бы, простые документы или заявления, а другие спецслужбы использовали данные владельца, чтобы выследить автора документа и попытаться завербовать его.

7 неочевидных свойств файла, которые могут многое рассказать

Что будет дальше, зависит от того, кто собрал метаданные и что он хочет узнать — они могут быть использованы для анализа самых разных вещей, от индивидуального поведения до более крупных моделей и тенденций в обществе.

Поиск с помощью метаданных файла

Хорошим способом использования метаданных является поиск изображений по одному из полей Exif, например, в Google Picasa. Для этого введите специальные команды в поле поиска приложения.

Например, для поиска фотографий, сделанных с определенной чувствительностью матрицы, введите ISO 200. Если ввести название камеры, приложение будет выбирать фотографии, сделанные с помощью этой модели камеры.

Приложение также распознает теги, добавленные фотографом. Кроме того, рядом с поисковой строкой находится ползунок, позволяющий легко фильтровать результаты поиска по временному интервалу.

Интересной особенностью Picasa является возможность сохранить такой запрос в виде альбома. Команду для сохранения поискового запроса в виде папки можно найти в разделе Инструменты → Экспериментальные → Сохранить результаты поиска. В этом же меню можно сохранить альбом фотографий, помеченных одной и той же меткой. Аналогичный инструмент также доступен в Adobe Lightroom и Проводнике Windows.

Метаданные файлов в Интернете

В галереях метаданные обычно отображаются рядом с просматриваемой фотографией. Веб-сайты широко используют данные EXIF, например, чтобы связать фотографию с географической картой. Например, в Google Gallery, Google+ или Picasa Web Albums рядом с фотографией отображается карта предварительного просмотра.

В проводнике Windows можно читать и изменять содержимое метаданных файлов и изображений и использовать их для автоматической сортировки и классификации изображений в папке по определенному критерию, например, типу камеры или чувствительности матрицы.

    Система Windows уже отображает основные метаданные после выбора нужного файла. Они отображаются в строке состояния окна Проводника. Если вам нужна более подробная информация, щелкните правой кнопкой мыши на строке состояния и выберите в контекстном меню пункт Размер → Большой.

Отображение метаданных фотографии в проводнике Windows

Добавление параметра группировки файлов по метаданным

Метаданные файлов в программе Adobe Lightroom

Adobe Lightroom — это рабочий инструмент продвинутых фотографов-любителей и профессионалов. Приложение предназначено для управления коллекциями из тысяч фотографий и имеет мощные инструменты для редактирования метаданных и автоматического выбора фотографий на основе этих данных.

  1. Когда вы запустите Adobe Lightroom, вы найдете инструменты редактирования метаданных в разделе «Библиотека». В Lightroom можно редактировать метаданные сразу после загрузки фотографий. Подключите камеру и нажмите кнопку Импорт. В появившемся окне справа расположен флажок Применить при импорте. Там вы можете вставлять теги и создавать собственные метаданные, которые будут добавляться к загруженным фотографиям.
  2. Когда фотографии загружены и вы возвращаетесь в библиотеку, вы можете увидеть как ключевые слова, так и метаданные и файлы, которые были загружены. В блоке Ключевые слова справа отображается список последних использованных ключевых слов, и вы можете создать новое ключевое слово, т.е. набор тегов для определенного типа изображения. Метки добавляются для всех изображений, выбранных в окне библиотеки.

Каждый файл в такой системе связан с одним или несколькими тегами. Чтобы найти определенную группу файлов, необходимо ввести или выбрать нужные теги в файловом менеджере (возможно, в сочетании с логическим выражением: AND, OR, NOT и т.д.).

Если вы пользуетесь современным компьютером — включая мобильный телефон — вы регулярно используете метаданные.

Метаданные позволяют сортировать файлы по типу.

Они позволяют сортировать файлы по «дате создания», «дате изменения» или «дате доступа».

Большинство современных медиаплееров позволяют записывать музыку по битрейту или сортировать фильмотеку по категориям на основе разрешения.

Веб-сайты часто содержат «метатеги» — особый тип метаданных, включенных в заголовок веб-сайта, которые используются для описания содержания веб-страницы для поисковой системы.

Когда вы распределяете файлы, папки или веб-сайты по категориям, вы полагаетесь на метаданные.

Как еще используются метаданные?

Отдельные люди используют метаданные конкретными способами, но как насчет общей картины?

Все, что вы делаете на своем компьютере, создает данные и метаданные.

Если учесть, что сегодня в мире используются десятки миллиардов компьютеров, включая шесть-семь миллиардов смартфонов, мы ежедневно генерируем невообразимое количество метаданных.

Адресация рекламы и контента конкретным людям

Эта информация не просто выбрасывается.

Большая его часть попадает в сложные алгоритмы и модели машинного обучения для анализа.

Что будет дальше, зависит от того, кто собрал метаданные и что он хочет узнать — они могут быть использованы для анализа самых разных вещей, от индивидуального поведения до более крупных моделей и тенденций в обществе.

Наиболее очевидные примеры использования — это целевые и персонализированные предложения контента. В

Вы когда-нибудь видели, как ваша лента в социальных сетях заполняется рекламой, связанной с тем, что вы искали на своем телефоне?

Вы когда-нибудь кликали на что-то необычное на YouTube только для того, чтобы обнаружить, что предложения изменились и включают больше результатов, похожих на то, на что вы только что кликнули?

Это работа алгоритма, который изучает данные и метаданные, связанные с вами, чтобы показать результаты, которые, по его мнению, с наибольшей вероятностью привлекут ваше внимание и заставят вас кликнуть.

Использование метаданных для повышения вовлеченности пользователей имеет некоторые непредвиденные последствия.

В частности, это приводит к предпочтению эмоционально экстремального контента: Это либо заставляет вас чувствовать себя очень хорошо, либо очень плохо — в любом случае, это обычно стимулирует больше, чем само содержание.

Это большая часть того, что делает бездумный просмотр социальных сетей таким невероятно привлекательным.

Конечно, даже если политика социальных сетей изменится и подобные вещи больше не будут появляться в социальных сетях, это не изменит того факта, что информация находится там и обычно доступна тому, кто больше заплатит.

В прошлом большинство конфиденциальных данных было защищено законом.

Однако для информации, полученной из ваших метаданных, такой защиты в большинстве юрисдикций не существует, хотя ситуация меняется.

Метаданные собираются для слежки

Существует множество вариантов использования метаданных, помимо рекламы и целевого контента.

Одним из самых спорных вопросов является наблюдение. Эдвард Сноуден вызвал огромную полемику, когда представил доказательства того, что Агентство национальной безопасности США ежедневно собирает метаданные, в частности, из сотен миллионов текстовых сообщений.

Полиция может сделать нечто подобное, хотя и в гораздо меньших масштабах, с помощью вышек наблюдения.

Вышки Skat выдают себя за настоящие вышки сотовой связи, чтобы направлять трафик от близлежащих операторов мобильной связи.

В этом случае тип перехваченных данных может быть различным — все, что передается в незашифрованном виде, скорее всего, будет полностью читаемо, в то время как зашифрованные сообщения раскрывают только определенные метаданные.

Примечание: Некоторые приложения для обмена сообщениями стараются минимизировать объем незашифрованных метаданных и утверждают, что не хранят метаданные.

Являются ли метаданные поводом для беспокойства о конфиденциальности?

Почти каждый цифровой файл имеет метаданные — иногда сам файл содержит метаданные, иногда метаданные хранятся отдельно в операционной системе.

У большинства видео и изображений, загружаемых в Интернет, метаданные удаляются автоматически — все основные социальные сети и большинство платформ для размещения изображений удаляют метаданные, как и большинство современных чат-приложений, включая Slack, Discord, WhatsApp, Signal и Telegram.

Кроме того, все, что вы делаете, создает метаданные.

Метаданные создаются каждый раз, когда вы передаете или получаете данные через мобильную сеть или Интернет. Эти данные собираются как правительствами, так и частными компаниями и могут быть использованы для анализа поведения отдельных лиц или групп.

Учитывая повсеместное распространение метаданных и то, насколько уникальными они могут быть, это, несомненно, является проблемой конфиденциальности.

    (49) (12) (105) (27) (2 207) (66) (39) (23) (795) (33) (3) (107) (332) (87) (18)

Все здесь заменяется в браузерах, поддерживающих элемент canvas

Вы не можете напрямую атаковать продуктивные веб-сайты или веб-приложения для осуществления веб-взлома без соответствующих разрешений. Поэтому для практики веб-взлома/проникновения нам нужно что-то, где мы сможем практиковаться в веб-взломе, не повреждая чужие приложения или веб-сайты. Для этого мы можем установить bWAPP в Linux. Что такое bWAPP? bWAPP, или Buggy Web Application, представляет собой приложение .

Утилита tcpdump может быть использована для загрузки списка всех MAC-адресов в сети. Сначала необходимо собрать достаточное количество данных. Затем нажмите кнопку control-c, когда будет собрано достаточно данных. Затем просто прочитайте файл журнала и получите список всех MAC-адресов в вашей сети. Это очень простой, но полезный сетевой трюк. Вот еще один способ получить эту информацию.

Заражение системы с целью кражи данных или нарушения бизнес-операций с помощью вредоносного ПО (MVP) — не новая техника; она существует с 1988 г. С тех пор она растет с каждым месяцем. Сегодня насчитывается более 1 миллиарда вредоносных программ. Злоумышленник может использовать различные методы для внедрения вредоносного кода в код вашего сайта. Давайте посмотрим …

Android — ведущая в мире операционная система для мобильных телефонов. В наше время очень распространено иметь телефон на базе Android. Знания о криминалистике телефонов android очень важны для любого эксперта по цифровой криминалистике. В сегодняшней статье по криминалистике мы узнаем об Андриллере. Andriller — это программа с набором криминалистических инструментов для .

Ниже вы узнаете больше о программе проверки системных файлов, ее возможностях, как ее использовать и как интерпретировать ее результаты. Умышленно или неумышленно пользователь может уничтожить файлы, необходимые для работы компьютера, разными способами. Даже отключение питания во время обновления Windows может вызвать нежелательные проблемы с компьютером. Кроме того, …

Многие офисные программы могут подсчитывать время, которое вы тратите на работу с документом. Это для тех, кто жалуется, что потратил все выходные на один документ, а на самом деле …

Дополнительные возможности

Большинство людей не используют и половины возможностей современных файловых серверов. Например, очень мало людей используют символические и жесткие ссылки. В обычных файловых менеджерах для этого просто нет инструментов (а те, что есть, не являются обычными). В Linux это более распространено из-за более высокой квалификации пользователей, но это также возможно и в Windows.

Жесткие и символьные ссылки

Начнем с жестких и символических ссылок, которые хорошо знакомы пользователям Linux. На самом деле, они существуют и в Windows (NTFS), но инструментов для работы с ними почти нет.

Начнем с жестких ссылок. Файл — это, по сути, именованное место на жестком диске. Кроме того, файл имеет своего рода «заголовок» — запись в ФС, хранящую метаинформацию — размер, атрибуты, время создания и модификации, а также указатель на сектора, занимаемые самими данными. А файл имеет запись в структуре каталога, где хранится имя файла и указатель на «заголовок» с метаинформацией. Конечно, может быть несколько записей в каталоге, которые могут указывать на один и тот же «заголовок». В заголовке обычно содержится счетчик ссылок. Когда он достигает нуля, запись удаляется. По этой причине в некоторых системах процесс удаления называют «отключением».

Символическая ссылка — это еще одна абстракция. Как и каталог, символическая ссылка — это, по сути, особый вид файла, который обрабатывается на уровне ФС. Символьная ссылка содержит путь к файлу (абсолютный или относительный), поэтому любая ссылка на символическую ссылку рассматривается операционной системой как ссылка на файл, на который она указывает. Символическая ссылка, в отличие от жесткой ссылки, может также указывать на каталог. Файл или каталог, на который указывает символическая ссылка, может не существовать — это рассматривается как ошибка доступа (например, как если бы вы указали неправильный путь при открытии файла).

Как это может помочь на практике? Опытные пользователи используют иерархии папок для структурирования информации: Они создают своего рода иерархию папок и сортируют в ней файлы. А если файл относится к двум или более категориям? В этот момент хардлинки очень полезны. Например, статья «Сравнение C# и Java» может находиться одновременно в двух папках категорий — и «C#», и «Java». Если одна категория является подмножеством другой, но также относится к третьей категории, то для включения ее в третью категорию может быть использована ссылка на символ.

Расширенные атрибуты и файловые потоки

Каждый файл имеет атрибуты. Это размер, время создания, время последней модификации и несколько битов атрибутов (которые отличаются в каждой операционной системе) — например, «только для чтения», биты разрешения в Linux. Это системные атрибуты, которые необходимы самой операционной системе для понимания смысла файлов. Но как насчет атрибутов пользователя?

Многие современные ФС поддерживают «расширенные возможности» и «альтернативные потоки файлов». Расширенные атрибуты обычно фиксированы и относительно невелики. Альтернативные потоки файлов («форки») могут быть произвольно большими, даже больше, чем сам файл, и могут иметь собственные имена. Они дают возможность присоединить к существующему файлу или даже каталогу дополнительные файлы, которые не видны обычными средствами файловой системы. Для простоты я продолжу использовать «расширенные функции», т.е. и альтернативные файловые потоки — основное внимание в этой статье уделяется не тонкостям реализации системы, а возможности связать пользовательскую метаинформацию с самим файлом.

Примеры тегов, встроенных в различные форматы

Комментарии Vorbis (аудио)

Метаинформация в файле данных: медиаконтент

Примером может служить структура IDv1 формата mp3,

Номер дорожки в альбоме или 0

Жанр (индекс, строка)

Скорость (стиль, жанр) музыки (чем выше число, тем более «активная» музыка)

Метаинформация в базе данных: Libgen

Второй пример — описание книги в базе данных Libgen. Эта мета-информация хранится не в самих электронных книгах (которые имеют разные форматы — pdf, djvu, chm, epub, txt, mobi, doc и т.д.), а в отдельной базе данных (которая используется «зеркалами» Libgen, а также доступна для бесплатного скачивания и может использоваться локально специальными библиотечными программами). Как мы увидим ниже, этот подход также встречается в программах, реализующих «tagged FS» на классической файловой системе.

MD5-ключ (хэш электронной книги)

Название журнала (с указанием номера и года)

Количество страниц в книге

Фактическое количество страниц в файле

Код классификатора субъектов

Первоисточник файла (название библиотеки или интернет-коллекции)

Тема в пределах источника

Десятичная классификация Дьюи

Идентификатор Библиотеки Конгресса США

DOI Идентификатор цифрового объекта

Идентификатор GoogleBooks

DPI, количество точек на дюйм при сканировании

Отсканированная область была разделена на страницы

Электронное оглавление

Книга со слоем OCR (текст)

Размер файла в байтах

Версия книги более высокого качества (ключ MD5)

Видимость в поиске по сайту

Оригинальное имя файла с локальным путем (если добавляется из существующей коллекции).

Книга находится в локальном хранилище пользователя

Время, в которое была добавлена запись

Время последнего изменения записи Обложка (имя файла изображения)

Как видно, очень разные категории метаданных смешаны в одной таблице (аннотации и оглавление находятся в отдельной таблице, связанной с основным ключом md5). База данных не нормализована, т.е. в ней нет отдельных таблиц для авторов, издателей или даже расширений файлов. Тем не менее, в настоящее время это, вероятно, самая большая общедоступная база метаданных для книг. Я не знаю, существуют ли подобные публичные базы данных для других категорий информации (музыка, аудиокниги, фильмы, программное обеспечение). Если да — напишите об этом в комментариях, это очень интересно.

Отдельные файлы метаинформации: торренты

Я хотел бы упомянуть торренты как интересный пример метаинформации как отдельной сущности. Это важно для дальнейшего изложения. Торрент-файл — это пример файла, который содержит метаданные о файлах и папках, подлежащих распространению, и обычно список сетевых адресов трекеров — компьютеров, которые помогают участникам системы найти друг друга. Торрент-файл — это файл BENCODE, специальный двоичный формат для представления структурированной информации. В настоящее время существует две версии: v1 (широко используемая) и v2 (новая, улучшенная версия, но, к сожалению, пока не очень широко используемая). Возможен гибридный формат, совместимый как с v1, так и с v2. Формат достаточно прост для представления в JSON: https://chocobo1.github.io/bencode_online. Формат торрента — это не просто словарь ключ-значение или реляционная таблица; это достаточно сложная структура данных.

Теговые файловые системы

Общая идея

Каждый файл в такой системе связан с одним или несколькими тегами. Чтобы найти определенную группу файлов, необходимо ввести или выбрать нужные теги в файловом менеджере (возможно, в сочетании с логическим выражением: AND, OR, NOT и т.д.).

Представьте, что у вас есть огромная коллекция фотографий, сделанных в разных странах, в разных местах (город, страна, пляж, парк, музей. ), в разное время суток (рассвет, день, закат, ночь), с разными сюжетами (селфи, родственники, коллеги, природа, достопримечательности. ), в разные годы и т.д. Теперь представьте, что вы хотите получить список всех фотографий, сделанных утром в центре Нью-Йорка, за исключением тех, которые были сделаны до 2020 года.

Общая идея тегированной ФС заключается в том, что у файла есть облако тегов, которое может состоять из любого количества тегов, включая вложенные теги. Вводя или выбирая теги в интерфейсе, вы получаете список файлов, соответствующих этим тегам.

Конечно, вы можете создать иерархию каталогов: NewYork/Outdoors/Morning/2021. или 2021/NewYork/Outdoors/Morning. Или что-то еще. В этом случае, однако, необходимо подумать о порядке следования списков. При использовании этикеток порядок не имеет значения. Система тегов применима ко всем видам контента — музыке, документам, книгам и т.д. Теги могут включать любые существующие атрибуты, включая ‘расширение’, флаги типа ‘скрытый’ и ‘системный’, флаги разрешения, информацию о владельце, время создания, время последнего изменения, размер и т.д.

Как видно, база данных с метками гораздо ближе к реляционной базе данных, чем к иерархической базе данных. Неудивительно, что идеи внедрения маркированного стимулирования сбыта тесно связаны с идеями интеграции стимулирования сбыта и баз данных.

Краткий обзор реализаций

Как мы видим, ФС и база данных имеют много общего. У пользователей могут быть файлы размером в несколько гигабайт, и найти файл с помощью традиционной файловой иерархии — задача не из легких. Поиск, группировка и сортировка больших объемов информации — это именно то, что лучше всего получается у ФУ.

Наиболее известной попыткой объединить файловую систему и СУБД является программа WinFS. К сожалению, компания Microsoft отказалась от этой возможности. Наиболее развитая реализация метаданных файловой системы находится в Haiku (наследник BeOS), но, к сожалению, это очень малоизвестная операционная система, разработанная небольшой группой энтузиастов.

Существуют также внешние решения — программы, которые тем или иным образом накладывают Tagged File System на классическую древовидную систему. В Habra есть отличная статья с подробным обзором таких внешних решений. Особенностью является то, что мета-информация хранится либо в имени файла, либо в специальной базе данных программы. Первый вариант непрактичен, поскольку имя преобразуется в нечитаемый код (кстати, реализация Libgen имеет этот недостаток — там имя файла должно быть хэшем md5). Второй вариант привязывает пользователя к конкретной программе, что тоже не очень хорошо (особенно если формат базы данных закрытый).

Папки или теги?

Иногда классическая иерархическая организация противопоставляется маркированной организации. На мой взгляд, нет причин выступать против любой из этих систем. Иерархия и тегирование прекрасно дополняют друг друга. Иерархия файлов практична именно потому, что она понятна и выделяет самое необходимое. В 99 % случаев можно распознать главное. Для 1 % нестандартных случаев все еще существуют жесткие и символические ссылки. Теги удобны для поиска. Когда мы вводим поисковый запрос в Google, мы, по сути, вводим теги. Конечно, вы также можете выполнить полнотекстовый поиск на своем компьютере, что, вероятно, было бы хорошей идеей.

IPTC изначально разрабатывался для английского языка и не был адаптирован для других кодировок/языков. Невключение национальных языков в стандарты распространилось на многие программные продукты, хотя текущая версия стандарта XMP позволяет поддерживать поля данных с языковыми метками.

Метаданные в социальных сетях

Каждый раз, когда вы знакомитесь с кем-то на Facebook, слушаете музыку, предложенную Spotify, публикуете статус или делитесь чьим-то твитом, метаданные обрабатываются в фоновом режиме. Пользователи Pinterest могут создавать доски соответствующих элементов на основе метаданных, хранящихся в этих элементах.

Метаданные полезны в очень специфических ситуациях в социальных сетях, например, при поиске человека на Facebook. Вы можете увидеть фотографию профиля и краткое описание пользователя Facebook, чтобы узнать о нем только самое основное, прежде чем принять решение подружиться с ним или отправить ему сообщение.

Управление метаданными и базами данных

В мире управления базами данных метаданные могут касаться размера и форматирования или других характеристик элемента данных. Это важно для интерпретации содержимого базы данных. Расширяемый язык разметки (XML) — это стандартизированный язык разметки, объекты данных определяются форматом метаданных.

Например, если у вас есть набор данных с разрозненными данными и названиями, вы можете не знать, что представляют собой эти данные или что описывают столбцы и строки. Используя основные метаданные, такие как имена столбцов, вы можете быстро изучить базу данных и понять, что описывает та или иная запись.

Если есть список имен без метаданных для их описания, это может быть что угодно, но если вы добавите метаданные в верхней части, помеченные как «увольнения сотрудников», вы теперь знаете, что эти имена представляют всех уволенных сотрудников. Дата рядом с ним также может быть полезной, например, «срок годности» или «дата приема на работу».

Чем не являются метаданные

Метаданные — это данные, которые описывают данные, но это не сами данные. Например, хранящиеся в документе Microsoft Word метаданные об авторе и дате создания представляют не весь документ, а лишь некоторую информацию о файле.

Поскольку метаданные не являются реальными данными, их обычно можно передавать безопасным способом, поскольку они не дают никому доступа к исходным данным. Например, достаточно знать краткое содержание веб-страницы или видеофайла, чтобы понять, что это за файл, но увидеть всю страницу или воспроизвести все видео недостаточно.

Думайте о метаданных как о картотеке в вашей детской библиотеке, которая содержит информацию о книге; метаданные — это не сама книга. Вы можете многое узнать о книге, просмотрев файл, но чтобы прочитать ее, необходимо открыть книгу.

Оцените статью
Бизнес блог