Что такое паркет? Традиции и новации в дизайне
Тема «Паркетные полы: традиции и новации в дизайне» звучит вполне современно, несмотря на то, что волновала художников и архитекторов достаточно давно. Например, в начале XIX в. это был предмет исследования и разработок академика Ф. Г. Солнцева — знаменитого художника, иконописца, археолога и реставратора, исследователя и хранителя русской старины. Он воссоздал в интерьерной отделке национальную тему и работал по реставрации храмов и убранству дворцов, в том числе разработал проекты укладки цветных паркетов в залах Большого Кремлевского дворца по поручению и под непосредственным наблюдением императора Николая I. Но. отдав должное историческому аспекту проблемы и вспомнив заодно паркеты в блестящих дворцах Санкт-Петербурга. Павловска и Ораниенбаума. Останкино и курляндского Рундале, перенесемся в наши дни и попытаемся посмотреть на данную тему с разных ракурсов и по отдельным составляющим.
На вопрос: «Что же такое, в сущности, паркет?» — следует простой и очевидный ответ — изделие из дерева. И большая часть свойств паркета определяется, собственно, достоинствами и недостатками этого, казалось бы, вдоль и поперек изученного материала, давшего человечеству тепло, свет, основу для строительства жилья, кораблей, даже первых самолетов, позволившего создать предметы утвари, образцы народного творчества и высокого искусства. Древесине как природному материалу свойственны такие качества, как достаточная твердость (от 3 до 6 единиц по Бринеллю для большинства твердолиственных пород), долговечность, красота, определяемая цветом и выраженной в той или иной мере текстурой поверхности, достаточная теплоизоляция (в 17—40 раз превышающая теплоизоляцию таких материалов как керамическая плитка, керамогранит, натуральный камень). К недостаткам древесины (равно как и к интересующему нас изделию из нее — паркету) относятся ее гигроскопичность и изменение размеров и возможная деформация изделий из нее под влиянием изменений окружающих условий, в том числе влажности и температуры. Подчеркнуть и дополнить эстетические свойства древесины и защитить ее от климатических воздействий позволяют оптимальная сушка, термообработка, нанесение защитных покрытий, тонирование, патинирование, искусственное старение, инкрустация другими материалами.
Паркет используется в разных функциональных зонах и помещениях, находит себе применение даже в танцевальных и спортивных залах. Он может сочетаться с керамической плиткой, керамогранитом, натуральным и искусственным камнем. Учитывая тот факт, что правильно смонтированный паркетный пол может прослужить своим хозяевам около ста лет, следуют с большой осторожностью дискутировать о его концепции и дизайне. Однако мода, явление довольно цикличное и этапы её частенько повторяются, возвращая на передовые позиции современного дизайна всё хорошо забытое старое. Хорошим подспорьем в этом являются значительно набравшие силу технологии обработки а также методы и виды нанесений финишных покрытий на древесину. Популярными или модными в одно время, могут быть различные породы дерева или их комбинации, рисунки или укладки, различные виды паркетного искусства. Производители всячески стараются гнать моду вперёд придумывая и внедряя всевозможные обработки поверхности: искусственное старение, браширование, скобление, обжиг, лессирование — это только малая часть тех технологий которые появились за последний век. Из последних инноваций особое место в 2017г занимают: горячее тиснение древесины на специальных прокатных станках и технология изменения цвета древесины твёрдолиственных пород методом химического давления специально разработанными для этого щелочами. Такой подход подразумевает по аналогии с концепт-карами создание выставочных образцов, демонстрирующих специалистам и заказчикам новые оформительские идеи, образцы композиций определенной тематики или стилистики, новинки или хорошо забытые старые варианты формообразования и сочетания цветов и материалов. Большим прорывом явилось освоение рядом производств паркетных модулей, как художественных, так и классических рисунков с перенесением значительной части трудоемкости в условия производств, с появлением возможности комбинаторных сочетаний одного или нескольких видов модулей для формирования разных рисунков напольных покрытий.
Развитие производства различных видов «паркетной химии», разработка в дополнение к паркетным лакам защитных масляных и комбинированных покрытий, использование различных тонирующих материалов и методов инкрустации паркетных полов вплоть до введения в их состав кристаллов Сваровски, применение разнообразных и специально разработанных герметиков, разработка технологии изготовления террасных настилов — все это позволяет расширить область применения паркетных полов, повысить их качество и долговечность, ускорить и упростить укладку, как это происходит с паркетными модулями и террасным настилом. Что же касается новинок дизайна, то это прерогатива главным образом дизайнеров-интерьеристов и художников — прикладников. Они осваивают особенности профессии в практических условиях, благо дизайну и созданию художественных композиций в паркетных полах до последнего времени нигде в учебных заведениях не учили. Но почти три века развития художественного паркета в России, традиции европейский мастеров , арсенал мирового изобразительного искусства, довольно ограниченный круг специальных альбомных изданий по художественному паркету и множество самостоятельных или заимствованных материалов, представленных в изданиях и на интернет-сайтах многочисленных паркетных компаний, — всё это основа для исследований и создания новых и оригинальных образцов паркетного дизайна.
К числу технологических достижений, кроме уже упомянутых паркетных модулей, собираемых на обычной подоснове с помощью закладных шпонок, можно отнести монтаж полов по регулируемым лагам, технологию укладки паркетных полов на основаниях с водяным подогревом, технологию монтажа деревянных напольных покрытий во влажных помещениях, в том числе вблизи бассейнов и в ванных комнатах, освоение специальных методов повышения звукоизоляции полов там, где это требуется, специальные конструкции деревянных покрытий в спортивных, тренажерных залах и на открытых площадках. К сожалению, в отличие от такого композитного покрытия, каким является ламинат, и от натуральных покрытий в виде паркетной и инженерной доски, для которых разработаны методы укладки, соответствующие требованиям современного индустриального строительства, укладка паркета и особенно художественного паркета традиционно остается по преимуществу разновидностью ручного труда, что определяет достаточно длительные сроки укладки таких полов и относительно высокую стоимость монтажных работ в этом случае. Если обсуждать вопрос о том, расширяется ли область применения деревянных напольных покрытий, то следует, кроме очевидных аспектов их использования, обсудить некоторые проблемы, часть из которых не лежит на поверхности.
Рассуждая о том, почему их не применяют в каких-то случаях. нужно упомянуть о конкуренции со стороны некоторых композитных и конструкционных материалов, которые позволяют удешевить и ускорить процесс монтажа напольных покрытий. Речь идет о ламинате, паркетной доске, ковровых покрытиях, линолеуме, керамической плитке и керамограните. Препятствием к принятию решения в их пользу может быть отрицательный опыт общения с неквалифицированными производителями паркета, нарушающими требования технологии отбора, сушки и обработки древесины в условиях, когда определяют эти процессы устаревшие нормативные документы, контроль на основных этапах производства может осуществляться в недостаточном объеме, а то и вовсе отсутствовать. У многих производителей при наличии конструкторской документации технологическая не разработана. Что касается укладки, то при наличии некоторых специальных СНиП’ов существенная часть новых методов укладки ими не охвачена, они в некоторых случаях противоречивы, необходимая последовательность действий при проведении разных отделочных работ на объектах очень часто нарушается, контроль за климатическими условиями при монтаже, а особенно при эксплуатации деревянных напольных покрытий нередко не осуществляется. При затягивании сроков проведения отделки, при временных остановках строительства («замораживании») правила консервации и требования к сохранности различных видов отделки не разработаны, нормативные документы для этих случаев отсутствуют.
Практика страхования отдельных этапов отделки мало распространена, поэтому катастрофические заливы из-за неисправности сантехнических сооружений или кровли в нашей стране являются проблемой владельца помещений или производителя отделочных работ, а не страховых компаний. Если рассматривать причины, по которым следует использовать паркет в жилых и коммерческих поимещениях, то нужно отметить, что благодаря их долговечности и ремонтопригодности стоимость деревянных напольных покрытий, смонтированных по всем технологиям на клей через фанеру, при своей изначально высокой инвестиционной стоимости, в расчете на год эксплуатации одна из самых низких даже по сравнению с гомогенными линолеумами и ламинатами, именно из-за долгого срока своей службы. В двадцать первом веке, когда понятие «экологичность» приобретает все более доступный для многих пользователей смысл, полы из натуральной древесины — правильный выбор.
Возможность разнообразной обработки поверхности деревянного пола с тонированием, патинированием, искусственным старением, гравированием поверхности и способы обновить глянец, цвет, вид поверхности пола при регулярной смене лакового покрытия — тоже довод в пользу этих полов. Современные износостойкие финишные покрытия для древесины, химия для укладки, вкупе с современными возможностями монтажа изделий непосредственно на стяжку расширяют возможные области использования деревянных напольных покрытий. Ну и конечно возможности создания в промышленных масштабах повторяющиеся замысловатые комбинации из различных комбинаций пород, именуемые художественным паркетом — весьма веский аргумент в их пользу при наличии какой-то конкуренции в этом отношении только со стороны натурального камня. Для изготовления паркета используется более шести десятков пород в основном твердой лиственной древесины и такой композитный материал на растительной основе, как бамбук. Породы отличаются цветом, фактурой поверхности, твердостью, стабильностью к изменениям влажности и температуры, устойчивостью к грибкам и вредителям и некоторыми другими качествами. По совокупности физических свойств, выразительности цвета и совместимости характеристик для композиций художественного паркета обычно используют более ограниченный ряд из 15-20 пород.
Наиболее часто находят себе применение такие породы, как дуб, ясень, орех, клён, вишня, платан, мербау, венге, зебрано, граб, тик, груша, карельская береза, амарант, ироко, олива, палисандр. Если говорить о новых возможностях, появившихся у изготовителей и поставщиков паркета в последние полы, то нужно упомянуть о широком разнообразии пород ставших доступными отечественному покупателю в условиях открытого рынка. Интересные дизайнерские находки появляются про соединении в паркетные узоры различных по окраске и распило пород древесины. Следует понимать всё же, что не стоит с точки зрения правильности дальнейшей эксплуатации комбинировать рядом в полу породы, обладающие разными физико техническими характеристиками, такими как прочность, твёрдость, удельный вес и коэффициент расширения.
Если по дизайну рисунка или пожеланию заказчика требуется не явный рисунок, то его добиваются на производстве путём комбинаций различных распилов древесины или совмещением пород похожих по цвету но не явно контрастирующих. Иногда их удается использовать только после соответствующей выдержки перед окончательной обработкой и монтажом. К сожалению, для так называемых твердолиственных пород в нашей стране отсутствует общепринятая классификация. отсутствие качественной каталогизации различных пород древесины в российском ходу, также является осложняющим фактором. Именно поэтому у нас довольно часто можно встретить повторяющиеся или дублирующие друг друга наименования. Авторитетным можно считать издание «Зе ВУДБУК» от немецкого издательства Саш которое посвящено американским породам деревьев. Токсичность продуктов обработки некоторых видов древесины, как правило, нигде не оговаривается. Цвет древесины разных пород и соответствие всей поставки образцам, как правило. на риске приобретателя. Свойства некоторых пород, не входящих в список более или менее часто практикуемых у нас, известны весьма приблизительно или неизвестны вовсе.
Есть ли у российского паркета свой путь? Если рассматривать его почти 300-летнюю историю, ю безусловно. Со времен Петра I. собственноручно срисовывавшего понравившиеся ему в европейском путешествии напольные орнаменты, и привлеченных им в Россию зарубежных архитекторов, чьи творения составили золотой фонд исторических архитектурных памятников и по проектам которых российские в основном мастера уложили паркеты во дворцах XVIII и XIX вв. в Северной столице и ее окрестностях, зародилась традиция российского паркета. Его производством в новой России ешё совсем недавно, в докризисные времена занимались около полутораста заводов, а укладкой бессчетное число бригад В последние два гола число их поубавилось. но кризис взял, кризис и дал. Уцелели наиболее самостоятельные. хорошо организованные предприятия, сохранившие специалистов и художников, добившиеся качества и обновившие станочный парк, смело использующие самые современные материалы паркетной химии и проводящие разумную ценовую политику. Хотя в условиях протекционизма и откатов, характерных для серьезных заказов в строительстве — это нелегко.
Статья из журнала «Напольные покрытия» издательство Mass Media. Выпуск 1/2012 «Паркет». Автор Сорочкин М.Ю.
Что такое паркет и как правильно его уложить | Стройматериалы и технологии
1 2 3 4 5
ПАРКЕТ — экологичное покрытие, сравниться с ним, может только натуральный камень. Паркетным полам свойственна высокая прочность, малая теплопроводность, способность регулировать влажность в помещении. Деревянный пол не накапливает статическое электричество. Пожалуй это известно всем но мало кто знает отличия паркетной доски от штучной доски или массивной доски от ламинированного паркета?
И так теперь обо все подробнее:
Штучный паркет представляет собой набор планок из цельного дерева различных пород. Наиболее распространенной древесиной в производстве штучного паркета является дуб, ясень, бук, клен, граб, вишня, орех, а также такие экзотические породы как дусия, махагон, венге, мербау, бабмук.
Размер планок составляет от 15 до 42 см в длину и от 3 до 9 см в ширину. Толщина может варьировать в пределах от 1,5 до 2,2 см. Паркет, плашки которого имеют размер от 42 см. до 90 см, называется крупнофарматным. Многообразие цветовой гаммы древесины и способов укладки паркета позволяет выкладывать практически любые узоры и рисунки. Штучный паркет сочетает в себе красоту и долговечность. Остановив свой выбор на штучном паркете, вы получите качественный, экологически чистый и красивый пол.
Массивная паркетная доска это напольное покрытие, целиком состоящее из древесины ценных пород. Отличительными свойствами полов из сплошной древесины являются безупречная экологичность, высокая прочность, малая теплопроводность. Наконец, нельзя не отметить свойство регулировать влажность в помещении.
Паркетная доска, это многослойное деревянное напольное покрытие. В отличие от ламината, который в основе имеет древесно-волокнистую плиту, паркетная доска состоит из натурального дерева.
Ламинированное покрытие для пола (сокращенно — ламинат) относится к группе материалов на основе древесины. Наружная поверхность HDF-плиты покрывается декоративным слоем, имитирующим ценные породы дерева , натуральный камень и керамическую плитку. Наносится он типографским способом, поэтому может иметь любой, даже не встречающийся в природе декор, что позволяет удовлетворить любые фантазии дизайнера.
Поверхность декора защищена слоем пластичного полимера имеющего высокую устойчивость к истиранию и механическому воздействию обуви, мебели, когтей домашних животных. Современные технологии позволяют придать декоративной поверхности ламината объемную структуру, что создает впечатление натурального природного материала.
По мимо всего нужно знать из кокой пароды дерева сделан паркет, ведь от породы дерева зависит как его долговечность, устойчивость к механическим повреждениям способность к усыханию и много много другое. Вы можете обратится к специалистами нашей компании которые подскажут какой вид напольного покрытия подходит именно вам, проведут работы по укладке паркетной доски, штучного паркета, массивной доски, ламината, текущему уходу, реставрации и восстановлению паркетных полов на самом высоком уровне с полным соблюдением самых строгих технологических требований с используя современный технологи что обеспечит высокое качество, быстроту укладке а главное долго вечность паркетных полов в вашем доме.
http://parket-lux.ru/
Гид по паркетным полам — особенности выбора и ухода
Теплые пленочные полы, или мечты реальны.
Go to articles Стройматериалы и технологии
User Feedback
Что такое паркет Apache? | Dremio
Что такое паркет Apache? | Дремио- Дремио
Оглавление
Оглавление
Apache Parquet — это формат файлов с открытым исходным кодом, в котором данные хранятся в формате столбцов (в отличие от формата строк). В качестве столбцового формата хранения данных он предлагает несколько преимуществ по сравнению со строковыми форматами для аналитических рабочих нагрузок. Выбор формата данных может существенно повлиять на производительность и стоимость запросов, поэтому важно понимать различия между Apache Parquet и другими форматами файлов.
Преимущества Apache Parquet
Проще говоря, форматы на основе строк, такие как CSV и JSON, (в основном) читаются людьми, тогда как форматы на основе столбцов оптимизированы для компьютеров. В качестве столбцового формата файлов Apache Parquet может считываться компьютерами гораздо эффективнее и экономичнее, чем другие форматы, что делает его идеальным форматом файлов для хранения больших данных, аналитики и озера данных. Некоторые из основных преимуществ Parquet заключаются в том, что он отличается высокой производительностью, эффективным сжатием и является отраслевым стандартом.
Высокая производительность
В Apache Parquet значения каждого столбца хранятся вместе на диске. Поскольку аналитическим запросам часто требуется только подмножество столбцов для операции, это уменьшает объем данных, которые необходимо прочитать.
Файлы Parquet также содержат статистику о данных, хранящихся в файле, таких как минимальное и максимальное значения для данных столбца в файле и количество строк в этом сегменте. Это позволяет механизмам пропускать целые сегменты или целые файлы в зависимости от того, какую часть набора данных ищет задание.
Эти две функции приводят к значительному повышению производительности и снижению общих затрат благодаря уменьшению объема данных, необходимых для чтения.
Эффективное сжатие
Apache Parquet поддерживает высокоэффективное сжатие. Многие кодеки сжатия более эффективны, когда они сжимают схожие данные. Столбчатый формат Parquet означает, что столбцы похожих данных могут быть сжаты вместе, что повышает эффективность.
Сжатые данные более экономичны для хранения, чем необработанные данные, поэтому использование Parquet может снизить стоимость хранения больших наборов данных. Сжатые данные также более эффективны для чтения, чем несжатые данные, когда ввод-вывод является узким местом, что часто бывает в аналитических рабочих нагрузках, поэтому сжатые данные в файлах Parquet также могут повысить производительность.
Промышленный стандарт
Apache Parquet — это стандартный отраслевой формат файла столбцов. Файлы паркета могут быть прочитаны практически любым движком и инструментом. Это обеспечивает совместимость для использования нескольких инструментов сегодня и уверенность в том, что вы сможете использовать новые механизмы и инструменты, которые выйдут завтра, поскольку они, скорее всего, будут поддерживать Parquet.
Недостатки Apache Parquet
Хотя формат файлов Apache Parquet является отраслевым стандартом для аналитических рабочих нагрузок, у него есть некоторые недостатки, о которых следует помнить. Различные рабочие нагрузки и требования могут привести к использованию другого формата для определенных ситуаций.
Двоичные файлы не могут быть прочитаны людьми
Parquet — это двоичный (а не текстовый) формат файлов, оптимизированный для компьютеров, поэтому файлы Parquet не могут быть прочитаны людьми напрямую. Вы не можете открыть файл Parquet в текстовом редакторе так же, как файл CSV, и посмотреть, что он содержит. Существуют утилиты, преобразующие бинарное представление в текстовое, например parquet-tools, но это лишний шаг.
Более медленное время записи
Файлы Parquet могут записываться медленнее, чем форматы файлов на основе строк, главным образом потому, что они содержат метаданные о содержимом файла. Для аналитических целей это более медленное время записи более чем компенсируется быстрым временем чтения. Однако в ситуациях, когда наиболее важны актуальность данных и задержка события (например, в диапазоне десятков миллисекунд), может быть целесообразно использовать формат на основе строк без статистики, такой как Avro или CSV.
Apache Parquet и CSV
Самый распространенный формат файлов в мире — CSV (значения, разделенные запятыми). Он используется знакомыми приложениями, такими как Microsoft Excel или Google Sheets. Хотя файлы CSV легко открываются для просмотра человеком, а некоторым аналитикам данных удобно работать с большими файлами CSV, использование Apache Parquet имеет много преимуществ перед CSV.
Преимущества Parquet по сравнению с CSV
Analytics
Parquet лучше подходит для рабочих нагрузок OLAP (аналитическая обработка), чем CSV. CSV хорош для обмена, потому что он основан на тексте и является очень простым стандартом, который существует уже очень давно, но столбчатая структура и статистика Parquet позволяют обнулить наиболее релевантные данные для аналитических запросов, выбрав подмножество столбцов и строки для чтения. Напротив, формат на основе строк, такой как CSV, требует чтения всего файла, а если таблица состоит из файлов CSV, всей таблицы/раздела.
Там, где важна производительность
Поскольку запросы выполняются только к подмножеству столбцов, а не ко всему набору данных, целые файлы могут быть пропущены, если запрос не запрашивает их. Parquet имеет гораздо лучшее сжатие, и ответы намного быстрее с Parquet, чем с CSV.
Более экономичный
Паркет позволяет значительно сократить затраты как на ввод-вывод, так и на хранение по сравнению с CSV. Например, после перехода с CSV на Parquet компания Veraset, предоставляющая данные как услугу, смогла вдвое сократить время, необходимое для запуска конвейера данных, и сократить инфраструктуру, необходимую для ежегодной экономии в полмиллиона долларов.
Apache Parquet и Apache Avro
Apache Avro также представляет собой двоичный формат файла, как и Parquet. Однако Avro представляет собой формат файла на основе строк, аналогичный CSV, и был разработан для минимизации задержки записи. Файлы Avro содержат гораздо меньше строк на файл, чем Parquet, иногда даже одну строку на файл. Наиболее распространенным вариантом использования Avro является потоковая передача данных.
Паркет имеет те же преимущества перед Avro, что и перед CSV. Это лучше для аналитики, имеет лучшую производительность и более экономично.
Преимущества Avro по сравнению с CSV
Файлы Apache Avro содержат встроенную в файл схему записей. Это особенно полезно при потоковой аналитике, например, когда схема приложения, создающего данные, может меняться со временем.
Avro также является двоичным протоколом, обеспечивающим лучшую производительность чтения, чем CSV.
Преимущества CSV перед Avro
Основное преимущество CSV перед Avro связано с тем, что это текстовый формат файла. Это делает его более удобочитаемым для человека, что упрощает обмен небольшими файлами с людьми, не знакомыми с данными, например с другими бизнес-подразделениями или внешними организациями.
Готовы пойти глубже? Прочтите другие технические статьи об Apache Parquet.
Готовы начать? Вот некоторые полезные ресурсы
Практический пример
Когда электронная коммерция стремительно развивается — чем больше данных, тем больше Dremio
читать дальшеВебинары
Реальные стратегии оптимизации стоимости платформы данных
читать дальшеВебинары
Централизованное управление безопасностью данных в Open Data Lakehouse с помощью Dremio и Privacera
читать дальшеНачать бесплатно
Без ограничений по времени — совершенно бесплатно — как вам нравится.
Зарегистрируйтесь сейчас
Посмотреть Dremio в действии
Не готовы начать сегодня? Посмотрите платформу в действии.
Демонстрация часов
Поговорите с экспертом
Не знаете, с чего начать? Получите ответы на свои вопросы быстро.
Свяжитесь с нами
Зачем вам использовать файлы Parquet, если вы обрабатываете много данных?
Прошло много времени с тех пор, как мы впервые услышали об экосистеме Apache Hadoop для распределенной обработки данных. С тех пор многое изменилось, и теперь мы используем инструменты более высокого уровня для создания решений, основанных на полезной нагрузке больших данных. Тем не менее, важно выделить некоторые лучшие практики, связанные с нашими форматами данных , если мы хотим разработать действительно эффективные и масштабируемые решения для больших данных.
Введение Те из нас, кто работает в секторе данных, знают о важности эффективности во многих аспектах решений и архитектур данных. Мы говорим об эффективности с точки зрения времени обработки, а также с точки зрения занимаемой площади и, конечно же, затрат на хранение. Хорошее решение с точки зрения типов форматов данных может иметь жизненно важное значение для будущей масштабируемости решения, управляемого данными.
Чтобы обсудить эту тему, в этом посте мы представляем вам размышление о формате данных Apache Parquet или просто Parquet. Первые версии Apache Parquet были выпущены в 2013 году. С 2015 года Apache Parquet является одним из флагманских проектов, спонсируемых и поддерживаемых Apache Software Foundation (ASF). Давайте начнем!
Что такое паркет Apache? Мы знаем, что вы, возможно, никогда раньше не слышали о формате файлов Apache Parquet. Формат Parquet — это тип файла, который содержит данные (тип таблицы) внутри него, аналогичный типу файла CSV. Хотя это может показаться очевидным, файлы паркета имеют расширение .parquet и, в отличие от CSV, не являются обычным текстовым файлом (он представлен в двоичной форме), а это означает, что мы не можем открыть и изучить его с помощью простого текстового редактора . Формат паркета — это тип формата файла, ориентированного на столбцы. Как вы могли догадаться, существуют и другие форматы, ориентированные на строки. Так обстоит дело с форматами CSV, TSV или AVRO.
Но что означает, что формат данных должен быть ориентирован на строки или столбцы? В файле CSV (помните, ориентированном на строки) каждая запись является строкой. Однако в Parquet каждый столбец хранится независимо . Самая крайняя разница заметна, когда в файле CSV мы хотим прочитать только один столбец. Хотя мы хотим получить доступ только к информации одного столбца, из-за типа формата нам неизбежно приходится читать все строки таблицы. При использовании формата Parquet каждый столбец доступен независимо от остальных. Поскольку данные в каждом столбце должны быть однородными (однотипными), формат паркета открывает бесконечные возможности, когда речь идет о кодировании, сжатии и оптимизации хранения данных. В противном случае, если мы хотим хранить данные с целью очень часто считывать много полных строк, формат паркета будет наказывать нас в этих чтениях, и мы не будем эффективны, поскольку мы используем ориентацию столбца для чтения строк.
Другая особенность Parquet заключается в том, что это формат данных с самоописанием, который встраивает схему или структуру в сами данные . То есть свойства (или метаданные) данных, такие как тип (будь то целое число, вещественное число или строка), количество значений, тип сжатия (данные могут быть сжаты для экономии места) и т. д. включаются в сам файл вместе с данными как таковыми. Таким образом, любая программа, используемая для чтения данных, может получить доступ к этим метаданным, например, чтобы однозначно определить, какой тип данных ожидается для чтения в данном столбце. Кто никогда не импортировал CSV в программу и обнаруживал, что данные неправильно интерпретируются (числа как текст, даты как числа и т. д.)?
Как мы уже упоминали, одним из недостатков паркета по сравнению с CSV является то, что мы не можем открыть его, просто используя текстовый редактор. Однако существует несколько инструментов для обработки файлов паркета. Чтобы проиллюстрировать простой пример, мы можем использовать инструменты для паркета в Python. В этом примере вы можете увидеть один и тот же набор данных, представленный в формате паркета и CSV.
Ранее мы упоминали, что еще одним отличительным признаком паркета от CSV является то, что первый включает в себя схему данных внутри. Чтобы продемонстрировать это, мы собираемся выполнить команду parquet-tools inspect test1.parquet.
Ниже мы видим, как инструмент показывает нам схему данных, содержащихся в файле, организованных по столбцам. Мы видим, во-первых, сводку из количества столбцов , строк и версию формата и размер в байтах. Далее мы видим имя столбца и затем, для каждого столбца, самые важные данные , включая тип данных. Мы видим, как в столбце «один» хранятся данные типа DOUBLE (подходящие для действительных чисел), а в столбце «два» данные типа BYTE_ARRAY, которые используются для хранения текстовых строк.
############ метаданные файла ############
created_by: parquet-cpp version 1.
5.1-SNAPSHOT
num_columns : 3
num_rows: 3
Num_row_Groups: 1
№ Format_version: 1,0
SEALISISISISIOD: 22266
777: 22266
: 22266
: 222669
: 22266
: 22269
. ###########
один
два
три
############# Столбец(один) ###################################
: one имя: один
max_definition_level: 1
max_repetition_level: 0
physical_type: DOUBLE
logical_type: None
converted_type (legacy): NONE
#### ######## Столбец(два) ############
name: two
path: two
max_definition_level: 1
max_repetition_level: 0
physical_type: BYTE_ARRAY
logical_type: String
converted_type (legacy) : UTF8
############ Столбец (три) ############
имя: три
путь: три
max_definition_level: 1
max_repetition_level: 0
physical_type: BOOLEAN
logical_type: None
converted_type (legacy): NONE
Summary of technical features of parquet files
- Apache Parquet ориентирован на столбцы и предназначен для обеспечения эффективного хранения столбцов по сравнению с типами файлов на основе строк, такими как CSV.
- Файлы Parquet были разработаны с учетом сложных вложенных структур данных.
- Apache Parquet поддерживает очень эффективные схемы сжатия и кодирования.
- Apache Parquet снижает затраты на хранение файлов данных и максимально повышает эффективность запросов данных с помощью современных облачных технологий, таких как Amazon Athena, Redshift Spectrum, BigQuery и Azure Data Lakes.
- Лицензируется под лицензией Apache и доступен для любого проекта.
Для чего используется паркет?
Теперь, когда мы знаем немного больше об этом формате данных, давайте посмотрим, в каких случаях его использование более рекомендуется. Несомненно Царство паркетов Озера данных . Озера данных — это распределенные файловые хранилища, широко используемые сегодня для создания больших разнородных корпоративных хранилищ данных в облаке. В отличие от хранилища данных, озеро данных не имеет базового механизма базы данных и не имеет реляционной модели данных.
Предположим, у нас есть набор данных в формате таблицы (4 столбца), представляющий историю продаж компании за последние 10 лет. Если мы сохраним эту таблицу в формате CSV в Amazon Web Services S3, мы увидим, что размер, который она занимает, составляет 4 ТБ. Если мы сожмем этот файл с помощью GZIP, мы увидим, что его размер уменьшился до четверти (1 ТБ). Когда мы храним эту таблицу в том же сервисе (S3) в формате Parquet, мы видим, что она занимает тот же размер, что и сжатый CSV. Но кроме того, когда мы хотим получить доступ к части данных — скажем, к 1 отдельному столбцу — в случае CSV-файла (как упоминалось выше) мы должны прочитать всю таблицу, так как это хранилище строк. Однако, поскольку формат Parquet представляет собой хранилище, ориентированное на столбцы, мы можем независимо читать один столбец, получая доступ только к четверти информации в таблице, что влечет за собой экономию времени и средств.
Исходное сообщение Томас Спайсер in Medium.com
Как только мы поняли эффективность чтения данных с помощью Parquet из-за столбцового доступа к большинству данных, мы теперь можем понять, почему 3 современных сервисов хранения и обработки данных предпочитают Parquet CSV . Эти облачные сервисы для обработки данных очень популярны среди специалистов по данным, поскольку аналитику или специалисту по данным нужно беспокоиться только об анализе. Именно сервисы обеспечивают доступность и эффективность чтения.
Может показаться, что только самые сложные и аналитические варианты использования используют Parquet в качестве эталонного формата, но уже есть много команд в компаниях, которые начинают использовать Parquet из исходного кода для своих приложений бизнес-аналитики с инструментами для бизнес-пользователей (не- технические), такие как Power BI или Tableau.
В заключение, в этом посте мы выделили положительные особенности формата данных Parquet для хранения и обработки данных, когда речь идет об аналитических вариантах использования (машинное обучение, искусственный интеллект) или с сильной ориентацией столбца (например, временные ряды) .