Характеристика работы с данными

Работа с данными: Как это делают крупные компании

Характеристика работы с данными

/ фото Jason Tester Guerrilla Futures CC

Компания IDC сообщает, что в 2011 году человечеством было сгенерировано 1,8 зеттабайт информации. В 2012 году эта цифра составила уже 2,8 зеттабайт, а к 2020 она увеличится до 40 зеттабайт.

Существенную часть этих данных генерируют крупные мировые компании, такие как Google, , Apple. Им нужно не просто хранить данные, но и выполнять резервное копирование, следить за их актуальностью, обрабатывать, причем делать это с минимальными затратами. Поэтому ИТ-отделы крупных организаций разрабатывают собственные системы для решения этих задач.

По словам Шона Галлахера (Sean Gallagher), редактора Ars Technica, компания Google стала одним из первых веб-игроков, кто встретил проблему масштабирования хранилищ грудью. Ответ на вопрос компания нашла еще в 2003 году, разработав распределенную файловую систему – Google File System (GFS).

Если верить исследователю Санджаю Гхемавату (Sanjay Ghemawat) и старшим инженерам Говарду Гобиоффу (Howard Gobioff) и Шунь-Так Лэуну (Shun-Tak Leung) из Google, то GFS разработана с определенной спецификой. Её цель – превратить огромное количество дешевых серверов и жестких дисков в надежное хранилище для сотен терабайт данных, к которым имеют доступ множество приложений одновременно.

GSF является основой практически всех облачных сервисов Google. Google хранит данные приложений в огромных файлах, в которые сотни машин дописывают информацию одновременно. Более того, запись в файл может вестись прямо в тот момент, когда с ним ведется работа.

/ The Google File System

Система содержит мастер-серверы и серверы фрагментов (chunkservers), которые хранят данные. Обычно GFS-кластер состоит из одной главной мастер-машины и множества серверов фрагментов.

Файлы в GFS разбиваются на куски с фиксированным, но настраиваемым размером, которые серверы фрагментов хранят как Linux-файлы на локальном жестком диске (однако для повышения надежности каждый фрагмент дополнительно реплицируется на другие серверы).

Что касается мастера, то он отвечает за работу с метаданными и контролирует всю глобальную деятельность системы: управление фрагментами, сборка мусора, перемещение фрагментов между серверами и т. д. Одной из главных проблем подобной системы значатся частые сбои в работе её компонентов, поскольку она строится на базе большого количества дешевого оборудования. Сбой может быть вызван как недоступностью элемента системы, так и наличием испорченных данных. Но в Google были к этому готовы, поэтому GFS постоянно мониторит компоненты и в случае отказа какого-либо из них принимает необходимые меры для поддержания работоспособности системы. Поврежденные фрагменты определяются при помощи вычисления контрольных сумм. Каждый кусок разбивается на блоки по 64 КБ с 32-битной контрольной суммой. Как и другие метаданные эти суммы хранятся в памяти и регулярно пишутся в логи отдельно от данных пользователя. За все время существования GFS платформа Google развивалась и адаптировалась под новые требования, у поисковика появлялись новые сервисы. Получилось так, что размеры кластеров в GFS перестали подходить для эффективного хранения всех типов данных. К 2010 году исследователи компании изучили достоинства и недостатки GFS и применили приобретённые знания для создания новых программных систем. Так на свет появились распределенная файловая система Colossus (GFS2), Spanner (развитие BigTable) – масштабируемое геораспределенное хранилище с поддержкой версионности данных, масштабируемая система обработки запросов Dremel, Caffeine – инфраструктура поисковых сервисов Google, использующая GFS2, итеративный MapReduce и next-generation BigTable, и др. Сегодня они решают более сложные задачи и обрабатывают большее количество информации, открывая новые возможности.

/ фото Atomic Taco CC

Однако с большими объемами данных «сражается» не только Google. Необычный подход к хранению данных и репликации нашла компания Uber. Вместо того чтобы постоянно синхронизировать базу данных между ЦОДами, специалисты сервиса по предоставлению автомобилей решили организовать внешнюю распределенную систему из телефонов водителей.

В компании отмечают, что главная цель этого решения – повышение отказоустойчивости. Такой подход надежно защищает данные от сбоев в дата-центрах. При использовании классической стратегии репликации гарантировать сохранение информации о поездке было сложно из-за особенностей систем управления сетями. Обычное решение при сбоях в ЦОДе – передать данные с активного дата-центра на резервный, однако при наличии более чем двух ЦОДов сложность инфраструктуры резко возрастает, возникает задержка репликации между дата-центрами и требуется высокая скорость соединения. В случае Uber, если в дата-центре произойдет какая-либо ошибка, информация о поездке всегда сохранится на мобильном устройстве водителя. Поскольку смартфон обладает самыми актуальными данными, то именно с него актуальная информация поступает в ЦОД, а не наоборот.

Мобильные телефоны водителей отправляют данные каждые 4 секунды. «По этой причине перед Uber стояла задача обработки миллионов операций записи в секунду», – отметил Мэтт Рэнни (Matt Ranney), главный разработчик архитектуры системы Uber, в ходе презентации о масштабировании платформы.

Весь процесс выглядит следующим образом. Водитель обновляет свой статус, например, в тот момент, когда забирает пассажира, и отправляет запрос в службу диспетчеризации. Последняя обновляет модель поездки и оповещает об этом службу репликации. Когда репликация выполнена, диспетчер обновляет хранилище данных и сообщает мобильному клиенту об успешном завершении операции. В это же время служба репликации кодирует информацию и передает её службе обмена сообщениями, поддерживающей двунаправленный канал связи с водителями. Этот канал никак не связан с исходным каналом запросов, поэтому процессы восстановления данных не влияют на бизнес-процессы. Далее служба обмена сообщениями отправляет резервную копию на телефон. «Цифровая платформа Uber агрегирует поразительное количество данных, – отметил Тайлер Джеймс Джонсон (Tyler James Johnson) в Convergent Technology Advisors. – Карты, маршруты, информация о предпочтениях клиентов, связи – это лишь малая часть содержимого хранилищ Uber. Компания много инвестирует в развитие цифровых технологий. Данные – это основа всего».
Эти данные важно сохранить, поскольку они пригодятся компании в будущем. Не за горами появление автопилотируемых автомобилей. Компания Gartner предсказывает, что одна из пяти машин в мире будет обладать беспроводным подключением уже к 2020 году, а это, на секундочку, 250 миллионов подключенных транспортных средств. Пока что лидером на этом рынке остается Google, но параллельно с технологическим гигантом над подобными системами работают Tesla, Ford, Apple. Не отстает и Uber. У компании имеется Центр разработки передовых технологий, который работает в партнерстве с Университетом Карнеги – Меллона в Питтсбурге. В нем разрабатывают умные автомобили и другие технологии, способные помочь компании повысить качество предоставляемых сервисов и снизить их стоимость.

«Увеличение объемов создаваемого и потребляемого цифрового контента приведет к необходимости создания новых более сложных информационных систем, – сказал Джеймс Хайнс (James Hines), руководитель исследований в Gartner. – В то же время применение этих технологий в автосфере приведет к появлению новых бизнес-моделей и подходов к владению автомобилями в городской среде».

P.S. Мы стараемся делиться не только собственным опытом работы над сервисом по предоставлению виртуальной инфраструктуры 1cloud, но и рассказывать о смежных областях знаний в нашем блоге на Хабре. Не забывайте подписываться на обновления, друзья!

  • Тема «удаленки» в этом году уже успела всем надоесть, но мир вынужден погружаться в нее с каждой новой эпидемиологической волной и в массовом порядке мигрировать из офиса. Этот процесс связан со множеством сложностей, в том числе с точки зрения адаптации технологий и поддержания должного уровня информационной безопасности. Именно они все чаще ассоциируются с этим форматом работы, а разговоры о ванильных метриках — вроде сокращения временных затрат на дорогу до рабочего места и обратно — отходят на второй план. Читать далее
  • Ранее мы обсуждали неочевидные моменты, связанные с ротацией парольных фраз и персональной ИБ. Сегодня продолжим тему, но поговорим о работе с файлами, а именно о том, как вычислить, кто «слил» конфиденциальную информацию по метаданным и защитить документы компании. Читать далее
  • Одни считают, что образовательные -каналы и подкасты по определению не могут дать глубоких знаний, другие — находят там новые идеи и черпают вдохновение. Мы решили разобраться, что смотрят опытные разработчики и те, кто только начинают учебных процесс в IT.Сегодня остановимся на общих темах, а в следущий раз — перейдем к специализированным. Читать и смотреть
  • На днях мы рассказали об исследовании, в рамках которого был предложен механизм квантового распределения ключа для десяти участников сети. Продолжаем смотреть на аналогичные проекты. Читать дальше →
  • Расскажем, кто их придумал и в чем они заключаются. Также поговорим о критике этого подхода — о том, почему некоторые разработчики отказываются следовать SOLID-методологиям. Читать дальше →
  • Продолжаем делиться (раз, два) TL;DR-версиями постов из нашего блога. Здесь — только главные моменты из каждой статьи, а ссылки на развернутые тексты — есть в подзаголовках дайджеста. Читать дальше →
  • Группа физиков представила систему квантового распределения ключа для десяти участников — долгое время их количество не превышало двух. Расскажем, что известно о разработке и аналогах. Читать дальше →
  • Расскажем, в чем суть философии, кто её сформулировал, расширял и критиковал по ходу развития. (Кстати, вчера вышел и наш очередной TL;DR-дайджест про «удаленку» и личную ИБ.) Читать дальше →
  • Продолжаем делиться TL;DR-версиями публикаций из нашего блога. Здесь — все основные моменты каждого материала, а ссылки на развернутые тексты публикаций — легко найти в подзаголовках. Читать дальше →
  • В августе Linux Foundation основали фонд OpenSSF. В него вошли — Core Infrastructure Initiative и Open Source Security Coalition. Их участники разработают инструментарий для поиска уязвимостей в коде и верификации программистов, участвующих в его написании. Рассказываем, что к чему. Читать дальше →
  • Это — наша компактная подборка бесплатных инструментов, позволяющих оценить производительность и стабильность контейнеризированных приложений. Под катом — система мониторинга кластеров Kmoncon, среда разработки Lens с функциями бенчмаркинга, а также утилита для стресс-тестирования нодов в формате компьютерной игры. Читать дальше →
  • В прошлый раз мы подобрали книги про обслуживание и защиту корпоративных сетей. Сегодня рассказываем о трех аудиошоу на эту же тему — для тех, у кого нет времени читать. Читать дальше →
  • Это компактный дайджест с литературой о настройке сетевой инфраструктуры и политик безопасности. Мы выбрали книги, часто упоминаемые на Hacker News и других тематических площадках об управлении ресурсами сетей, настройке и защите облачной инфраструктуры. Читать дальше →
  • Формат RFC существует с 1969 года — его представили во время обсуждения ARPANET. Тогда инженер Стив Крокер написал RFC 1 о работе программного обеспечения хоста. С тех пор прошло более 50 лет, но Request for Comments все еще в ходу — опубликовано ~9 тыс. документов по сетевым протоколам, моделям хранения данных и алгоритмам шифрования.В этом многообразии встречаются RFC, у которых нет практического применения. Их написали по большей части ради шутки. Сегодня расскажем о некоторых находках из этой области. Читать дальше →
  • Дистанционка — тренд этого года. В переходе к такому формату работы заинтересованы и сотрудники, и сами компании. Первые — хотят избавиться от временных затрат на дорогу, вторые — от необходимости платить за аренду пустующих офисов. Быстрый переход требует сил и средств — далеко не всегда менеджеры пользуются даже ходовыми инструментами вроде облачных сервисов для разворачивания и настройки удаленных рабочих мест, а еще чаще — пытаются внедрить классические «офисные» средства для поддержания бизнес-процессов. Так происходит и с сервисами для мониторинга эффективности сотрудников, но на практике такой подход — без адаптации к дистанционному формату — не приводит ни к чему хорошему. Читать дальше →
  • Месяц назад американский суд запретил правоохранителям изучать экран блокировки смартфона без ордера. Мы обсуждали эту ситуацию и решили продолжить тему. Поговорим о том, как обстоят дела с досмотром мобильных в других странах мира — Великобритании, Австралии и Германии. Читать дальше →
  • Вместо привычных дайджестов избранных постов из нашего блога сегодня пробуем новый TL;DR-формат — рассказываем все самое главное из каждого материала. Если захотите детально изучить пруфы и углубиться в какую-либо тему, ссылки на полные версии — в подзаголовках. Читать дальше →
  • На днях мы обсудили, как госучреждения в Европе переходят на открытое ПО. Теперь расскажем, кто делает что-то подобное на уровне ИТ-инфраструктуры — на примере пары открытых ОС. Читать дальше →
  • Говорим об инициативах Мюнхена, Барселоны, а также CERN. Читать дальше →

Источник: https://habr.com/ru/company/1cloud/blog/302124/

Работа с данными

Характеристика работы с данными

В процессе анализа неструктурированных данных мы проходим несколько шагов:

  1. Формулируем вопрос, на который необходимо ответить с помощью данных;
  2. Подготавливаем данные так, чтобы они отвечали на поставленный вопрос;
  3. Проводим анализ данных, т.е. получаем ответ на заданный вопрос из массива данных;
  4. Визуализируем данные;
  5. Делаем выводы.

Рассмотрим подробнее каждые этапы.

Шаг 1. Формулировка вопроса помогает: определить какие данные нужны, придерживаться выбранного направления анализа, снизить риск отклонения от поставленной цели. Ошибка, допущенная на первом этапе, может привести к потере времени и «обнулить» результат работы всей команды.

Шаг 2. Подготовка данных практически всегда является сложным и трудоемким процессом, т.к. требует извлечения данных из исходных источников, их преобразования для работы и очистки от «грязных» данных.

Мы извлекаем данные с web-сайтов, социальных сетей, из готовых баз данных, CSV-файлов, таблиц Excel.

Подготовленные данные должны быть правильно отформатированы, учтены все отклонения (например, чрезмерно отклоняющиеся данные).

Для работы с данными мы используем инструмент Python, а именно, некоторые методы, которые могут применять в работе не только IT специалисты, но и аудиторы, делающие только первые шаги в программировании на этом языке.

Например, в наших выборках мы часто встречаем пропущенные значения. Пропуски могут возникать в результате объединения двух файлов с данными, в которых названия меток индексов и столбцов не совпадают, или значение переменной нам в данный момент неизвестно, или данные, полученные с внешних сайтов — неполные.

Для поиска пропусков в значениях (значения NaN в объекте DataFrame) мы используем библиотечный метод. isnull(). Значение «True» в наших данных после применения. isnull() означает, что в этой позиции элемент NaN.

Чтобы определить, что элемент не является пропущенным значением можно применить. notnull().

Чтобы вычислить количество NaN, мы используем метод. sum(), который принимает значение True =1, False=0.

Кроме того, можно воспользоваться методом. count(): для объекта Series метод возвращает число непропущенных значений. Для DataFrame считает количество непропущенных значений в каждом столбце.

Также для обработки пропущенных данных мы используем простое их удаление из нашей выборки. В библиотеке Pandas есть для этого несколько методов. Один из них — это фильтрация по условию с использование результатов ранее примененных. isnull() и. notnull().

Например, чтобы отобрать в столбце 3 нашей DataFrame (df) непропущенные значения используем код: df.c3[df.c3.notnull()], который извлечет все значения столбца 3, кроме NaN. Кроме того, мы используем метод. dropna(), который удаляет из объекта DataFrame строки, содержащие значения NaN.

Для удаления только строк, в которых все значения неопределенны, используем параметр how = ‘all’: df.dropna(how=’all’). C помощью параметра how = ‘any’, удаляем столбцы, где есть хотя бы одно значение NaN.

А с помощью параметра thresh задаем необходимый минимум заполненных значений, для того чтобы не удалять строки столбцы, в которых есть пропуски.

В некоторых случаях пропущенные значения мы заполняем определенным значением, используя метод. fillna(). Пропущенные значения можно заполнить константой, или последним непропущенным значением как в прямом:.

fillna(method = «ffill”), так и обратном порядке:. fillna(method = ‘bfill»). Или заполняем с помощью индексов: fill_values. Кроме того, мы применяем метод интерполяции пропущенных значений. interpolate().

Шаг 3. Анализ подготовленных данных мы осуществляем с помощью методов классификации, кластеризации и обучения с подкреплением.

Каждый из этих инструментов мы используем в следующих случаях:

— метод классификации, если нами заранее определено в какие группы будем объединять данные (ответы «да»/«нет»);

— метод кластеризации, когда группы заранее неизвестны. Например, будем делать оценку возрастной категории клиента, давшего тот или иной ответ;

— метод обучения с подкреплением, когда не требуется выполнять точно заданные действия, но можно проводить исследования и обучаться лучшим методам решения задач.

Шаг 4. Переходя к визуализации данных, мы используем «две стороны одной монеты»: с одной стороны, мы визуализируем данные, чтобы изучить их, а с другой представить окружающим наши выводы и гипотезы.

Визуальный анализ на этапе обработки данных помогает увидеть аномалии в данных, сделать обобщения результатов, выявить тенденции поведения групп данных и проверить отвечают ли наши данные на изначально заданный вопрос.

Для этого мы используем пакет Seaborn для программ Python и ggplot2, и Shiny для R.

Визуализация данных для презентации результатов окружающим осуществляется с помощью программ PowerBI и Tableau. Данный этап также совмещает в себе подготовку выводов.

Подводя итог, хочется сказать, что часто методы работы с данными, освоенные ранее и которые нам нравятся, могут оказаться неэффективными. Привыкнув работать с Excel, не нужно бояться осваивать языки программирования Python или R. Ведь использование указанных выше программных продуктов помогают значительно ускорить процесс обработки данных.

Источник: https://vc.ru/newtechaudit/118552-rabota-s-dannymi

Большие данные

Характеристика работы с данными

Большие данные – направление, о котором все говорят, но мало кто хорошо в нём разбирается. Гиганты электронной коммерции, промышленные компании и информационные корпорации инвестируют в эту технологию миллиарды. Что же такое Big Data, какие перспективы они предлагают и где используются?

Что такое большие данные

Большие данные – современное технологическое направление, связанное с обработкой крупных массивов данных, которые постоянно растут. Big Data – это сама информация, методы её обработки и аналитики. Перспективы, которые может принести Big Data интересны бизнесу, маркетингу, науке и государству.

В первую очередь большие данные – это всё-таки информация. Настолько большая, что ей сложно оперировать с помощью обычных программных средств. Она бывает структурированной (обработанной), и неструктурированной (разрозненной). Вот некоторые её примеры:

• Данные с сейсмологических станций по всей Земле.• База пользовательских аккаунтов .• Геолокационная информация всех фотографий, выложенных за сегодня в Instagram.

• Базы данных операторов мобильной связи.

Для Big Data разрабатываются свои алгоритмы, программные инструменты и даже машины. Чтобы придумать средство обработки, постоянно растущей информации, необходимо создавать новые, инновационные решения. Именно поэтому большие данные стали отдельным направлением в технологической сфере.

VVV — признаки больших данных

Чтобы уменьшить размытость определений в сфере Big Data, разработаны признаки, которым они должны соответствовать. Все начинаются с буквы V, поэтому система носит название VVV:

• Volume – объём. Объём информации измерим.

• Velocity – скорость. Объём информации не статичен – он постоянно увеличивается, и инструменты обработки должны это учитывать.

• Variety – многообразие. Информация не обязана иметь один формат. Она может быть неструктурированной, частично или полностью структурированной.

К этим трём принципам, с развитием отрасли, добавляются дополнительные V. Например, veracity – достоверность, value – ценность или viability – жизнеспособность.

Но для понимания достаточно первых трёх: большие данные измеримые, прирастающие и неоднообразные.

Для чего необходимы большие данные

цель работы с большими данными – обуздать их (проанализировать) и направить. Человечество научилось производить и извлекать огромные массивы информации, а с их управлением ещё есть проблемы.

Прямо сейчас большие данные помогают в решении таких задач:

• повышение производительности труда;• точная реклама и оптимизация продаж;• прогнозирование ситуаций на внутренних и глобальных рынках;• совершенствование товаров и услуг;• улучшение логистики;

• качественное таргетирование клиентов в любой сфере бизнеса.

Большие данные делают услуги удобнее и выгоднее как для продавцов, так и для покупателей. Предприятия могут узнать, какая продукция популярнее, как сформировать ценовую политику, когда лучшее время для продаж, как оптимизировать ресурсы на производстве, чтобы сделать его эффективнее. За счёт этого клиенты получают точное предложение «без воды».

Источник: lifehacker.ru 

Где используются больше данные

• Облачные хранилища. Хранить всё на локальных компьютерах, дисках и серверах неудобно и затратно. Крупные облачные data-центры становятся надёжным способом хранения информации, доступной в любой момент.

• Блокчейн. Революционная технология, сотрясающая мир в последние годы, упрощает транзакции, делает их безопаснее, а, главное, хорошо справляется с обработкой операций между гигантским количеством контрагентов за счёт своего математического алгоритма.

• Самообслуживание. Роботизация и промышленная автоматизация снижают расходы на ведение бизнеса и уменьшают стоимость товаров или услуг.

• Искусственный интеллект и глубокое обучение. Подражание мышлению головного мозга помогает делать отзывчивые системы, эффективные в науке и бизнесе.

Эти сферы создаются и прогрессируют благодаря сбору и анализу данных. Пионерами в области таких разработок являются: поисковые системы, мобильные операторы, гиганты онлайн-коммерции, банки.

Big Data будет неотъемлемой частью Индустрии 4.0 и интернета вещей, когда сложные системы из огромного числа устройств работают, как единое целое. Вот простые, уже не футуристические, примеры этого:

• Автоматизированный завод сам изменяет линейку продукции, ориентируясь на анализ спроса, поставок, себестоимости и рыночной ситуации.

• Умный дом даёт рекомендации о том, как одеться по погоде и по какому маршруту быстрее всего добраться до работы утром.

• Компания анализирует производство и каналы сбыта с учётом изменений реальной обстановки на рынке.

• Дорожная безопасность повышается за счёт сбора данных о стиле вождения и нарушениях отдельных водителей, а также состояния их машин.

Кто использует большие данные

Наибольший прогресс отрасли наблюдается в США и Европе. Вот крупнейшие иностранные компании и ведомства, которые используют Big Data:

• HSBC повышает безопасность клиентов пластиковых карт. Компания утверждает, что в 10 раз улучшила распознавание мошеннических операций и в 3 раза – защиту от мошенничества в целом.

• Суперкомпьютер Watson, разработанный IBM, анализирует финансовые транзакции в режиме реального времени. Это позволяет сократить частоту ложных срабатываний системы безопасности на 50% и выявить на 15% больше мошеннических действий.

• Procter&Gamble проводит с использованием Big Data маркетинговые исследования, более точно прогнозируя желания клиентов и спрос новых продуктов.

• Министерство труда Германии добивается целевого расхода средств, анализируя большие данные при обработке заявок на пособия. Это помогает направить деньги тем, кто действительно в них нуждается (оказалось, что 20% пособий выплачивались нецелесообразно). Министерство утверждает, что инструменты Big Data сокращают затраты на €10 млрд.

Среди российских компаний стоит отметить следующие:

• Яндекс. Это корпорация, которая управляет одним из самых популярных поисковиков и делает цифровые продукты едва ли не для каждой сферы жизни. Для Яндекс Big Data – не инновация, а обязанность, продиктованная собственными нуждами. В компании работают алгоритмы таргетинга рекламы, прогноза пробок, оптимизации поисковой выдачи, музыкальных рекомендаций, фильтрации спама.

• Мегафон. Телекоммуникационный гигант обратил внимание на большие данные примерно пять лет назад. Работа над геоаналитикой привела к созданию готовых решений анализа пассажироперевозок. В этой области у Мегафон есть сотрудничество с РЖД.

• Билайн. Этот мобильный оператор анализирует массивы информации для борьбы со спамом и мошенничеством, оптимизации линейки продуктов, прогнозирования проблем у клиентов. Известно, что корпорация сотрудничает с банками – оператор помогает анонимно оценивать кредитоспособность абонентов.

• Сбербанк. В крупнейшем банке России супермассивы анализируются для оптимизации затрат, грамотного управления рисками, борьбы с мошенничеством, а также расчёта премий и бонусов для сотрудников. Похожие задачи с помощью Big Data решают конкуренты: Альфа-банк, ВТБ24, Тинькофф-банк, Газпромбанк.

И за границей, и в России организации в основном пользуются сторонними разработками, а не создают инструменты для Big Data сами. В этой сфере популярны технологии Oracle, Teradata, SAS, Impala, Apache, Zettaset, IBM, Vowpal.

Читайте: Что такое интернет вещей, как он работает и чем полезен

Источник: https://invlab.ru/texnologii/bolshie-dannye/

Вопрос 31. Организация работ с данными в вычислительной сети. Схема взаимодействия пользователя с базой данных. Краткая характеристика

Характеристика работы с данными

Компьютерная (вычислительная) сеть — совокупность компьютеров и терминалов, соединенных с помощью каналов связи в единую систему, удовлетворяющую требованиям распределенной обработки данных.

Локальнаявычислительнаясетьобъединяет абонентов, расположенных в пределах небольшой территории.

В настоящее время не существует четких ограничений на территориальный разброс абонентов локальной вычислительной сети. Обычно такая сеть привязана к конкретному месту.

К классу локальных вычислительных сетей относятся сети отдельных предприятий, фирм, банков, офисов и т.д. Протяженность такой сети можно граничить пределами 2–2,5 км.

Технические устройства, выполняющие функции сопряжения ЭВМ с каналами связи называются адаптерамиилисетевыеадаптерами.Один адаптер обеспечивает сопряжение с ЭВМ одного канала связи.

Архитектура вычислительной сети.Основное назначение любой компьютерной сети — предоставление информационных и вычислительных ресурсов подключенным к ней пользователям.

С этой точки зрения локальную вычислительную сеть можно рассматривать как совокупность серверов и рабочих станций.

Сервер — компьютер, подключенный к сети и обеспечивающий ее пользователей определенными услугами. Серверы могут осуществлять хранение данных, управление базами данных, удаленную обработку заданий, печать заданий и ряд других функций, потребность в которых мажет возникнуть у пользователей сети. Сервер — источник ресурсов сети.

Рабочая станция — персональный компьютер, подключенный к сети, через который пользователь получает доступ к ее ресурсам. Рабочая станция сети функционирует как в сетевом, так и в локальном режиме. Она оснащена собственной операционной системой (MS DOS, Windows и т. д.), o6eчивает пользователя всеми необходимыми инструментами для решения прикладных задач.

Особое внимание следует уделить одному из типов серверов — файловому серверу (FileServer). В распространенной терминологии для него принято сокращенное название файл-сервер.

Файл-сервер хранит данные пользователей сети и обеспечивает им доступ к этим данным.

Это, компьютер с большой емкостью оперативной памяти, жесткими диски большой емкости и дополнительными накопителями на магнитной ленте (стриммерами).

Он работает под управлением специальной операционной системы, которая обеспечивает одновременный доступ пользователей сети к расположенным на нем данным.

Файл-сервер выполняет следующий функции: хранение данных, архивирование данных, синхронизацию изменений данных различными пользователями, передачу данных.

Для многих задач использование одного файл-сервера оказывается недостаточным. Тогда в сеть, могут включаться несколько серверов.

Управление взаимодействием устройств в сети. Информационные системы, построенные на базе компьютерных сетей обеспечивают решение следующих задач: хранение данных, обработка данных, организация доступа пользователей к данным, передача данных результатов обработки данных пользователям.

В системах централизованной обработки эти функции выполняла центральная ЭВМ (Mainframe, Host).

Компьютерные сети реализуют распределению обработку данных. Обработка данных в этом случае распределена между двумя объектами: клиентом и сервером.

Клиент — задача, рабочая станция или пользователь компьютерной сети. В процессе обработки данных клиент может сформировать запрос на сервер для выполнения сложных пpoцедур, чтение файла, поиск информации в базе данных и т. д.

Сервер, определенный ранее, выполняет запрос, поступивший от клиента. Результаты выполнения запроса передаются клиенту. Сервер обеспечивает хранение данных общего пользования организует доступ к этим данным и передает данные клиенту.

Клиент обрабатывает полученные данные и представляет результаты обработки в виде удобном для пользователя. В принципе обработка данных может быть выполнена и на сервере. Для подобных систем приняты термины — системы клиент-сервер или архитектура клиент-сервер.

Архитектура клиент-сервер может использоваться как в одноранговых локальных вычислительных сетях, так и в сети с выделенным сервером.

Одноранговая сеть. В такой сети нет единого центра управления взаимодействием рабочих станций нет единого устройства для хранения данных. Сетевая операционная система распределена по всем рабочим станциям. Каждая станция сети может выполнять функции как клиента, так и сервера. Она может обслуживать запросы от других рабочих станций и направлять свои запросы на обслуживание в сеть.

Пользователю сети доступны все устройства, подключенные к другим станциям (диски, принтеры).

Достоинства одноранговых сетей: низкая стоимость и высокая надежность.

Недостатки одноранговых сетей:

– зависимость эффективности работы сети от количества станций;

– сложность управления сетью;

– сложность, обеспечения защиты информации;

– трудности обновления и изменения программного обеспечения станций.

Сеть с выделенным сервером. В сети с выделенным сервером один из компьютеров выполняет функции хранения данных, предназначенных для использования всеми рабочими станциями, управления взаимодействием между рабочими станциями и ряд сервисных функций.

Такой компьютер обычно называют сервером сети. На нем устанавливается сетевая операционная система, к нему подключаются все разделяемые внешние устройства — жесткие диски, принтеры и модемы.

Взаимодействие между рабочими станциями в сети, как правило, осуществляется через сервер. Логическая организация такой сети может, быть представлена топологией звезда. Роль центрального устройства выполняет сервер.

Достоинства сети с выделенным сервером:

– надежная система защиты информации;

– высокое быстродействие;

– отсутствие ограничений на число рабочих станций;

– простота управления по сравнению с одноранговыми сетями.

Недостатки сети:

– высокая стоимость из-за выделения одного компьютера под сервер;

– зависимость быстродействия и надежности сети от сервера;

– меньшая гибкость по сравнению с одноранговой сетью.

Маршрутизатор (роутер). Сеть сложной конфигурации, представляющая собой соединение нескольких сетей, нуждается в специальном устройстве. Задача этого устройства — отправить сообщение адресату в нужную сеть.

Называется такой устройство маршрутизатором. Маршрутизатор выполняет свои функции на сетевом уровне, поэтому он зависит от протоколов обмена данными, но не зависит от типа сети.

С помощью двух адресов — адреса сети и адреса узла маршрутизатор однозначно выбирает определенную станцию сети.

ИЛИ

Источник: https://studopedia.ru/20_16168_vopros--organizatsiya-rabot-s-dannimi-v-vichislitelnoy-seti-shema-vzaimodeystviya-polzovatelya-s-bazoy-dannih-kratkaya-harakteristika.html

Поделиться:
Нет комментариев

    Добавить комментарий

    Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.