Сервер Hewlett-Packard HP 9000 V-class на базе процессора PA-8200

Применение многопроцессорных вычислительных систем. Отличительные особенности многопроцессорной вычислительной системы. Cервера серии HP 9000. Структурная схема компьютера с гибридной сетью. Организация когерентности многоуровневой иерархической памяти.

Рубрика Программирование, компьютеры и кибернетика
Вид курсовая работа
Язык русский
Дата добавления 13.08.2011
Размер файла 440,6 K

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ИНФОРМАТИКИ И РАДИОЭЛЕКТРОНИКИ

КУРСОВАЯ РАБОТА ПО АРХИТЕКТУРЕ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

ТЕМА: Сервер Hewlett-Packard HP 9000 V-class на базе процессора PA-8200

Студента ФНиДО

БГУИР, Информатика, группа 702021с

Дядькина Семена Викторовича

Минск 2011

Оглавление

Введение

Сервер Hewlett-Packard HP 9000 V-class на базе процессора PA-8200

MIMD-системы

Гибридная архитектура NUMA

Пример сервера HP 9000 V-class.

Коммутатор Hyperplane™

Организация памяти

Архитектура PA-RISC и процессор PA-8200

Операционная система HP-UX

Список литературы

Введение

В настоящее время сфера применения многопроцессорных вычислительных систем (МВС) непрерывно расширяется, охватывая все новые области в различных отраслях науки, бизнеса и производства. Стремительное развитие кластерных систем создает условия для использования многопроцессорной вычислительной техники в реальном секторе экономики.

Если традиционно МВС применялись в основном в научной сфере для решения вычислительных задач, требующих мощных вычислительных ресурсов, то сейчас из-за бурного развития бизнеса резко возросло количество компаний, отводящих использованию компьютерных технологий и электронного документооборота главную роль. В связи с этим непрерывно растет потребность в построении централизованных вычислительных систем для критически важных приложений, связанных с обработкой транзакций, управлением базами данных и обслуживанием телекоммуникаций. Можно выделить две основные сферы применения описываемых систем: обработка транзакций в режиме реального времени (OLTP, online transaction processing) и создание хранилищ данных для организации систем поддержки принятия решений (Data Mining, Data Warehousing, Decision Support System). Система для глобальных корпоративных вычислений -- это, прежде всего, централизованная система, с которой работают практически все пользователи в корпорации, и, соответственно, она должна все время находиться в рабочем состоянии. Как правило, решения подобного уровня устанавливают в компаниях и корпорациях, где даже кратковременные простои сети могут привести к громадным убыткам. Поэтому для организации такой системы не подойдет обыкновенный сервер со стандартной архитектурой, вполне пригодный там, где нет жестких требований к производительности и времени простоя. Высокопроизводительные системы для глобальных корпоративных вычислений должны отличаться такими характеристиками как повышенная производительность, масштабируемость, минимально допустимое время простоя.

Наряду с расширением области применения по мере совершенствования МВС происходит усложнение и увеличение количества задач в областях, традиционно использующих высокопроизводительную вычислительную технику. В настоящее время выделен круг фундаментальных и прикладных проблем, эффективное решение которых возможно только с использованием сверхмощных вычислительных ресурсов. Этот круг, обозначаемый понятием "Grand challenges", включает следующие задачи:

* предсказания погоды, климата и глобальных изменений в атмосфере;

* науки о материалах;

* построение полупроводниковых приборов;

* сверхпроводимость;

* структурная биология;

* разработка фармацевтических препаратов;

* генетика;

* квантовая хромодинамика;

* астрономия;

* транспортные задачи;

* гидро и газодинамика;

* управляемый термоядерный синтез;

* эффективность систем сгорания топлива;

* геоинформационные системы;

* разведка недр;

* наука о мировом океане;

* распознавание и синтез речи;

* распознавание изображений.

Многопроцессорные вычислительные системы могут существовать в различных конфигурациях. Наиболее распространенными типами МВС являются:

* системы высокой надежности;

* системы для высокопроизводительных вычислений;

* многопоточные системы.

Отметим, что границы между этими типами МВС до некоторой степени размыты, и часто система может иметь такие свойства или функции, которые выходят за рамки перечисленных типов. Более того, при конфигурировании большой системы, используемой как система общего назначения, приходится выделять блоки, выполняющие все перечисленные функции.

МВС являются идеальной схемой для повышения надежности информационно-вычислительной системы. Благодаря единому представлению, отдельные узлы или компоненты МВС могут незаметно для пользователя заменять неисправные элементы, обеспечивая непрерывность и безотказную работу даже таких сложных приложений как базы данных.

Катастрофоустойчивые решения создаются на основе разнесения узлов многопроцессорной системы на сотни километров и обеспечения механизмов глобальной синхронизации данных между такими узлами.

МВС для высокопроизводительных вычислений предназначены для параллельных расчетов. Имеется много примеров научных расчетов, выполненных на основе параллельной работы нескольких недорогих процессоров, обеспечивающих одновременное проведение большого числа операций.

МВС для высокопроизводительных вычислений обычно собраны из многих компьютеров. Разработка таких систем - процесс сложный, требующий постоянного согласования таких вопросов как инсталляция, эксплуатация и одновременное управление большим числом компьютеров, технических требований параллельного и высокопроизводительного доступа к одному и тому же системному файлу (или файлам), межпроцессорной связи между узлами и координации работы в параллельном режиме. Эти проблемы проще всего решаются при обеспечении единого образа операционной системы для всего кластера. Однако реализовать подобную схему удается далеко не всегда, и обычно она применяется лишь для небольших систем.

Многопоточные системы используются для обеспечения единого интерфейса к ряду ресурсов, которые могут со временем произвольно наращиваться (или сокращаться). Типичным примером может служить группа web-серверов.

Главной отличительной особенностью многопроцессорной вычислительной системы является ее производительность, т.е. количество операций, производимых системой за единицу времени. Различают пиковую и реальную производительность. Под пиковой понимают величину, равную произведению пиковой производительности одного процессора на число таких процессоров в данной машине. При этом предполагается, что все устройства компьютера работают в максимально производительном режиме. Пиковая производительность компьютера вычисляется однозначно, и эта характеристика является базовой, по которой производят сравнение высокопроизводительных вычислительных систем. Чем больше пиковая производительность, тем (теоретически) быстрее пользователь сможет решить свою задачу. Пиковая производительность есть величина теоретическая и, вообще говоря, недостижимая при запуске конкретного приложения. Реальная же производительность, достигаемая на данном приложении, зависит от взаимодействия программной модели, в которой реализовано приложение, с архитектурными особенностями машины, на которой приложение запускается.

Существует два способа оценки пиковой производительности компьютера. Один из них опирается на число команд, выполняемых компьютером за единицу времени. Единицей измерения, как правило, является MIPS (Million Instructions Per Second).

Производительность, выраженная в MIPS, говорит о скорости выполнения компьютером своих же инструкций. Но, во-первых, заранее не ясно, в какое количество инструкций отобразится конкретная программа, а во-вторых, каждая программа обладает своей спецификой, и число команд от программы к программе может меняться очень сильно. В связи с этим данная характеристика дает лишь самое общее представление о производительности компьютера.

Другой способ измерения производительности заключается в определении числа вещественных операций, выполняемых компьютером за единицу времени. Единицей измерения является Flops (Floating point operations per second) - число операций с плавающей точкой, производимых компьютером за одну секунду. Такой способ является более приемлемым для пользователя, поскольку ему известна вычислительная сложность программы, и, пользуясь этой характеристикой, пользователь может получить нижнюю оценку времени ее выполнения.

Однако пиковая производительность получается только в идеальных условиях, т.е. при отсутствии конфликтов при обращении к памяти при равномерной загрузке всех устройств. В реальных условиях на выполнение конкретной программы влияют такие аппаратно-программные особенности данного компьютера как: особенности структуры процессора, системы команд, состав функциональных устройств, реализация ввода/вывода, эффективность работы компиляторов.

Одним из определяющих факторов является время взаимодействия с памятью, которое определяется ее строением, объемом и архитектурой подсистем доступа в память. В большинстве современных компьютеров в качестве организации наиболее эффективного доступа к памяти используется так называемая многоуровневая иерархическая память. В качестве уровней используются регистры и регистровая память, основная оперативная память, кэш-память, виртуальные и жесткие диски, ленточные роботы. При этом выдерживается следующий принцип формирования иерархии: при повышении уровня памяти скорость обработки данных должна увеличиваться, а объем уровня памяти - уменьшаться. Эффективность использования такого рода иерархии достигается за счет хранения часто используемых данных в памяти верхнего уровня, время доступа к которой минимально. А поскольку такая память обходится достаточно дорого, ее объем не может быть большим. Иерархия памяти относится к тем особенностям архитектуры компьютеров, которые имеют огромное значение для повышения их производительности. Для того чтобы оценить эффективность работы вычислительной системы на реальных задачах, был разработан фиксированный набор тестов. Наиболее известным из них является LINPACK - программа, предназначенная для решения системы линейных алгебраических уравнений с плотной матрицей с выбором главного элемента по строке. LINPACK используется для формирования списка Top500 - пятисот самых мощных компьютеров мира. Однако LINPACK имеет существенный недостаток: программа распараллеливается, поэтому невозможно оценить эффективность работы коммуникационного компонента суперкомпьютера.

В настоящее время большое распространение получили тестовые программы, взятые из разных предметных областей и представляющие собой либо модельные, либо реальные промышленные приложения. Такие тесты позволяют оценить производительность компьютера действительно на реальных задачах и получить наиболее полное представление об эффективности работы компьютера с конкретным приложением. Наиболее распространенными тестами, построенными по этому принципу, являются: набор из 24 Ливерморских циклов (The Livermore Fortran Kernels, LFK) и пакет NAS Parallel Benchmarks (NPB), в состав которого входят две группы тестов, отражающих различные стороны реальных программ вычислительной гидродинамики. NAS тесты являются альтернативой LINPACK, поскольку они относительно просты и в то же время содержат значительно больше вычислений, чем, например, LINPACK или LFK. Однако при всем разнообразии тестовые программы не могут дать полного представления о работе компьютера в различных режимах. Поэтому задача определения реальной производительности многопроцессорных вычислительных систем остается пока нерешенной.

Сервер Hewlett-Packard HP 9000 V-class на базе процессора PA-8200

Согласно Hewlett-Packard, линия серверов HP 9000 V-class ориентирована на решение сложных инженерных задач, а также на применение в корпоративных информационных центрах, системах обработки транзакций и принятия решений. Согласно официальному заявлению HP, гарантированная надежность серверов V-class теперь составляет 99.999% рабочего времени (т.е. в среднем только 5 минут простоя за год).

HP также использует технологию SCA (scalable computing architecture), которая позволит управлять ресурсами 128 процессоров с помощью одной копии операционной системы HP-UX 11.0.

Cервера серии HP 9000 обеспечивают все преимущества высокопроизводительных масштабируемых систем, поддерживая при этом традиционную модель программирования. Эта модель позволяет разработчикам, компиляторам и приложениям рассматривать сервер как MIMD-систему или набор процессоров, разделяющих большую физическую память и набор высокоскоростных портов ввода/вывода.

MIMD-системы

MIMD (multiple instruction stream / multiple data stream) - множественный поток команд и множественный поток данных. Эти машины параллельно выполняют несколько потоков инструкций над различными потоками данных. Команды и данные связаны, потому что они представляют различные части одной и той же задачи.

Рис. 1. MIMD архитектура

Например, MIMD-системы могут параллельно выполнять множество подзадач с целью сокращения времени выполнения основной задачи. Большое разнообразие попадающих в данный класс систем делает классификацию Флинна не полностью адекватной. Действительно, и четырехпроцессорный SX-5 компании NEC, и тысячепроцессорный Cray T3E попадают в этот класс. Это заставляет использовать другой подход к классификации, иначе описывающий классы компьютерных систем. Основная идея такого подхода может состоять, например, в следующем. Будем считать, что множественный поток команд может быть обработан двумя способами: либо одним конвейерным устройством обработки, работающем в режиме разделения времени для отдельных потоков, либо каждый поток обрабатывается своим собственным устройством. Первая возможность используется в MIMD-компьютерах, которые обычно называют конвейерными или векторными, вторая - в параллельных компьютерах. В основе векторных компьютеров лежит концепция конвейеризации, т.е. явного сегментирования арифметического устройства на отдельные части, каждая из которых выполняет свою подзадачу для пары операндов. В основе параллельного компьютера лежит идея использования для решения одной задачи нескольких процессоров, работающих сообща, причем процессоры могут быть как скалярными, так и векторными.

Гибридная архитектура NUMA

В многопроцессорной системе Hewlett-Packard HP 9000 V-CLASS используется гибридная архитектура cc-NUMA.

Главная особенность гибридной архитектуры NUMA (nonuniform memory access) - это неоднородный доступ к памяти.

Гибридная архитектура совмещает достоинства систем с общей памятью и относительную дешевизну систем с раздельной памятью. Суть этой архитектуры - в особой организации памяти, а именно: память физически распределена по различным частям системы, но логически она является общей, так что пользователь видит единое адресное пространство. Система построена из однородных базовых модулей (плат), состоящих из небольшого числа процессоров и блока памяти. Модули объединены с помощью высокоскоростного коммутатора. Поддерживается единое адресное пространство, аппаратно поддерживается доступ к удаленной памяти, т.е. к памяти других модулей. При этом доступ к локальной памяти осуществляется в несколько раз быстрее, чем к удаленной. По существу, архитектура NUMA является MPP (массивно-параллельной) архитектурой, где в качестве отдельных вычислительных элементов берутся SMP (cимметричная многопроцессорная архитектура) узлы. Доступ к памяти и обмен данными внутри одного SMP-узла осуществляется через локальную память узла и происходит очень быстро, а к процессорам другого SMP-узла тоже есть доступ, но более медленный и через более сложную систему адресации.

Структурная схема компьютера с гибридной сетью: четыре процессора связываются между собой при помощи кроссбара в рамках одного SMP-узла. Узлы связаны сетью типа "бабочка" (Butterfly):

Рис. 2. Структурная схема компьютера с гибридной сетью

Впервые идею гибридной архитектуры предложил Стив Воллох, он воплотил ее в системах серии Exemplar. Вариант Воллоха - система, состоящая из восьми SMP-узлов. Фирма HP купила идею и реализовала на суперкомпьютерах серии SPP. Идею подхватил Сеймур Крей (Seymour R.Cray) и добавил новый элемент - когерентный кэш, создав так называемую архитектуру cc-NUMA (Cache Coherent Non-Uniform Memory Access), которая расшифровывается как "неоднородный доступ к памяти с обеспечением когерентности кэшей". Он ее реализовал на системах типа Origin.

многопроцессорный вычислительный компьютер память

Организация когерентности многоуровневой иерархической памяти

Понятие когерентности кэшей описывает тот факт, что все центральные процессоры получают одинаковые значения одних и тех же переменных в любой момент времени. Действительно, поскольку кэш-память принадлежит отдельному компьютеру, а не всей многопроцессорной системе в целом, данные, попадающие в кэш одного компьютера, могут быть недоступны другому. Чтобы этого избежать, следует провести синхронизацию информации, хранящейся в кэш-памяти процессоров.

Для обеспечения когерентности кэшей существует несколько возможностей:

· использовать механизм отслеживания шинных запросов (snoopy bus protocol), в котором кэши отслеживают переменные, передаваемые к любому из центральных процессоров и при необходимости модифицируют собственные копии таких переменных;

· выделять специальную часть памяти, отвечающую за отслеживание достоверности всех используемых копий переменных.

Наиболее известными системами архитектуры cc-NUMA являются: HP 9000 V-class в SCA-конфигурациях, SGI Origin3000, Sun HPC 15000, IBM/Sequent NUMA-Q 2000. На сегодня максимальное число процессоров в cc-NUMA-системах может превышать 1000 (серия Origin3000). Обычно вся система работает под управлением единой ОС, как в SMP. Возможны также варианты динамического "подразделения" системы, когда отдельные "разделы" системы работают под управлением разных ОС. При работе с NUMA-системами, так же, как с SMP, используют так называемую парадигму программирования с общей памятью (shared memory paradigm).

Пример сервера HP 9000 V-class.

В нашем примере сервер HP 9000 V-class содержит:

· До 16 процессоров PA-8200, (с 240MHz-процессором пиковая производительность системы достигает 15.36 Gflops).

· До 16GB оперативной памяти (cуммарная скорость обменов с памятью составляет 15.3 GB/sec).

· До 24 контроллеров В/В стандарта PCI (пропускная способность каналов В/В достигает 1.9 GB/sec).

На следующем рисунке показаны основные компоненты системы класса V.

рис. 3.

· 16-процессорная система класса V состоит из следующих основных компонент

· 8 базовых процессорных блоков (Processing Resource Blocks), каждый из которых включает в себя 2 процессора PA-8200, вместе с модулями кэш-памяти первого уровня и устройство транспортировки данных (DataMover)

· Коммутатор (Hyperplane crossbar),соединяющий процессорные блоки и каналы 8/8 с памятью

· 2 или 8 плат памяти, построенных на микросхемах SDRAM

· 8 каналов B/B стандарта PCI, каждый из которых может обслуживать до 3 PCI-контроллеров

Коммутатор Hyperplane™

Подсистема памяти основана на коммутаторе (Hyperplane crossbar), который обеспечивает очень высокую скорость обменов с памятью. Архитектура коммутатора позволяет осуществлять доступ из множества параллельно работающих процессоров и каналов ввода/вывода к платам памяти без блокировок. Использование коммутатора позволяет не допускать падения производительности с ростом числа процессоров, неизбежного в случае систем с общей шиной.

8 портов коммутатора обслуживают до 8 процессорных блоков (через агенты транспортировки данных) и 8 "противоположных" портов подключены к платам памяти (через контроллеры памяти).

Коммутатор работает на частоте 120MHz. Ширина пути между агентом и контроллером памяти составляет 64 бит. Таким образом, пропускная способность одного порта коммутатора по каждому направлению составляет 960 MB/sec. Коммутатор работает без блокировок, т.е. все 8 портов могут передавать и принимать информацию одновременно (если при этом два агента не обращаются к одному контроллеру памяти). Таким образом, пиковая пропускная способность всего коммутатора составляет 15.36 GB/sec.

Организация памяти

В серверах HP 9000 V-class память организована в единый массив - в этом отличие архитектуры Exemplar, например, от архитектуры S2MP SGI Origin, в которой у каждого процессора имеется собственная локальная память.

Высокая производительность подсистемы памяти обеспечивается тем, что память составляется из модулей, которые реализованы по технологии DIMM (Double In-line Memory Module). Эти модули, ориентированные на 64-разрядные процессоры, имеют большее число контактов (168) по сравнению со стандартными для ПК модулями типа SIMM, и существенно более высокую производительность. Память собирается из базовых 128-Мегабайтных модулей DIMM, которые равно распределены между контроллерами памяти. На каждой плате памяти может быть установлено до 4 модулей DIMM, и на каждый контроллер приходится 128, 256, 384 или 512 Мегабайт памяти.

Степень расслоения памяти определяется количеством плат памяти, а не числом модулей DIMM. Каждый контроллер памяти дает 4-кратное расслоение, так что в полной конфигурации с 8 контроллерами получается 32-кратное расслоение, которое не зависит от реального объема имеющейся памяти.

Архитектура PA-RISC и процессор PA-8200

PA-8200 представляет собой суперскалярный 64-битный RISC-процессор и реализует архитектуру PA-RISC 2.0. В настоящее время существуют две версии этого процессора, работающие на частотах 200 и 240 MHz. При тактовой частоте в 240MHz процессор обеспечивает пиковую производительность в 960 MFLOPS, за счет одновременного исполнения 4 инструкций с плавающей точкой.

Процессор PA-8200 включает следующие архитектурные особенности.

Раздельные первичные кэши кода и данных, каждый по 2MB. Особенностью архитектуры PA-RISC является внекристальная реализация кэша, что позволяет увеличивать его объем при необходимости. Кэш-память второго уровня не используется.

10 независимых функциональных устройств:

· Два 64-разрядных целочисленных АЛУ

· Два целочисленных устройства сдвига

· Два устройства умножения и сложения для чисел с плавающей точкой

· Два устройства деления и извлечения корня для чисел с плавающей точкой

· Два устройства чтения/записи данных

· Буфер переупорядочения инструкций на 56 позиций; переупорядоченное выполнение инструкций позволяет постоянно поддерживать суперскалярный режим работы процессора. Устройство считывания инструкций доставляет в буфер 4 инструкции за такт.

· Управляемая предвыборка данных из основной памяти в кэш

· Статическое и динамическое предсказание ветвлений

· 64-битная адресация памяти

· Встроенная программируемая аппаратура мониторинга производительности; позволяет отслеживать такие события как кэш-попадания (промахи), ошибки в предсказании ветвлений, и т.д.

На следующем рисунке представлена блок-схема процессора PA-8200:

Рис. 4.

Процессор PA-8200 - это вторая после PA-8000 реализация архитектуры PA-RISC 2.0. Главное нововедение в PA-RISC версии 2.0 - 64-битная целочисленная арифметика и 64-битная адресация. Версия 2.0 также добавила страницы переменного размера, несколько новых операций с плавающей точкой и ряд других преимуществ по сравнению с PA-RISC 1.1. При этом процессоры PA-8000/8200 сохраняют полную двоичную совместимость с процессорами PA-7100/7200.

Как было уже отмечено, PA-8200 поддерживает плоское 64-битное адресное пространство; хотя чип экспортирует 40-битные физические адреса (т.е. такие адреса используются для общения с физической памятью). Это соответствует 1 терабайту непосредственно адресуемой памяти.

Предсказание ветвлений

Чтобы обеспечить непрерывную работу конвейера и загрузку всех функциональных устройств, необходим надежный механизм предсказания ветвлений. Встроенная аппаратура процессора PA-8200 использует два различных алгоритма предсказания: статический и динамический. Динамический алгоритм может использоваться при наличии информации о ходе исполнения на данном участке программы.

В статическом режиме в большинстве случаев используется следующая стратегия: для команд условного перехода назад предсказывается "переход", для команд условного перехода вперед предсказывается "отсутствие перехода". Компиляторы, используя эвристичесие методы, могут вставлять в код инструкции "подсказки" процессору о наиболее вероятном исходе проверки условия.

В динамическом режиме для предсказания используется 1024-строчная таблица Branch History Table (BHT). Каждая строка этой таблицы соответствует команде условного перехода и содержит три бита, установленных в трех предыдущих случаях выполнения данной инструкции; а именно: каждый бит устанавливается в 1, если переход имел место, и в 0 в противном случае. Если два или три бита содержат 1, предсказывается переход и в данном случае.

Операционная система HP-UX

Вместе с многопроцессорными серверами HP 9000 а настоящее время поставляется операционная система HP-UX версии 11.0. HP-UX отвечает спецификации UNIX 95.

Производительность HP-UX

Данная ОС позволяет добиться максимальной производительности системы за счет следующих своих свойств:

· параллельное ядро (системные функции распределяются по всем доступным процессорам);

· 64-битная адресация (позволяет адресовать память объемом до 16TB);

· динамическое изменение размера страницы (размер страницы подбирается так, чтобы обеспечить наилучшую производительность);

· многопоточность на уровне ядра;

· улучшенное планирование и распределение потоков по процессорам:

· gang-scheduling - потоки, относящиеся к одному приложению, распределяются совместно (это улучшает производительность на загруженных системах);

· при назначении потока на исполнение, ему преимущественно отводится процессор, на котором он работал в предыдущий квант времени (существенно улучшается производительность, если в кэше процессора остались данные этого потока).

Компиляторы

Среда разработки серверов HP 9000 предоставляет разработчикам компиляторы языков ANSI C/C++, Fortran 77/90, которые поддерживают как 32-разрядный, так и 64-разрядный режимы работы и полностью соотвествуют стандартам ANSI. В дополнении к традиционным машинно-независимым оптимизациям, компиляторы HP Exemplar C/C++/Fortran выполняют:

· набор специализированных оптимизаций для процессоров PA-8200;

· межпроцедурный анализ и оптимизацию;

· оптимизацию на основе профилирования (Profile-based optimization, PBO);

· автоматическое распараллеливание (компиляторы находят независимые итерации циклов, которые можно запустить в параллельных потоках).

· Вместе с компиляторами поставляются следующие дополнительные средства

· HP DDE (Distributed Debugging Environment) - символический отладчик с интуитивным графическим интерфейсом;

· HP PAK (Performance Analysis Kit) - набор средств, позволяющих отслеживать различные характеристики вычислительной производительности и отображать их в удобном графическом или табличном виде;

· Blink Link - набор утилит для ускорения процесса компоновки, работающих совместно с make и обеспечивающих инкрементальную компоновку исполняемого файла.

HP MPI

HP MPI - это высокопроизводительная реализация интерфейса параллельного программирования MPI для серверов и рабочих станций HP, разработанная специалистами подразделения Convex.

Основные преимущества HP MPI для пользователей (разработчиков)

· полное соответствие версии 1.2 стандарта MPI;

· поддержка на всех моделях рабочих станций и серверов HP;

· приложения могут исполняться на одном сервере или на кластере рабочих станций и серверов HP (например, можно исполнять масштабируемое MPI-приложение на двух 4-процессорных серверах класса К и на 16-процессорном сервере класса V, получая при этом 24-кратное распараллеливание задачи)

· использование всех аппаратных особенностей архитектуры Exemplar для передачи сообщений внутри одного сервера (через общую память)

· использование протоколов TCP/IP для передачи сообщений между машинами

· поддержка MPMD-конфигураций

· поддержка языков C/C++, Fortran 77/90

· утилита XMPI, мощное графическое средство мониторинга, отладки и визуализации MPI-приложений.

Список литературы

1. Антошина И. В., Котов Ю.Т., Микропроцессоры и микропроцессорные системы., аналитический обзор, Москва 2005г.

2. Цымблер М. Л. Методы построения программного комплекса для управления данными в вычислительных системах с массовым параллелизмом., диссертация. Челябинск, 2000г.

3. А.В. Богданов, Е.Н. Станкова, В.В. Мареев, В.В. Корхов, Архитектуры и топологии многопроцессорных вычислительных систем ., www.intuit.ru

4. HEWLETT PACKARD, Architecture HP 9000 V-Class Server Second Edition., March, 1998

5. Андреев А., Обзор архитектуры многопроцессорных серверов HP 9000 V-class., Лаборатория Параллельных Информационных Технологий НИВЦ МГУ, 1998

Размещено на Allbest.ru


Подобные документы

  • Физическая организация памяти компьютера. Организация структуры обработки потока данных. Степень и уровни параллелизма. Оценка иерархической организации памяти. Динамическая перестройка структуры. Микросхемы запоминающих устройств. Кэш-память процессора.

    лекция [2,4 M], добавлен 27.03.2015

  • Разработка вычислительной системы, предназначенной для реализации заданного алгоритма обработки входных цифровых данных. Особенности ее построения на базе процессора x86 (К1810) в минимальном режиме. Описание микропроцессорного комплекта серии К1810.

    курсовая работа [318,4 K], добавлен 15.08.2012

  • Архитектуры вычислительных систем сосредоточенной обработки информации. Архитектуры многопроцессорных вычислительных систем. Классификация и разновидности компьютеров по сферам применения. Особенности функциональной организации персонального компьютера.

    контрольная работа [910,2 K], добавлен 11.11.2010

  • Цель и область применения логической поддержки когерентности в Эльбрус/МЦСТ-ХR. Построение системы с 16 процессорами. Решение проблемы пропускной способности в линках. Особенности существующего протокола когерентности. Организация справочника и фильтра.

    презентация [403,1 K], добавлен 03.06.2012

  • Проектирование информационной системы на основе архитектуры "файл-сервер", "клиент-сервер", многоуровневой архитектуры, Intranet-системы. Преимущества и недостатки файл-серверного подхода при обеспечении многопользовательского доступа к базе данных.

    лабораторная работа [220,5 K], добавлен 02.02.2015

  • Объем двухпортовой памяти, расположенной на кристалле, для хранения программ и данных в процессорах ADSP-2106x. Метод двойного доступа к памяти. Кэш-команды и конфликты при обращении к данным по шине памяти. Пространство памяти многопроцессорной системы.

    реферат [28,1 K], добавлен 13.11.2009

  • Общие принципы построения цифровых систем передачи, их иерархия и достоинства. Организация управления сетью оборудования связи с помощью персонального компьютера по интерфейсу серии F. Оборудование гибкого мультиплексирования ОГМ-30Е, принцип его работы.

    дипломная работа [1,1 M], добавлен 28.10.2013

  • История развития вычислительной техники, основные характеристики. Основное отличие вычислительной системы от компьютера, виды архитектур. Классификация уровней программного параллелизма. Главные особенности векторной, матричной обработки регистров.

    курсовая работа [36,0 K], добавлен 21.07.2012

  • Архитектура многопроцессорных систем с общей шиной и с неоднородным доступом к памяти. Структура кэш памяти. Взаимодействие user space с kernel space. Средства синхронизации ядра Linux. Обход каталогов страниц. Инструментация кода средствами Clang.

    дипломная работа [513,7 K], добавлен 14.11.2017

  • Характеристики элементов вычислительной машины для выполнения офисных операций. Выбор процессора, расчет его мощности на 60 GFLOPS. Выбор материнской платы, системы охлаждения для процессора, физической и оперативной памяти для хранения информации.

    контрольная работа [43,6 K], добавлен 11.11.2015

Работы в архивах красиво оформлены согласно требованиям ВУЗов и содержат рисунки, диаграммы, формулы и т.д.
PPT, PPTX и PDF-файлы представлены только в архивах.
Рекомендуем скачать работу.