§ повышение надежности; § покрытие семантического разрыва. Этапы развития вычислительных средств принято различать по поколениям машин. Характеристика поколения определяется конкретными показателями, отражающими достигнутый уровень в решении трех перечисленных проблем. Поскольку подавляющий вклад в развитие вычислительных средств всегда принадлежал технологическим решениям, основополагающей характеристикой поколения машин считалась элементная база. И действительно, переход на новую элементную базу хорошо коррелируется с новым уровнем показателей производительности, надежности и сокращения семантического разрыва. В настоящее время актуальным является переход к новым поколениям вычислительных средств. По сложившейся традиции решающая роль отводится технологии производства элементной базы. В то же время становится очевидным, что технологические решения утратили монопольное положение. Так, например, в ближайшей перспективе заметно возрастает значение проблемы покрытия семантического разрыва, что отражается в необходимости создания высокосложных программных продуктов и требует кардинального снижения трудоемкотси программирования. Эта проблема решается преимущественно архитектурными средствами. Роль технологии здесь может быть только косвенной: высокая степень интеграции создает условия для реализации архитектурных решений. В настоящее время одним из доминируюших направлений развития суперЭВМ являются вычислительные системы c MIMD-параллелизмом на основе матрицы микропроцессоров. Для создания подобных вычислительных систем, состоящих из сотен и тысяч связанных процессоров, потребовалось преодолеть ряд сложных проблем как в программном обеспечении (языки Parallel Pascal, Modula-2, Ada), так и в аппаратных средствах (эффективная коммутационная среда, высокоскоростные средства обмена, мощные микропроцессоры). Элементная база современных выcокопроизводительных систем характеризуется выcокой степенью интеграции (до 3,5 млн. транзисторов на кристалле) и высокими тактовыми частотами (до 600 МГц). В настоящее время все фирмы и все университеты США, Западной Европы и Японии, разрабатывающие суперЭВМ, ведут интенсивные исследования в области многопроцессорных суперЭВМ с массовым параллелизмом, создают множество их типов, организуют их производство и ускоренными темпами осваивают мировой рынок в этой области. Многопроцессорные ЭВМ с массовым параллелизмом уже сейчас существенно опережают по производительности традиционные суперЭВМ с векторно-конвейерной архитектурой. Системы с массовым параллелизмом предъявляют меньшие требования к микропроцессорам и элементной базе и имеют значительно меньшую стоимость при любом уровне производительности, чем векторно-конвейерные суперЭВМ. На ежегодной конференции в Чепел-Хилл (Сев.Каролина) представлен проект фирмы IBM, целью которого является создание гиперкубического параллельного процесора в одном корпусе. Конструкция, названная Execube, имеет 8 16-разрядных микропроцесоров, встроенных в кристалл 4Мбит динамического ЗУ (ДЗУ). При этом степень интеграци составляет 5 млн. транзисторов. Микросхема изготовлена по КМОП-технологии с тремя уровнями металлизации на заводе IBM Microelectronic (Ясу, Япония). Execube представляет собой попытку повышения степени интеграции процессора с памятью путем более эффективного доступа к информации ДЗУ. По существу, память превращается в расширенные регистры процессоров. Производительность микросхемы составляет 50 млн оп/с. Фирма CRAY Research обёявила о начале выпуска суперкопьютеров CRAY T3/E. Основная характеристика, на которой акцентировали внимание разработчики - масштабируемость. Минимальная конфигурация составляет 8 микропроцессоров, максимальная - 2048. По сравнению с предыдущей моделью T3/D соотношение цена/производительность снижена в 4 раза и составляет 60 долл/Мфлопс, чему способствовало применение недорогих процессоров DEC Alpha EVC, изготовленных по КМОП-технологии. Предполагаемая стоимость модели Т3/Е на основе 16 процессоров с 1-Гбайт ЗУ составит 900 тыс. долларов, а цена наиболее мощной конфигурации (1024 процессора, ЗУ 64 Гбайт) -39,7 млн. долларов при пиковой производительности 600 Гфлопс. Одним из способов дальнейшего повышения производительности вычислительной системы является объединение суперкомпьютеров в кластеры при помощи оптоволоконных соединений. С этой целью компьютеры CRAY T3/E снабжены каналами ввода/вывода с пропускной способностью 128 Гбайт/с. Потенциальные заказчики проявляют повышенный интерес к новой разработке фирмы. Желание приобрести компьютер изъявили такие организации как Pittsburgh Supercomputer Center, Mobile Oil, Департамент по океанографии и атмосферным исследованиям США. При этом подписано несколько контрактов на изготовление нескольких компьютеров 512-процессорной конфигурации. Среди японских компаний следует выделить фирму Hitachi, которая выпустила суперкомпьютер SR2201 с массовым параллелизмом, содержащий до 2048 процесоров. В основе системы переработанная компанией процессорная архитектура RA-RISC от фирмы Hewlett-Paccard. Псевдовекторный процессор функционирует под управлением ОС HP-UX/MPP Mash 3.0. В компьютере, кроме того, использована система поддержки параллельного режима работы Exdivss, созданная корпорацией Parasoft и получившая название ParallelWare. Производительность нового компьютера составляет 600 Гфлопс. 4. КРАТКИЕ ХАРАКТЕРИСТИКИ НАИБОЛЕЕ РАСПРОСТРАНЕННЫХ СУПЕРКОМПЬЮТЕРОВ IBM RS/6000 SP Производитель | International Business Machines (IBM), подразделение RS/6000. | Класс архитектуры | Масштабируемая массивно-параллельная вычислительная система (MPP). | Узлы | Узлы имеют архитектуру рабочих станций RS/6000. Существуют несколько типов SP-узлов, которые комплектуются различными процессорами: PowerPC 604e/332MHz, POWER3/200 и 222 MHz (более ранние системы комплектовались процессорами POWER2). High-узлы на базе POWER3 включают до 8 процессоров и до 16 GB памяти. | Масштабируе-мость | До 512 узлов. Возможно совмещение узлов различых типов. Узлы устанавливаются в стойки (до 16 узлов в каждой). | Коммутатор | Узлы связаны между собой высокопроизводительных коммутатором (IBM high-performance switch), который имеет многостадийную структуру и работает с коммутацией пакетов. | Cистемное ПО | OC AIX (устанавливается на каждом узле), система пакетной обработки LoadLeveler, параллельная файловая система GPFS, параллельная СУБД INFORMIX-OnLine XPS. Параллельные приложения исполняются под управлением Parallel Operating Environment (POE). | Средства программирова-ния | Оптимизированная реализация интерфейса MPI, библиотеки параллельных математических подпрограмм - ESSL, OSL. | Обзор | Обзор архитектуры суперкомпьютеров серии RS/6000 SP корпорации IBM. | HP 9000 (Exemplar) Производитель | Hewlett-Packard, подразделение высокопроизводительных систем. | Класс | Многопроцессорные сервера с общей памятью (SMP). | Предшествен-ники | SMP/NUMA-системы Convex SPP-1200, SPP-1600, SPP-2000. | Модификации | В настоящее время доступны несколько "классов" систем семейства HP 9000: сервера начального уровня (D, K-class), среднего уровня (N-class) и наиболее мощные системы (V-class). | Процессоры | 64-битные процессоры c архитектурой PA-RISC 2.0 (PA-8200, PA-8500). | Число процессоров | N-class - до 8 процессоров. V-class - до 32 процессоров. В дальнейшем ожидается увеличение числа процессоров до 64, а затем до 128. | Масштабируе-мость | SCA-конфигурации (Scalable Computing Architecture) - до 4 узлов V-class, т.е. до 128 процессоров. | Системное ПО | Устанавливается операционная система HP-UX (совместима на уровне двоичного кода с ОС SPP-UX компьютеров Convex SPP). | Средства программирова-ния | HP MPI - реализация MPI 1.2, оптимизированная к архитектуре Exemplar. Распараллеливающие компиляторы Fortran/C, математическая библиотека HP MLIB. CXperf - с редство анализа производительности программ. | Обзор | Обзор архитектуры серверов HP 9000 класса V корпорации Hewlett-Packard | Cray T3E Производитель | Cray Inc. | Класс архитектуры | Масштабируемая массивно-параллельная система, состоит из процессорных элементов (PE). | Предшествен-ники | Cray T3D | Модификации | T3E-900, T3E-1200, T3E-1350 | Процессорный элемент | PE состоит из процессора, блока памяти и устройства сопряжения с сетью. Используются процессоры Alpha 21164 (EV5) с тактовой частотой 450 MHz (T3E-900), 600 MHz (T3E-1200), 675 MHz (T3E-1350) пиковая производительность которых составляет 900, 1200, 1350 MFLOP/sec соответственно. Процессорный элемент располагает своей локальной памятью (DRAM) объемом от 256MB до 2GB. | Число процессоров | Системы T3E масштабируются до 2048 PE. | Коммутатор | Процессорные элементы связаны высокопроизводительной сетью GigaRing с топологией трехмерного тора и двунаправленными каналами. Скорость обменов по сети достигает 500MB/sec в каждом направлении. | Системное ПО | Используется операционная система UNICOS/mk. | Средства программирова-ния | Поддерживается явное параллельное программирование c помощью пакета Message Passing Toolkit (MPT) - реализации интерфейсов передачи сообщений MPI, MPI-2 и PVM, библиотека Shmem. Для Фортран-программ возможно также неявное распараллеливание в моделях CRAFT и HPF. Среда разработки включает также набор визуальных средств для анализа и отладки параллельных программ. | Cray T90 Производитель | Cray Inc., Cray Research. | Класс архитектуры | Многопроцессорная векторная система (несколько векторных процессоров работают на общей памяти). | Предшествен-ники | CRAY Y-MP C90, CRAY X-MP. | Модели | Серия T90 включает модели T94, T916 и T932. | Процессор | Системы серии T90 базируются на векторно-конвейерном процессоре Cray Research с пиковой производительностью 2GFlop/s. | Число процессоров | Система T932 может включать до 32 векторных процессоров (до 4-х в модели T94, до 16 модели T916), обеспечивая пиковую производительность более 60GFlop/s. | Масштабируе-мость | Возможно объединение нескольких T90 в MPP-системы. | Память | Система T932 содержит от 1GB до 8GB (до 1 GB в модели T94 и до 4GB в модели T916) оперативной памяти и обеспечивает скорость обменов с памятью до 800MB/sec. | Системное ПО | Используется операционная система UNICOS. | Cray SV1 Производитель | Cray Inc. | Класс архитектуры | Масштабируемый векторный суперкомпьютер. | Процессор | Используются 8-конвейерные векторные процессоры MSP (Multi-Streaming Processor) с пиковой производительностью 4.8 GFLOP/sec; каждый MSP может быть подразделен на 4 стандартных 2-конвейерных процессора с пиковой производительностью 1.2 GFLOP/sec. Тактовая частота процессоров - 250MHz. | Число процессоров | Процессоры объединяются в SMP-узлы, каждый из которых может содержать 6 MSP и 8 стандартных процессоров. Система (кластер) может содержать до 32 таких узлов. | Память | SMP-узел может содержать от 2 до 16GB памяти. Система может содержать до 1TB памяти. Вся память глобально адресуема (архитектура DSM). | Системное ПО | Используется операционная система UNICOS. | Средства программирова-ния | Поставляется векторизующий и распараллеливающий компилятор CF90. Поддерживается также явное параллельное программирование с использованием интерфейсов MPI, OpenMP или Shmem. | Cray X1 Производитель | Cray Inc. | Класс архитектуры | Масштабируемый векторный суперкомпьютер. | Процессор | Используются 16-конвейерные векторные процессоры с пиковой производительностью 12.8 GFLOP/sec. Тактовая частота процессоров - 800MHz. | Число процессоров | В максимальной конфигурации - до 4096. | Память | Каждый процессор может содержать до 16GB памяти. В максимальной конфигурации система может содержать до 64TB памяти. Вся память глобально адресуема (архитектура DSM). Максимальная скорость обмена с оперативной памятью составляет 34.1 Гбайт/сек. на процессор, скорость обмена с кэш-памятью 76.8 Гбайт/сек. на процессор. | Системное ПО | Используется операционная система UNICOS/mp. | Средства программирова-ния | Реализованы компиляторы с языков Фортран и Си++, включающие возможности автоматической векторизации и распараллеливания, специальные оптимизированные библиотеки, интерактивный отладчик и средства для анализа производительности. Приложения могут писаться с использованием MPI, OpenMP, Co-array Fortran и Unified Parallel C (UPC). | Cray XT3 Производитель | Cray Inc. | Класс архитектуры | Массивно-параллельный суперкомпьютер. | Процессор | Используются процессоры AMD Opteron. | Число процессоров | В максимальной конфигурации - до 30508. | Память | Каждый процессор может содержать от 1 до 8 Гбайт оперативной памяти. В максимальной конфигурации система может содержать до 239 Тбайт памяти. | Системное ПО | Используется операционная система UNICOS/lc. | Средства программирова-ния | На компьютере устанавливаются компиляторы Fortran 77, 90, 95, C/C++, коммуникационные библиотеки MPI (с поддержкой стандарта MPI 2.0) и SHMEM, а также оптимизированные версии библиотек BLAS, FFTs, LAPACK, ScaLAPACK и SuperLU. Для анализа производительности системы устанавливается система Cray Apdivntice2 performance analysis tools. | SGI Origin2000 Производитель | Silicon Graphics | Класс архитектуры | Модульная система с общей памятью (cc-NUMA). | Процессор | 64-разрядные RISC-процессоры MIPS R10000, R12000/300MHz | Модуль | Основной компонент системы - модуль Origin, включающий от 2 до 8 процессоров MIPS R10000 и до 16GB оперативной памяти. | Масштабируе-мость | Поставляются системы Origin2000, содержащие до 256 процессоров (т.е. до 512 модулей). Вся память системы (до 256GB) глобально адресуема, аппаратно поддерживается когерентность кэшей. | Коммутатор | Модули системы соединены с помощью сети CrayLink, построенной на маршрутизаторах MetaRouter. | Системное ПО | Используется операционная система SGI IRIX. | Средства программирова-ния | Поставляется распараллеливающий компилятор Cray Fortran 90. Поддерживается стандарт OpenMP. | SGI Altix3000 Производитель | Silicon Graphics | Класс архитектуры | Модульная система с общей памятью (cc-NUMA). | Процессор | Intel Itanium II 1.3GHz/1.5GHz | Модули | Вся система строится из модулей (вычислительных, коммутационных, проч.) Вычислительный компонент системы - модуль C-brick, состоящий из 2-х блоков, включающий 4 процессора (по 2 на блок), 4 слота памяти по 8DIMM (от 4 до 16Gb на C-brick). | Масштабируе-мость | Поставляются системы Origin2000, содержащие до 256 процессоров (т.е. до 512 модулей). Вся память системы (до 256GB) глобально адресуема, аппаратно поддерживается когерентность кэшей. | Коммутатор | Модули системы соединены с помощью сети NUMAlink, построенной на собственных маршрутизаторах R-bricks. | Системное ПО | Используется доработанная ("открытые" доработки) операционная система Linux. | |