Работа и устройство процессоров
Характеристика понятия "процессор". История развития процессоров, описание их параметров и устройства, особенности работы. Что такое быстродействие и эффективность работы процессора. Тонкости сборки и вспомогательные устройства. Описание кэш-памяти.
Рубрика | Программирование, компьютеры и кибернетика |
Вид | практическая работа |
Язык | русский |
Дата добавления | 17.01.2011 |
Размер файла | 4,3 M |
Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже
Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.
Кэш-память второго уровня
Для того чтобы уменьшить ощутимое замедление системы, возникающее при каждом промахе кэша, задействуется кэш-память второго уровня. Развивая аналогию с рестораном, которая использовалась для объяснения кэш-памяти первого уровня, можно обозначить вторичный кэш как сервировочный столик с "дежурными" блюдами, расположение которого позволяет официанту принести любое из имеющихся блюд через 15 секунд. В системе класса Pentium (Socket 7) кэш-память второго уровня установлена на системной плате, т. е. работает на тактовой частоте системной платы (66 МГц, или 15 нс). Рассмотрим ситуацию, когда вы заказываете блюдо, которого нет в числе ранее принесенных. В этом случае, вместо того чтобы отправиться на кухню и через 60 секунд принести приготовленное блюдо, официант в первую очередь проверяет столик с дежурными блюдами. При наличии там заказанного блюда он возвращается уже через 15 секунд. Результат в реальной системе выражается в следующем: вместо снижения быстродействия системы с 233 до 16 Мгц и соответственно скорости основной памяти до 60 нс происходит извлечение необходимых данных из кэш-памяти второго уровня, скорость которой равна 15 нс (66 МГц). Таким образом, быстродействие системы изменяется с 233 до 66 МГц. Более современные процессоры содержат встроенную кэш-память второго уровня, которая работает на той же скорости, что и ядро процессора, причем скорости кэш-памяти первого и второго уровней одинаковы. Если описывать новые микросхемы с помощью аналогий, то в этом случае официант размещает столик с дежурными блюдами рядом с тем столиком, за которым вы сидите. При этом, если заказанного блюда на вашем столе нет (промах кэш-памяти первого уровня), официанту всего лишь необходимо дотянуться к находящемуся рядом столику с дежурными блюдами (кэш-память второго уровня), что потребует гораздо меньше времени, чем 15-секундная прогулка на кухню, как это было в более ранних конструкциях
Конструкция и эффективность кэш-памяти
Коэффициент совпадения кэш-памяти как первого, так и второго уровней составляет 90%. Таким образом, рассматривая систему в целом, можно сказать, что 90% времени она работает с полной тактовой частотой (в нашем примере 233 МГц), получая данные из кэш-памяти первого уровня. Десять процентов времени данные извлекаются из кэш-памяти второго уровня. Процессор работает с кэш-памятью второго уровня только 90% этого времени, а оставшиеся 10% вследствие промахов кэша -- с более медленной основной памятью. Таким образом, объединяя кэш-память первого и второго уровней, получаем, что обычная система работает с частотой процессора 90% времени (в нашем случае 233 МГц), с частотой системной платы 9% времени (т. е. 90% от 10% при частоте 66 МГц) и с тактовой частотой основной памяти примерно 1% времени (10% от 10% при частоте 16 МГц). Это ясно демонстрирует важность кэш-памяти первого и второго уровней; при отсутствии кэш-памяти система часто обращается к ОЗУ, скорость которого значительно ниже, чем скорость процессора. Это наводит на интересные мысли. Представьте, что вы собираетесь повысить эффективность оперативной памяти или кэш-памяти второго уровня вдвое. На что же именно потратить деньги? Принимая во внимание, что оперативная память непосредственно используется примерно 1% времени, двойное увеличение ее производительности приведет к повышению быстродействия системы только в 1% времени! Нельзя сказать, что это звучит достаточно убедительно. С другой стороны, если вдвое повысить эффективность кэш-памяти второго уровня, получится двойное увеличение эффективности системы в 9% времени, что является более значимым улучшением. Системотехники и специалисты по разработке процессоров компаний Intel и AMD зря времени не теряли и разработали методы повышения эффективности кэш-памяти второго уровня. В системах класса Pentium (P5) кэш-память второго уровня обычно устанавливается на системной плате и работает соответственно с ее тактовой частотой. Intel значительно повысила производительность процессоров, переместив кэш-память с системной платы непосредственно в процессор, что повлекло за собой увеличение ее рабочей частоты до частоты процессора. Сначала микросхемы кэша устанавливались в одном корпусе вместе с основным процессором. Но такая конструкция оказалась слишком дорогой, поэтому, начиная с процессоров семейства Pentium II, компания Intel стала приобретать микросхемы кэш-памяти у сторонних производителей (Sony, Toshiba, NEC, Samsung и т. д.). Микросхемы поставлялись уже в готовом виде, в корпусном исполнении, поэтому Intel начала их устанавливать на монтажной плате рядом с процессором. Именно поэтому процессор Pentium II был изначально разработан в виде картриджа. Одна из существенных проблем заключалась в быстродействии микросхем кэш-памяти сторонних производителей. Скорость наиболее быстрых микросхем достигала 3 нс и выше, что было эквивалентно тактовой частоте 333 МГц. Но процессоры уже работали на более высоких скоростях, поэтому в Pentium II и первых моделях Pentium III кэш-память второго уровня работает на половинной частоте процессора. В некоторых моделях процессора Athlon скорость кэш-памяти второго уровня уменьшена до двух пятых или даже одной трети тактовой частоты ядра. Качественный скачок в технологии произошел с появлением процессоров Celeron 300A и выше. В этих процессорах внешние микросхемы кэш-памяти второго уровня не используются. Вместо этого кэш-память как первого, так и второго уровней была интегрирована непосредственно в ядро процессора. Таким образом, кэш-память обоих уровней работает с полной тактовой частотой процессора, что позволяет повышать ее быстродействие при возможном увеличении скорости процессора. В последних моделях Pentium III, а также во всех процессорах Xeon и Celeron кэш-память второго уровня по-прежнему работает с тактовой частотой ядра процессора, а значит, при неудачном обращении в кэш-память первого уровня ожидания или замедления операций не происходит. В современных моделях процессоров Athlon и Duron также используется встроенная кэш-память, работающая с частотой ядра. Как вы знаете, при неудачном обращении к внешней кэш-памяти происходит снижение скорости кэша до половинной частоты ядра или, что еще хуже, до частоты более медленной системной платы. Использование встроенного кэша позволяет значительно повысить эффективность процессора, так как 9% времени в системе будет использоваться кэш-память второго уровня, работающая с полной частотой ядра. К числу преимуществ встроенной кэш-памяти относится также уменьшение ее стоимости, так как она содержит меньшее число компонентов. Вернемся к рассмотренной ранее аналогии, используя в качестве примера современный процессор Pentium 4 с тактовой частотой 2 ГГц. Теперь ваша скорость поглощения пищи равна одному байту в секунду (тактовой частоте 2 ГГц соответствует длительность цикла 0,5 нс). Кэш-память первого уровня работает на этой же частоте, т. е. скорость поглощения блюд, находящихся на вашем столе, равна скорости процессора (а столик соответствует кэш-памяти первого уровня). Ощутимое повышение быстродействия происходит в том случае, когда вы заказываете блюдо, которого нет на столе (промах кэша первого уровня), и официанту приходится обращаться к столику с дежурными блюдами. В девяти случаях из десяти он находит там нужное блюдо, которое приносит через полсекунды (частота кэш-памяти второго уровня равна 2 ГГц, что соответствует скорости 0,5 нс). Итак, современные системы работают 99% времени (суммарный коэффициент совпадения кэш-памяти первого и второго уровней) с частотой 2 ГГц и, как и прежде, в одном случае из ста понижают скорость до частоты оперативной памяти (приготовление блюда на кухне). При увеличении скорости памяти до 400 МГц (2,5 нс) время ожидания заказанного блюда из кухни достигнет 2,5 с. Эх, если бы скорость обслуживания в ресторане повышалась так же, как быстродействие процессора!
Организация работы кэш-памяти
Организация кэш-памяти в процессорах 486 и семействе Pentium называется четырехстраничным набором ассоциативного кэша (four-way set associative cache), что подразумевает разделение кэш-памяти на четыре блока. Каждый блок, в свою очередь, организуется в виде 128 или 256 строк по 16 байт в каждой. Чтобы понять, как работает четырехстраничный кэш, рассмотрим следующий пример. В простейшем случае кэш состоит из одного блока, в который можно загрузить содержимое соответствующего блока основной памяти. Это похоже на закладку, используемую для того, чтобы отметить нужную страницу в книге. Если основная память -- это вся книга, то по закладке можно определить, какая страница находится в кэше. Но этого бывает достаточно только в том случае, если все необходимые данные находятся на странице, отмеченной закладкой. Если же вам нужно вернуться к одной из уже прочитанных страниц, то закладка будет бесполезной. Можно воспользоваться несколькими закладками (выписками), отмечая сразу несколько мест в книге. При этом, конечно, усложняется схема процессора, но зато можно проверить сразу несколько закладок. Каждая дополнительная закладка усложняет систему, но вероятность того, что нужная страница уже отмечена (выписана), повышается. Если ограничиться четырьмя отметками-выписками, то можно получить четырехстраничный кэш. Вся кэш-память разбивается на четыре блока, в каждом из которых хранятся копии различных фрагментов основной памяти. Хорошим примером работы процессора сразу с несколькими областями памяти является использование многозадачной операционной системы Windows. Здесь четырехстраничный кэш значительно повышает производительность процессора. Содержимое кэша всегда должно соответствовать содержимому основной памяти, чтобы процессор работал с самыми свежими данными. Поэтому в семействе процессоров 486 используется кэш со сквозной записью (write-through), при которой данные, записанные в кэш, автоматически записываются и в основную память. В процессорах Pentium используется двунаправленный кэш (write-back), который работает при выполнении как операций считывания, так и операций записи. Это позволяет еще больше повысить производительность процессора. Хотя встроенный кэш в процессоре 486 используется только при чтении, внешний кэш в системе может быть двунаправленным. Кроме того, в процессорах 486 предусмотрен дополнительный 4-байтовый буфер, в котором можно хранить данные вплоть до передачи в память. Это необходимо в том случае, если шина памяти занята. Еще одна из особенностей улучшенной архитектуры кэша состоит в том, что кэш-память является неблокируемой. Это свойство позволяет уменьшать или скрывать задержки памяти, используя перекрытие операций процессора с выборкой данных. Неблокируемая кэш-память дает возможность продолжать выполнение программы одновременно с неудачными обращениями в кэш при наличии некоторых ограничений. Другими словами, кэш-память улучшает обработку промаха кэша и позволяет процессору продолжать выполнение операций, не связанных с отсутствующими данными. Кэш-контроллер, встроенный в процессор, также используется для наблюдения за состоянием системной шины при передаче управления шиной альтернативным процессорам, которые называются хозяевами шины (bus masters). Процесс наблюдения, в свою очередь, называется отслеживанием шины (bus snooping). Если устройство, управляющее передачей данных по шине (т. е. хозяин шины), записывает какие-либо данные в область памяти, копия которой хранится в кэше процессора, то содержимое кэша перестает соответствовать содержимому основной памяти. В этом случае кэш-контроллер отмечает эти данные как ошибочные и при следующем обращении к памяти обновляет содержимое кэша, поддерживая тем самым целостность всей системы. При увеличении тактовой частоты время цикла уменьшается. В новых системах не используется кэш на системной плате, поскольку быстрые модули DDR-SDRAM или RDRAM, применяемые в современных системах Pentium II/Celeron/III, могут работать на тактовой частоте системной платы. Как видите, кэш-память двух уровней улучшает взаимодействие между быстрым центральным процессором и более медленной оперативной памятью, а также позволяет минимизировать периоды ожидания, возникающие при обработке данных. Решающую роль в этом играет кэш-память второго уровня, расположенная в кристалле процессора. Это дает возможность процессору работать с тактовой частотой, наиболее близкой к его максимальной частоте.
Свойства процессора
По мере появления новых процессоров их архитектура дополняется все новыми и новыми возможностями, которые позволяют не только улучшить эффективность выполнения тех или иных приложений, но и повысить надежность центрального процессора в целом. В следующих разделах представлено краткое описание различных технологий, включая режим управления системой, суперскалярное выполнение, технологии MMX и SSE.
SMM
Задавшись целью создания все более быстрых и мощных процессоров для портативных компьютеров, Intel разработала схему управления питанием. Эта схема позволяет процессорам экономно использовать энергию батареи и таким образом продлить срок ее службы. Такая возможность впервые была реализована компанией Intel в процессоре 486SL, который является усовершенствованной версией процессора 486DX. Впоследствии, когда возможности управления питанием стали более универсальными, их начали встраивать в Pentium и во все процессоры более поздних поколений. Система управления питанием процессоров называется SMM (System Management Mode -- режим управления системой).SMM физически интегрирована в процессор, но функционирует независимо. Благодаря этому она может управлять потреблением мощности, в зависимости от уровня активности процессора. Это позволяет пользователю определять интервалы времени, по истечении которых процессор будет частично или полностью выключен. Данная схема также поддерживает возможность приостановки/возобновления, которая позволяет мгновенно включать и отключать мощность, что обычно используется в портативных компьютерах. Соответствующие параметры устанавливаются в BIOS.
Суперскалярное выполнение
В процессорах Pentium пятого и последующих поколений встроен ряд внутренних конвейеров, которые могут выполнять несколько команд одновременно. Процессор 486 и все предшествующие в течение определенного отрезка времени могли выполнять только одну команду. Технология одновременного выполнения нескольких команд называется суперскалярной. Благодаря использованию данной технологии и обеспечивается дополнительная эффективность по сравнению с процессором 486.Суперскалярная архитектура обычно ассоциируется с микросхемами RISC (Reduced Instruction Set Computer -- компьютер с упрощенной системой команд). Процессор Pentium -- одна из первых микросхем CISC (Complex Instruction Set Computer -- компьютер со сложной системой команд), в которой применяется суперскалярная технология, реализованная во всех процессорах пятого и последующих поколений. Рассмотрим на примере установки электрической лампочки инструкции CISC.
1. Возьмите электрическую лампочку.
2. Вставьте ее в патрон.
3. Вращайте до отказа.
И аналогичный пример в виде инструкций RISC.
1. Поднесите руку к лампочке.
2. Возьмите лампочку.
3. Поднимите руку к патрону.
4. Вставьте лампочку в патрон.
5. Поверните ее.
6. Лампочка поворачивается в патроне? Если да, то перейти к п. 5.
7. Конец.
Многие инструкции RISC довольно просты, поэтому для выполнения какой-либо операции потребуется больше таких инструкций. Их основное преимущество состоит в том, что процессор выполняет меньшее количество операций, что, как правило, сокращает время выполнения отдельных команд и соответственно всей задачи (программы). Можно долго спорить о том, что же в действительности лучше -- RISC или CISC, хотя, если говорить честно, такого понятия, как "чистая" микросхема RISC или CISC, не существует. Подобная классификация не более чем вопрос терминологии. Процессоры Intel и совместимые с ними процессоры можно определить как микросхемы CISC. Несмотря на это, процессоры пятого и шестого поколения обладают различными атрибутами RISC и разбивают во время работы команды CISC на более простые инструкции RISC.
Технология MMX
В зависимости от контекста, MMX может означать multi-media extensions (мультимедийные расширения) или matrix math extensions (матричные математические расширения). Технология MMX использовалась в старших моделях процессоров Pentium пятого поколения в качестве расширения, благодаря которому ускоряется компрессия/декомпрессия видеоданных, манипулирование изображением, шифрование и выполнение операций ввода-вывода -- почти все операции, используемые во многих современных программах. В архитектуре процессоров MMX есть два основных усовершенствования. Первое, фундаментальное, состоит в том, что все микросхемы MMX имеют больший внутренний встроенный кэш, чем их собратья, не использующие эту технологию. Это повышает эффективность выполнения каждой программы и всего программного обеспечения независимо от того, использует ли оно фактически команды MMX. Другое усовершенствование MMX состоит в расширении набора команд процессора 57 новыми командами, а также во введении новой возможности выполнения команд, называемой одиночный поток команд -- множественный поток данных (Single Instruction -- Multiple Data, SIMD). В современных мультимедийных и сетевых приложениях часто используются циклы; хотя они занимают около 10% (или даже меньше) объема полного кода приложения, на их выполнение может уйти до 90% общего времени выполнения. SIMD позволяет одной команде осуществлять одну и ту же операцию над несколькими данными, подобно тому, как преподаватель, читая лекцию, обращается ко всей аудитории, а не к каждому студенту в отдельности. Технология SIMD позволяет ускорить выполнение циклов при обработке графических, анимационных, видео- и аудиофайлов; в противном случае эти циклы отнимали бы время у процессора. Intel также добавила 57 новых команд, специально разработанных для более эффективной обработки звуковых, графических и видеоданных. Эти команды предназначены для выполнения с высокой степенью параллелизма последовательностей, которые часто встречаются при работе мультимедийных программ. Высокая степень параллелизма в данном случае означает, что одни и те же алгоритмы применяются ко многим данным, например к данным в различных точках при изменении графического изображения. Такие компании, как AMD и Cyrix, лицензировали у Intel технологию MMX и реализовали ее в собственных процессорах.
Инструкции SSE и SSE2
В феврале 1999 года Intel представила общественности процессор Pentium III, содержащий обновление технологии MMX, получившей название SSE (Streaming SIMD Extensions -- потоковые расширения SIMD). До этого момента инструкции SSE носили имя Katmai New Instructions (KNI), так как первоначально они были включены в процессор Pentium III с кодовым именем Katmai. Процессоры Celeron 533A и выше, созданные на основе ядра Pentium III, тоже поддерживают инструкции SSE. Более ранние версии процессора Pentium II, а также Celeron 533 и ниже (созданные на основе ядра Pentium II) SSE не поддерживают. Инструкции SSE содержат 70 новых команд для работы с графикой и звуком в дополнение к существующим командам MMX. Фактически этот набор инструкций кроме названия KNI имел еще и второе название -- MMX-2. Инструкции SSE позволяют выполнять операции с плавающей запятой, реализуемые в отдельном модуле процессора. В технологиях MMX для этого использовалось стандартное устройство с плавающей запятой. Инструкции SSE2, содержащие в себе 144 дополнительные команды SIMD, были представлены в ноябре 2000 года вместе с процессором Pentium 4. В SSE2 были включены все инструкции предыдущих наборов MMX и SSE. Потоковые расширения SIMD (SSE) содержат целый ряд новых команд для выполнения операций с плавающей запятой и целыми числами, а также команды управления кэш-памятью. Новые технологии SSE позволяют более эффективно работать с трехмерной графикой, потоками аудио- и видеоданных (DVD-воспроизведение), а также приложениями распознавания речи. В целом SSE обеспечивает следующие преимущества: более высокое разрешение/качество при просмотре и обработке графических изображений; улучшенное качество воспроизведения звуковых и видеофайлов в формате MPEG2, а также одновременное кодирование и декодирование формата MPEG2 в мультимедийных приложениях; уменьшение загрузки процессора и повышение точности/скорости реагирования при выполнении программного обеспечения для распознавания речи. Инструкции SSE и SSE2 особенно эффективны при декодировании файлов формата MPEG2, который является стандартом сжатия звуковых и видеоданных, используемым в DVD-дисках. Следовательно, SSE-оснащенные процессоры позволяют достичь максимальной скорости декодирования MPEG2 без использования дополнительных аппаратных средств (например, платы декодера MPEG2). Кроме того, процессоры, содержащие набор инструкций SSE, значительно превосходят предыдущие версии процессоров при распознавании речи. Одним из основных преимуществ SSE по отношению к MMX является поддержка операций SIMD с плавающей запятой, что очень важно при обработке трехмерных графических изображений. Технология SIMD, как и MMX, позволяет выполнять сразу несколько операций при получении процессором одной команды. В частности, SSE поддерживает выполнение до четырех операций с плавающей запятой за цикл; одна инструкция может одновременно обрабатывать четыре блока данных. Для выполнения операций с плавающей запятой инструкции SSE могут использоваться вместе с командами MMX без заметного снижения быстродействия. SSE также поддерживает упреждающую выборку данных (prefetching), которая представляет собой механизм предварительного считывания данных из кэш-памяти. Обратите внимание, что наилучший результат использования новых инструкций процессора обеспечивается только при их поддержке на уровне используемых приложений. Сегодня большинство компаний, занимающихся разработкой программного обеспечения, модифицировали приложения, связанные с обработкой графики и звука, что позволило в более полной мере использовать возможности SSE. Например, графическое приложение Adobe Photoshop поддерживает инструкции SSE, что значительно повышает эффективность использования SSE-оснащенных процессоров. Поддержка инструкций SSE встроена в DirectX 6.1 и в самые последние видео- и аудиодрайверы, поставляемые с операционными системами Windows 98 Second Edition, Windows Me, Windows NT 4.0 (с пакетом обновления 5 или более поздним) и Windows 2000.Инструкции SSE являются расширением технологий MMX, а SSE2 -- расширением инструкций SSE. Таким образом, процессоры, поддерживающие SSE2, поддерживают также инструкции SSE, а процессоры, поддерживающие инструкции SSE, в свою очередь, поддерживают оригинальные команды MMX. Это означает, что стандартные MMX-приложения могут выполняться практически на любых системах.
3DNow и Enhanced 3DNow
Технология 3DNow разработана компанией AMD в ответ на реализацию поддержки инструкций SSE в процессорах Intel. Впервые (май 1998 года) 3DNow реализована в процессорах AMD K6, а дальнейшее развитие -- Enhanced 3DNow -- эта технология получила в процессорах Athlon и Duron. Аналогично SSE, технологии 3DNow и Enhanced 3DNow предназначены для ускорения обработки трехмерной графики, мультимедиа и других интенсивных вычислений.3DNow представляет собой набор из 21 инструкции SIMD, которые оперируют массивом данных в виде единичного элемента. В Enhanced 3DNow к существующим добавлены еще 24 новых инструкции. Технологии обработки данных 3DNow и Enhanced 3DNow хотя и подобны SSE, но несовместимы на уровне инструкций, поэтому производителям программного обеспечения необходимо отдельно реализовать поддержку этих технологий. Технология 3DNow, как и SSE, поддерживает операции SIMD с плавающей запятой, а также позволяет выполнять до четырех операций с плавающей запятой за один цикл. Инструкции 3DNow для операций с плавающей запятой могут использоваться вместе с командами MMX без заметного снижения быстродействия. Поддерживается и упреждающая выборка данных -- механизм предварительного считывания данных из кэшпамяти. Все технологии ускорения обработки данных компаний Intel и AMD реализованы на уровне операционных систем Windows 9x и Windows NT/2000. Кроме этого, все программные интерфейсы DirectX (с версии 6) компании Microsoft и Open GL компании SGI оптимизированы для технологии 3DNow, а практически все современные видеодрайверы 3Dfx, ATI, Matrox и nVidia поддерживают 3DNow и Enhanced 3DNow. Несмотря на то что технология 3DNow поддерживается многими компьютерными играми и драйверами видеоадаптеров, существует ряд профессиональных графических приложений, к числу которых относится и Adobe Photoshop, не поддерживающих 3DNow.
Supplemental Streaming SIMD Extension 3 (SSSE3) -- это обозначение, данное Intel'ом 4-му расширению системы команд. Предыдущее имело обозначение SSE3 и Intel добавил ещё один символ 'S' вместо того, чтобы увеличить номер расширения, возможно потому, что они посчитали SSSE3 простым дополнением к SSE3. Часто, до того как стало использоваться официальное обозначение SSSE3, эти новые команды назывались SSE4. Также их называли кодовыми именами Tejas New Instructions (TNI) и Merom New Instructions (MNI) по названию процессоров, где впервые Intel намеревалась поддержать эти новые команды. Появившись в Intel Core Microarchitecture, SSSE3 доступно в сериях процессоров Xeon 5100 (Server и Workstation версии), а также в процессорах Intel Core 2 (Notebook и Desktop версии).
EM64T (англ. Extended Memory 64 Technology) -- реализация 64-битных расширений AMD64 процессорной архитектуры IA-32 (архитектуры x86-совместимых процессоров) фирмы Intel. Основное улучшение, обеспечиваемое EM64T -- 64-битная адресация оперативной памяти, что позволяет снять присущее 32-битным процессорам ограничение в 4 гигабайта адресуемой напрямую памяти
Динамическое выполнение
Этот метод впервые использован в микросхемах P6 (процессорах шестого поколения) и позволяет процессору параллельно обрабатывать сразу несколько команд, что приводит к уменьшению времени, необходимого для выполнения той или иной задачи. Это технологическое новшество включает в себя следующие элементы.
-Предсказание множественного перехода (ветвления). Предсказание потока выполнения программы через несколько ветвлений.
-Анализ потока команд. Назначение выполнения команд по мере готовности, независимо от их порядка в оригинальной программе.
-Упреждающее выполнение. Увеличение скорости выполнения за счет опережающего просмотра счетчика команд и выполнения тех команд, к которым, вероятно, потребуется обратиться позже.
Предсказание перехода
Функция предсказания перехода, ранее применявшаяся только в универсальных процессорах старших моделей, позволяет процессору при высокоскоростном выполнении команд сохранять конвейер заполненным. Специальный модуль выборки/декодирования, включенный в процессор, использует высоко оптимизированный алгоритм предсказания перехода, позволяющий предсказывать направление и результат команд, выполняемых через несколько уровней ветвлений, обращений и возвратов. Этот модуль напоминает шахматиста, разрабатывающего несколько различных стратегий перед началом шахматной партии, предсказывая ответные действия противника на несколько ходов вперед. Благодаря предсказанию результатов выполнения команды инструкции могут выполняться практически без задержек.
Анализ потока данных
Функция анализа потока команд используется для исследования потока данных, проходящих через процессор, и выявления любых возможностей выполнения команды с изменением заданной ранее последовательности. Специальный процессорный модуль отправки/выполнения контролирует команды и позволяет выполнять их в таком порядке, который оптимизирует использование модулей множественного суперскалярного выполнения. Возможность изменять последовательность выполнения команд позволяет сохранить занятость модулей выполнения даже в случае промаха кэш-памяти или обработки каких-либо информационно-зависимых команд.
Упреждающее выполнение
Способность процессора выполнять команды с помощью опережающего просмотра существующего счетчика команд называется упреждающим выполнением. Модуль отправки/выполнения, включенный в процессор, анализирует поток данных для выполнения всех команд, существующих в буфере (накопителе) команд, и сохранения результатов их выполнения в буферных регистрах. После этого модуль изъятия анализирует содержимое пула команд на предмет наличия завершенных команд, не зависящих от данных, получаемых при выполнении других команд, или команд, имеющих неразрешенные предсказания перехода. Результаты выполнения обнаруженных завершенных команд передаются в память модулем изъятия или соответствующей стандартной архитектурой Intel в том порядке, в котором они были получены. Затем команды удаляются из буфера.В сущности, динамическое выполнение устраняет зависимость от линейной последовательности команд. Выполнение команд с изменением их последовательности позволяет максимально загрузить модуль выполнения и уменьшить время ожидания, необходимое для получения данных из памяти. Несмотря на то что порядок предсказания и выполнения команд может быть изменен, их результаты передаются в исходном порядке, для того чтобы не прерывать и не изменять течение программы. Это позволяет процессорам P6 выполнять существующее программное обеспечение архитектуры Intel точно так же, как это делали P5 (Pentium) или процессоры более ранних версий, но на целый порядок быстрее!
Архитектура двойной независимой шины
Эта архитектура (Dual Independent Bus -- DIB) впервые была реализована в процессоре шестого поколения и предназначалась для увеличения пропускной способности шины процессора и повышения производительности. При наличии двух независимых шин данных для ввода-вывода процессор получает доступ к данным с любой из них одновременно и параллельно, а не последовательно, как в системе с одной шиной. Вторая, или фоновая (backside) входная шина процессора с DIB применяется кэш-памятью второго уровня, поэтому она может работать значительно быстрее, чем в том случае, если бы ей пришлось использовать (совместно с процессором) основную шину. В архитектуре DIB предусмотрено две шины: шина кэш-памяти второго уровня и шина, соединяющая процессор и основную память, или системная шина. Процессоры Pentium Pro, Celeron, Pentium II/III, Athlon и Duron могут использовать обе шины одновременно, благодаря чему снижается критичность такого параметра, как пропускная способность шины. Благодаря архитектуре двойной шины кэш-память второго уровня более современных процессоров может работать на полной скорости в ядре процессора на независимой шине, используя при этом основную шину центрального процессора (FSB) для обработки текущих данных, поступающих на микросхему и отправляемых ею. Шины работают с разной тактовой частотой. Шина FSB, или главная шина центрального процессора, соединена с системной платой, а шина кэш-памяти второго уровня -- непосредственно с ядром процессора. При увеличении рабочей частоты процессора увеличивается тактовая частота кэш-памяти второго уровня. Для реализации архитектуры DIB кэш-память второго уровня перемещена с системной платы в один корпус с процессором, что позволило приблизить быстродействие кэш-памяти второго уровня к быстродействию встроенной кэш-памяти, которое значительно превосходит быстродействие памяти, помещаемой на системную плату. Чтобы поместить кэш в корпус процессора, понадобилось модифицировать гнездо процессора. DIB также позволяет системой шине выполнять одновременно несколько транзакций (а не одну последовательность транзакций), благодаря чему ускоряется поток информации внутри системы и повышается эффективность. Все средства архитектуры DIB повышают пропускную способность почти в три раза по сравнению с процессором, имеющим архитектуру одиночной шины
Производство процессоров
Основным химическим элементом, используемым при производстве процессоров, является кремний, самый распространенный элемент на земле после кислорода. Это базовый компонент, из которого состоит прибрежный песок (кремниевый диоксид); однако в таком виде он не подходит для производства микросхем. Чтобы использовать кремний в качестве материала для изготовления микросхемы, необходим длительный технологический процесс, который начинается с получения кристаллов чистого кремния по методу Жокральски (Czochralski). По этой технологии сырье, в качестве которого используется в основном кварцевая порода, преобразуется в электродуговых печах в металлургический кремний. Затем для удаления примесей полученный кремний плавится, дистиллируется и кристаллизуется в виде полупроводниковых слитков с очень высокой степенью чистоты (99,999999%). После механической нарезки слитков полученные заготовки загружаются в кварцевые тигли и помещаются в электрические сушильные печи для вытяжки кристаллов, где плавятся при температуре более 2500° по Фаренгейту. Для того чтобы предотвратить образование примесей, сушильные печи обычно устанавливаются на толстом бетонном основании. Бетонное основание, в свою очередь, устанавливается на амортизаторах, что позволяет значительно уменьшить вибрацию, которая может негативно сказаться на формировании кристалла. Как только заготовка начинает плавиться, в расплавленный кремний помещается небольшой, медленно вращающийся затравочный кристалл. По мере удаления затравочного кристалла от поверхности расплава вслед за ним вытягиваются кремниевые нити, которые, затвердевая, образуют кристаллическую структуру. Изменяя скорость перемещения затравочного кристалла (10-40 мм в час) и температуру (примерно 2500° по Фаренгейту), получаем кристалл кремния малого начального диаметра, который затем наращивается до нужной величины. В зависимости от размеров изготавливаемых микросхем, выращенный кристалл достигает 8-12 дюймов (20-30 мм) в диаметре и 5 футов (около 1,5 м) в длину.
Вес выращенного кристалла достигает нескольких сотен фунтов. Заготовка вставляется в цилиндр диаметром 200 мм (текущий стандарт), часто с плоской вырезкой на одной стороне для точности позиционирования и обработки. Затем каждая заготовка разрезается алмазной пилой более чем на тысячу круговых подложек толщиной менее миллиметра (рис2). После этого подложка полируется до тех пор, пока ее поверхность не станет зеркально гладкой. В производстве микросхем используется процесс, называемый фотолитографией. Технология этого процесса такова: на полупроводник, служащий основой чипа, один за другим наносятся слои разных материалов; таким образом, создаются транзисторы, электронные схемы и проводники (дорожки), по которым распространяются сигналы. В точках пересечения специфических схем можно создать транзистор или переключатель (вентиль). Фотолитографический процесс начинается с покрытия подложки слоем полупроводника со специальными добавками, затем этот слой покрывается фоторезистивным химическим составом, а после этого изображение микросхемы проектируется на ставшую теперь светочувствительной поверхность. В результате добавления к кремнию (который, естественно, является диэлектриком) донорных примесей получается полупроводник. Проектор использует специальный фотошаблон (маску), который является, по сути, картой данного конкретного слоя микросхемы. (Микросхема процессора Pentium III содержит пять слоев; другие современные процессоры могут иметь шесть или больше слоев. При разработке нового процессора потребуется спроектировать фотошаблон для каждого слоя микросхемы.) Проходя через первый фотошаблон, свет фокусируется на поверхности подложки, оставляя отпечаток изображения этого слоя. Затем специальное устройство несколько перемещает подложку, а тот же фотошаблон (маска) используется для печати следующей микросхемы. После того как микросхемы будут отпечатаны на всей подложке, едкая щелочь смоет те области, где свет воздействовал на фоторезистивное вещество, оставляя отпечатки фотошаблона (маски) конкретного слоя микросхемы и межслойные соединения (соединения между слоями), а также пути прохождения сигналов. После этого на подложку наносится другой слой полупроводника и вновь немного фоторезистивного вещества поверх него, затем используется следующий фотошаблон (маска) для создания очередного слоя микросхемы. Таким способом слои наносятся один поверх другого до тех пор, пока не будет полностью изготовлена микросхема.
Финальная маска добавляет так называемый слой металлизации, используемый для соединения всех транзисторов и других компонентов. В большинстве микросхем для этого слоя используют алюминий, но в последнее время стали использовать медь. Например, при производстве процессоров компании AMD на фабрике в Дрездене используется медь. Это объясняется лучшей проводимостью меди по сравнению с алюминием. Однако для повсеместного использования меди необходимо решить проблему ее коррозии.
Когда обработка круговой подложки завершится, на ней будет фотоспособом отпечатано максимально возможное количество микросхем. Микросхема обычно имеет форму квадрата или прямоугольника, по краям подложки остаются некоторые "свободные" участки, хотя производители стараются использовать каждый квадратный миллиметр поверхности. Промышленность переживает очередной переходный период в производстве микросхем. В последнее время наблюдается тенденция к увеличению диаметра подложки и уменьшению общих размеров кристалла, что выражается в уменьшении габаритов отдельных схем и транзисторов и расстояния между ними. В конце 2001 и начале 2002 года произошел переход с 0,18- на 0,13-микронную технологию, вместо алюминиевых межкристальных соединений начали использовать медные, при этом диаметр подложки увеличился с 200 мм (8 дюймов) до 300 мм (12 дюймов). Увеличение диаметра подложки до 300 мм позволяет удвоить количество изготавливаемых микросхем. Использование 0,13-микронной технологии позволяет разместить на кристалле большее количество транзисторов при сохранении его приемлемых размеров и удовлетворительного процента выхода годных изделий. Это означает сохранение тенденции увеличения объемов кэш-памяти, встраиваемой в кристалл процессора. В качестве примера того, как это может повлиять на параметры определенной микросхемы, рассмотрим процессор Pentium 4.
Диаметр стандартной подложки, используемой в полупроводниковой промышленности в течение уже многих лет, равен 200 мм или приблизительно 8 дюймов(рис). Таким образом, площадь подложки достигает 31 416 мм2. Первая версия процессора Pentium 4, изготовленного на 200-миллиметровой подложке, содержала в себе ядро Willamette, созданное на основе 0,18-микронной технологии с алюминиевыми контактными соединениями, расположенными на кристалле площадью около 217 мм2. Процессор содержал в себе 42 млн. транзисторов. На 200-миллиметровой (8-дюймовой) подложке могло разместиться до 145 подобных микросхем. Процессоры Pentium 4 с ядром Northwood, созданные по 0,13-микронной технологии, содержат в себе медную монтажную схему, расположенную на кристалле площадью 131 мм2. Этот процессор содержит уже 55 млн. транзисторов. По сравнению с версией Willamette ядро Northwood имеет удвоенный объем встроенной кэш-памяти второго уровня (512 Кбайт), что объясняет более высокое количество содержащихся транзисторов. Использование 0,13-микронной технологии позволяет уменьшить размеры кристалла примерно на 60%, что дает возможность разместить на той же 200-миллиметровой (8-дюймовой) подложке до 240 микросхем. Как вы помните, на этой подложке могло разместиться только 145 кристаллов Willamette. В начале 2002 года Intel приступила к производству кристаллов Northwood на большей, 300-миллиметровой подложке площадью 70 686 мм2. Площадь этой подложки в 2,25 раза превышает площадь 200-миллиметровой подложки, что позволяет практически удвоить количество микросхем, размещаемых на ней. Если говорить о процессоре Pentium 4 Northwood, то на 300-миллиметровой подложке можно разместить до 540 микросхем. Использование современной 0,13-микронной технологии в сочетании с подложкой большего диаметра позволило более чем в 3,7 раза увеличить выпуск процессоров Pentium 4. Во многом благодаря этому современные микросхемы зачастую имеют более низкую стоимость, чем микросхемы предыдущих версий. В 2003 году полупроводниковая промышленность перешла на 0,09-микронную технологию. При вводе новой поточной линии не все микросхемы на подложке будут годными. Но по мере совершенствования технологии производства данной микросхемы возрастет и процент годных (работающих) микросхем, который называется выходом годных. В начале выпуска новой продукции выход годных может быть ниже 50%, однако ко времени, когда выпуск продукта данного типа прекращается, он составляет уже 90%. Большинство изготовителей микросхем скрывают реальные цифры выхода годных, поскольку знание фактического отношения годных к бракованным может быть на руку их конкурентам. Если какая-либо компания будет иметь конкретные данные о том, как быстро увеличивается выход годных у конкурентов, она может скорректировать цены на микросхемы или спланировать производство так, чтобы увеличить свою долю рынка в критический момент. Например, в течение 1997 и 1998 годов у AMD был низкий выход годных, и компания утратила значительную долю рынка. Несмотря на то что AMD предпринимала усилия для решения этой проблемы, ей все же пришлось подписать соглашение, в соответствии с которым IBM Microelectronics должна была произвести и поставить AMD некоторые ею же разработанные микропроцессоры. По завершении обработки подложки специальное устройство проверяет каждую микросхему на ней и отмечает некачественные, которые позже будут отбракованы. Затем микросхемы вырезаются из подложки с помощью высокопроизводительного лазера или алмазной пилы. Когда кристаллы будут вырезаны из подложек, каждая микросхема испытывается отдельно, упаковывается и снова проходит тест. Процесс упаковки называется соединением: после того как кристалл помещается в корпус, специальная машина соединяет тонюсенькими золотыми проводами выводы кристалла со штырьками (или контактами) на корпусе микросхемы. Затем микросхема упаковывается в специальный пакет -- контейнер, который, по существу, предохраняет ее от неблагоприятных воздействий внешней среды. После того как выводы кристалла соединены со штырьками на корпусе микросхемы, а микросхема упакована, выполняется заключительное тестирование, чтобы определить правильность функционирования и номинальное быстродействие. Разные микросхемы одной и той же серии зачастую обладают различным быстродействием. Специальные тестирующие приборы заставляют каждую микросхему работать в различных условиях (при разных давлениях, температурах и тактовых частотах), определяя значения параметров, при которых прекращается корректное функционирование микросхемы. Параллельно определяется максимальное быстродействие; после этого микросхемы сортируются по быстродействию и распределяются по приемникам: микросхемы с близкими параметрами попадают в один и тот же приемник. Например, микросхемы Pentium 4 2,0А, 2,2, 2,26, 2,24 и 2,53 ГГц представляют собой одну и ту же микросхему, т. е. все они были напечатаны с одного и того же фотошаблона, кроме того, сделаны они из одной и той же заготовки, но в конце производственного цикла были отсортированы по быстродействию.
Корпуса процессоров
Корпус PGA
Корпус типа PGA до недавнего времени был самым распространенным. Он использовался начиная с 1980-х годов для процессоров 286 и сегодня применяется для процессоров Pentium и Pentium Pro. На нижней части корпуса микросхемы имеется массив штырьков, расположенных в виде решетки. Корпус PGA вставляется в гнездо типа ZIF (Zero Insertion Force -- нулевая сила вставки). Гнездо ZIF имеет рычаг для упрощения процедуры установки и удаления чипа. Для большинства процессоров Pentium используется разновидность PGA -- SPGA (Staggered Pin Grid Array -- шахматная решетка массива штырьков), где штырьки на нижней стороне чипа расположены в шахматном порядке, а не в стандартном -- по строкам и столбцам. Это было сделано для того, чтобы разместить штырьки ближе друг к другу и уменьшить занимаемую микросхемой площадь. Справа на рисунке показан корпус Pentium Pro, на котором штырьки расположены по двойному шаблону SPGA; рядом с ним -- обычный корпус процессора Pentium 66. Обратите внимание, что на верхней половине корпуса Pentium Pro имеются дополнительные штырьки, которые расположены среди других строк и столбцов в шахматном порядке. В ранних версиях корпуса PGA кристалл процессора устанавливался лицевой стороной вниз в специальную полость, находящуюся ниже поверхности подложки. После этого кристалл прикреплялся к корпусу микросхемы сотнями тончайших золотых проводков, соединяющих контакты микросхемы с внутренними контактами корпуса. После выполнения проводного соединения полость корпуса закрывалась специальной металлической крышкой. Подобный способ изготовления микросхем оказался слишком дорогим и трудоемким, поэтому были разработаны более дешевые и эффективные методы упаковки. Большинство современных процессоров собираются в корпусе с матричным расположением штырьковых выводов на обратной стороне кристалла (Flip-Chip Pin Grid Array -- FC-PGA). Процессоры этого типа все еще устанавливаются в разъем PGA, но сам корпусстал значительно проще. При использовании корпуса FC-PGA необработанный кристалл кремния устанавливается лицевой стороной вниз на верхнюю часть подложки микросхемы. При этом проволочное соединение заменяется аккуратной пайкой контактов по периметру кристалла. Края кристалла заливаются эпоксидной смолой. В оригинальных версиях корпуса FC-PGA пользователь может увидеть тыльную часть необработанного кристалла, установленного в этой микросхеме. К сожалению, существует целый ряд проблем, связанных с закреплением радиатора на корпусе микросхемы FC-PGA. Радиатор "сидит" на верхней части кристалла, который служит его основанием. Если к одной из сторон радиатора во время его установки (например, при подсоединении зажима) приложить чрезмерное усилие, можно расколоть кристалл кремния и повредить микросхему. Поскольку радиаторы становятся больше и тяжелее, увеличивается усилие, необходимое для их установки. Компания AMD попыталась уменьшить вероятность повреждения, установив в корпуcсе процессора специальные резиновые прокладки, предотвращающие чрезмерный наклон радиатора во время его установки. К сожалению, эластичность используемых прокладок не позволяет полностью избежать опасности повреждения микросхемы при установке радиатора. В настоящее время в процессорах Athlon XP используется корпус FC-PGA с прокладками, установленными в каждом углу подложки. В компании Intel была создана новая версия корпуса FC-PGA2, используемая в более современных процессорах Pentium III и всех процессорах Pentium 4. Этот корпус включает в себя специальный теплораспределитель -- металлическую защитную крышку, расположенную на верхней части кристалла. Эта крышка позволяет устанавливать большие и довольно тяжелые радиаторы, не опасаясь потенциального повреждения ядра процессора. В будущем появится корпус, получивший название безударной послойной сборки (Bumpless Build-Up Layer -- BBUL), при которой кристалл полностью заключается в корпус; фактически стенки корпуса формируются вокруг кристалла и поверх него, образуя полностью герметичную конструкцию. Корпус подобного типа охватывает кристалл микросхемы, создавая при этом плоскую поверхность, необходимую для установки радиатора, а также упрощая схему внутренних соединений в корпусе.
Корпуса SEC и SEPВ период с 1997 по 2000 год в Intel и AMD использовались модули процессоров, выполненные на основе картриджей или плат. Подобная компоновка, называемая корпусом с односторонним контактом (Single Edge Contact Cartridge -- SECC) или корпусом с одним процессором (Single Edge Processor Package -- SEPP), включает в себя центральный процессор и несколько отдельных микросхем кэш-памяти второго уровня, собранных на монтажной плате, похожей на модули памяти большого размера и установленной в соответствующий разъем. В некоторых случаях монтажные платы закрывались специальными пластмассовыми крышками. Корпус SEC представляет собой новаторскую, правда, несколько громоздкую конструкцию, включающую в себя рабочую шину процессора и внешнюю кэш-память второго уровня. Этот корпус использовался в качестве оптимального метода интегрирования кэш-памяти второго уровня в процессор до появления возможности включения кэш-памяти непосредственно в кристалл процессора. Корпус SEP (Single Edge Processor -- корпус с одним процессором) является более дешевой разновидностью корпуса SEC. В корпусе SEP нет верхней пластмассовой крышки, а также может не устанавливаться кэш-память второго уровня (или же устанавливается меньший объем). Корпус SEP вставляется в разъем Slot 1. Чаще всего в корпус SEP помещают недорогие процессоры, например Celeron. Slot 1 -- это разъем системной платы, имеющий 242 контакта. Переходник с S370 к Slot 1 показан на рисунке. Корпус SEC или SEP, внутри которого находится процессор, вставляется в Slot 1 и фиксируется специальной скобой. Иногда имеется крепление для системы охлаждения процессора. На рис показаны части крышки, из которых состоит картридж SEC. Обратите внимание на большую пластину, рассеивающую тепло, выделяемое процессором. Процессор Pentium III упаковывается в корпус, который называется SECC2 (Single Edge Contact Cartridge, версия 2). Этот корпус является разновидностью корпуса SEC. Крышка расположена с одной стороны, а с другой стороны непосредственно к микросхеме прикрепляется охлаждающий элемент. Такое конструктивное решение позволяет более эффективно отводить от процессора тепло. Процессоры в этом корпусе вставляются в разъемы Slot 1. Корпус SECC2 показан на рис. Появление корпусов подобного типа было связано с невозможностью включения кэш-памяти в кристалл ядра центрального процессора. После появления конструкций, позволяющих ввести кэш-память второго уровня непосредственно в кристалл процессора, необходимость в использовании корпусов SEC и SEP исчезла. Практически все современные процессоры включают в себя интегрированную кэш-память второго уровня, поэтому при компоновке процессора разработчики снова вернулись к корпусу PGA.
Подобные документы
Общие понятия и определения о процессорах. Изучение устройства и принципа работы процессора. Подбор инструментов для сборки и разборки системного блока. Описание процесса обслуживания процессора. Требования к технике безопасности при выполнении работ.
курсовая работа [2,0 M], добавлен 15.02.2015История и перспективы развития производства процессоров компьютеров. Основы работы центрального процессора. Характеристика многоядерных процессоров. Ведущие производители: Intel и AMD, их планы по выпуску новых процессоров. Советы по выбору CPU.
курсовая работа [2,8 M], добавлен 03.11.2011Как изготавливается процессор. Выбор процессора для офисного, игрового и домашнего компьютеров. Как заменить центральный процессор в компьютере. Повышение быстродействия процессоров, тактовой частоты, быстродействия памяти, понижение таймингов.
дипломная работа [1,7 M], добавлен 29.04.2014Состав центрального процессора: устройства управления, арифметико-логическое, запоминающее. Тактовая частота и разрядность процессоров, его адресное пространство и рабочая температура. Тепловыделение процессоров и отвод тепла; количество ядер.
презентация [1,0 M], добавлен 03.02.2015Построение современных центральных процессоров на основе циклического процесса последовательной обработки информации. Архитектура двойного конвейера с общим вызовом команд. Основная идея создания кэш-памяти. Характеристика процессоров Core и Phenom.
реферат [1,6 M], добавлен 30.12.2010Понятия и принцип работы процессора. Устройство центрального процессора. Типы архитектур микропроцессоров. Однокристальные микроконтроллеры. Секционные микропроцессоры. Процессоры цифровой обработки сигналов. Эволюция развития микропроцессоров Intel.
реферат [158,8 K], добавлен 25.06.2015Обзор цифровых процессоров для видеонаблюдения. Конструктивное исполнение процессоров. Программное и аппаратное обеспечение. Система команд цифрового процессора. Содержание программного кода. Пояснения к программному коду. Иллюстрация работы эмулятора.
курсовая работа [1,2 M], добавлен 13.02.2017Принцип работы ядра процессора, типы архитектур ядер операционных систем. Сокет(Socket), кэш-память, контроллер ОЗУ, северный мост. Внутренняя архитектура процессоров Intel и AMD: расшифровка названий, технологии процессоров, сравнение производительности.
реферат [214,9 K], добавлен 05.05.2014История развития производства процессоров. Intel 4040, упрощенная структурная схема. Регистры общего, специального назначения. Основные параметры процессора: разрядность, тактовая частота. Подбор под запросы пользователя. Программа CPU-Z, окно параметров.
контрольная работа [529,7 K], добавлен 29.10.2014История появления и развития первых процессоров для компьютеров. Общая структура центрального процессора. Устройство блока интерфейса. Основные характеристики процессора. Кеш-память разных уровней. Разрядность и количество ядер. Частота и системная шина.
презентация [1,4 M], добавлен 11.04.2019