Процесор Intel Atom: Все, що ви хотіли знати, але не могли знайти

  1. пам'ять Атома
  2. Витримка Атома
  3. види Атома

Частина 2: Пам'ять, Витримка, Види

пам'ять Атома

Параметри кешей Intel Atom такі:

  • L1I - 32 КБ, 8-путня асоціативність, затримка (швидше за все) 3 такту;
  • L1D - 24 КБ, 6-путня асоціативність, затримка 3 такту;
  • L2 - 512 КБ (+ ECC), 8-путня асоціативність, затримка 19 тактів.
  • шина «L2-ядро» - 256-бітна, полноскоростная (хоча навіть в синтетичних тестах понад 4,5 байт / такт не помічено).

Перш за все дивують дивні параметри L1D, але про них ми поговоримо окремо. Зараз же додамо, що у всіх кешей - 64-байтові рядка. Це також нетипово, т. К. За останні 20 років обчислювальна індустрія виробила найкраще співвідношення довжини рядка кеша до шматка даних, обмінюваних з пам'яттю за такт - 4: 1. Т. е. 2 × 8 × 4 = 64 байта на рядок - оптимально для 2-канального контролера пам'яті з 8 байтами / такт на канал. Невже Intel натякає на використання двох модулів пам'яті на дешевих і компактних мобільних ПК? Але ж таких чіпсетів для Атома не було півтора року після його випуску, поки не вийшов NVIDIA Ion . Правда, як з'ясувалося, другий канал пам'яті дає атому лише 5-6% надбавки до швидкості ...

L1D оснащений апаратним предзагрузчіком (префетчером) з L2, а L2 - з пам'яті. Завдяки зарезервованим на доступ в L1D трьох стадій конвеєра якщо операнд в пам'яті кешуватися, то команда з ним швидше за все виконається так само швидко, як і з регістром. Найчастіше виняток - коли доступ до пам'яті вимагає команда, що виконується в порту 0, через який також відбуваються і обміни з пам'яттю. Крім того, доступ до пам'яті і кешу сповільнюється на 3 такту (!), Якщо використовуються для обчислення адреси регістри недавно записувалися.

Цікаво, що механізм STLF (Store-to-Load-Forwarding, перенаправлення записи на читання) працює тільки для цілих чисел, але на диво добре: мало того, що Atom може прочитати дані, відправлені на запис за такт до цього, хоча вони ще не потрапили в кеш. Інші процесори можуть їх вважати і в цьому ж такті, але там 2-портовий LSU (блок обміну даних з L1D). Зате тут це можливо, навіть якщо розмір даних для читання перевищує такий для запису, або в разі невідповідності початкових адрес. STLF не спрацьовує лише при перетині кордону рядки кешу (як і скрізь). Але якщо перетин сталося (у т. Ч. І при звичайному доступі) - це призводить до штрафу аж в 16 тактів, т. К. Вимагає 4 доступу до кешу (навіть при читанні), хоча по ідеї досить і 2. Інші випадки невирівняного доступу (коли адреса блоку даних не ділиться без остачі на свій розмір), що не виходять за 64-байтовую кордон, виконуються на повній швидкості.
Чіп Атома 400-х серій (Pineview) для платформи Pinetrail. Зліва - ядро ЦП, праворуч - контролер пам'яті, в центрі - 3D / відеоядро, знизу - відеовиходи, зверху - решту інтерфейси.

Треба думати, що вбудовування контролера пам'яті (і взагалі половини чіпсета) в мобільний ЦП є очевидним кроком, особливо згадавши перші подібні рішення вже для 386-х процесорів. Однак Intel це зробила лише майже через два роки після випуску перших атомів, коли вийшли моделі Atom N450, N470, D410 і D510 (ядро Pineview). Підтримка DDR3-1066 обіцяна з літа 2010 р в моделях N455, N475 і N550, але контролер пам'яті все ще одноканальний. Тести показали, що особливих переваг інтеграція не принесла навіть для програм, сильно залежать від пропускної здатності пам'яті: мабуть, вони і без ІКП вперлися в слабке обчислювальне ядро. До речі, найскладніший 2-ядерний інтегрований Atom D510 має 176 млн. Транзисторів, з яких 82 млн. Витрачені на «північний міст». Порівняйте з цифрами для обчислювальних ядер.

Витримка Атома

Енергоефективність - найголовніше гідність цього процесора. Хоча ЦП не завжди є найактивнішим споживачем електроенергії в мобільному пристрої (при просте їм надається підсвічування ЖК-екрану або сам екран в разі застосування OLED-матриці), саме в ньому застосування енергозберігаючих функцій і технологій найбільш виправдано. Intel застосувала не тільки всі накопичені до цього часу прийоми, але і додала нові.

До Атома, коли справа доходила до аналізу «енергоємності» нововведень, Intel застосовувала таке правило: при впровадженні або зміні будь-якого блоку, на кожні 1% прискорення ЦП повинні припадати не більше ніж 2% збільшення енергоспоживання. Апофеоз цього недалекоглядної політики не змусив себе довго чекати: ним став Pentium 4. Амінь ... Для Pentium M цифра енергопрібавкі була споловинив - не більше 1% по ватам. А для Атома (і, пізніше, в лінійці Nehalem) - споловинив знову.

Результат непоганий. За первісним припущенням молодшим моделям для 1,3-1,5 ГГц вистачить 0,8 В, для найбільш популярної частоти в 1,6 ГГц буде потрібно 0,85 В, а одного вольта вистачило б для 2,05 ГГц (якби така модель була). Цифри не такі вже й героїчні, бо навіть для настільних моделей куди складнішою архітектури AMD K8 (при тому, що вона для економії ват зовсім не призначена), виконаних за останніми Степпінг попереднього 65-нанометрового техпроцесу, окремі чіпи при 1 В харчування працюють на частоті 2,2-2,3 ГГц. Спеціально оптимізована під енергозбереження версія 45-нанометрового техпроцесу могла б дати простому атому можливість повторити таке досягнення в більшості примірників. Але, на відміну від заяв на слайдах, наприклад, реальний Atom Z530 при частоті 1,6 ГГц харчується від 1,213 В - і це спеціально відібраний для Z-підсерію особливо економний ЦП! «Настільна» модель 230 на тій же частоті живиться від 1,188 В ... Atom N280, при просте знижуючи частоту з 1,66 до 1 ГГц, знижує напругу до 1,063 В, а N450, інтегрований з північним мостом, - до 0,95.

Питається - за що боролися? А боролися не просто за економію, а за дешеву економію, нехай і при не самих низькій напрузі. ULV Pentium M з TDP 3-5 Вт (при 1-1,3 ГГц і 90 нм) з'явився за 2,5 року до Атома, але коштував в 3-5 разів дорожче. Втім, якби його виготовили на 45 нм, він би мав і площа, і ціну якраз вчетверо менше ...

У звичайному ЦП для швидкості при зверненні в L1 одночасно запускаються три процесу - активація потрібного банку з вибіркою набору, трансляція фізичної адреси в віртуальний в TLB і вибірка набору з масиву тегів. Якщо станеться TLB-потрапляння, фізичну адресу зрівняється з тут же ліченими тегами, визначаючи номер шляху, де відбулося потрапляння в самому кеші. Далі з усього обраного набору банк комутує для читання або запису потрібний рядок. Якщо попадання немає ні в одному шляху, реєструється промах і запускається процес заповнення даних з зовнішнього джерела. У такій схемі безліч операцій робиться наперед і з явним надлишком, в результаті чого більша частина транзисторів, що спрацьовують для обслуговування запиту, працюють даремно. Інженери Intel модифікували схему поводження так: операції відбуваються послідовно, причому тільки ті, які потрібні, і тільки тоді, коли вони потрібні (підтверджено на попередньому кроці). Т. е. Спочатку трансляція, потім зчитування тегів, а потім доступ тільки до потрібної рядку з усього набору. Відмовитися від трансляції на користь віртуальної адресації L1 Інтел не наважилася - у такої ідеї недоліки перевищують переваги по швидкості і економності.

Atom також динамічно змінює включену частина L2, стежачи за активністю доступу. Невикористані банки «зливаються» (вивантажують вміст в пам'ять) і відключаються. Втім, головною деталлю в економних кешах є зовсім не мікроархітектурнимі реалізовані алгоритми економії, а новий дизайн осередку L1, який тісно пов'язаний з розміром кешей, точніше - з нерівністю розмірів. І знову залишимо це на потім - не кешем єдиним ...

Головними споживачами джоулів в ЦП є часто переключаються транзистори ядра. І тут у Атома є, чим похвалитися: крім того, що цих транзисторів дуже небагато за рахунок скорочення спеціалізованих блоків (наприклад, є тільки один умножитель-дільник і для цілих, і для речових, і для скалярів, і для векторів), що залишилися включаються тільки, тоді коли потрібно. Виключений HT - його контролер відключений від тактирования. Не використовуються 64 біта - старша половина целочисленного тракту даних разом з половинками регістрів і ФУ також вимикається. Довгий час не потрібен FPU або векторний блок - відбій і йому.

Всього у атомів першого покоління 5 енергосостояній:

  • високо- і низькочастотний режими C0 (HFM і LFM), відрізняються тільки частотою (при LFM завжди 600 МГц) і напругою ядра;
  • C1 (він же C2) з нульовим тактуванням і «злитими» (але ще живиться) кешами L1;
  • C4 з відключеними умножителями частоти, «частково злитих» L2 і ще більше зниженою напругою;
  • C6, при якому відключено і знеструмлено майже все - навіть з 203 висновків харчування активні лише 21, зменшуючи витоку в 10 разів, а споживання - до 100 мВт (за деякими даними в нових ЦП Z-серії - до 30 мВт).

У режимі C6 включеним залишається лише невеликий блок управління живленням, що дозволяє прокинутися в полноскоростной режим за 0,1 мс (з інших режимів пробудження набагато швидше). Блок оснащений масивом економною статичної пам'яті на 14 КБ (по ранніми даними - 10,5), що зберігає повне стан ЦП, поки він вимкнений. C6 є і у Penryn (мобільні Core 2 на 45 нм), але там про 0,1 Вт тільки мріють. У Атома стан C6, за твердженням Intel, займає до 90% часу (припускаючи, що пристрій в основному «спить» в кишені або на столі), так що середня потужність - всього 220 мВт. Т. к. В підрахунки включені і періоди «сну», тут можна було б написати будь-яку цифру: перевірити її все одно майже не можна :)
ІК-фотографія ядра Lincroft на повній потужності і повному просте. В останньому випадку єдине «гаряче» плямочка - блок управління живленням ядра.

Інтегровані моделі Z6xx додали ще 4 режими:

  • «Форсаж» до частоти вище номінальної (C0 Burst Mode);
  • ще більш економний, ніж LFM, наднизькочастотних режим ULFM C0 (у всіх моделей - 200 МГц);
  • S0i1 для простою з швидкою готовністю - перехід в S0i1 виконується за 0,6 мс, а вихід - за 1,2 мс (це довше пробудження з C6, але мова йде не тільки про ядро, а про все чіпі);
  • S0i3 для тривалого простою - вхід в нього вимагає 0,45 мс, а вихід - 3,1 мс.

У режимі S0i1 ядро ​​знаходиться в режимі C6, з інших частин включений тільки блок управління живленням, його пам'ять і схема авторегенераціі ОЗУ, споживаючи в сумі 6 мВт. При S0i3 весь процесор фізично відключається від живлення, крім авторегенератора з незначною 0,1 мВт. Також впроваджено принцип «силових островів» (power island) - функціональних блоків, оснащених власними ключами-комутаторами харчування, як в Core i (в Lincroft їх 19). Тепер при просте блоку можна знизити до нуля не тільки його частоту, але і харчування, повністю відключивши «острів» від всіх подваваемих зовні герц і вольт. Втім, т. К. Ядро ЦП є одним з цих блоків, як і в Menlow, воно може відключатися лише цілком - в режимі C6.

Ще одне місце економії - мережа розподілу тактирования. Справа в тому, що Синхронізаційні сигнали (такти або «тики») необхідно доставляти в усі місця ядра суворо одночасно. Частоти великі, фронти і спади неідеально різкі за часом - помножте його на швидкість світла, і отримана цифра (2-5 см) вже цілком порівнянна з розміром ядра. Щоб забезпечити одночасну доставку, сигнал поширюється по короткому шляху від помножувача частоти до блоків і вентилів, що вимагає наявність всепокривающей мережі тактирования з величезною паразитного ємністю. В результаті, скажімо, у Pentium 4 на харчування такої мережі йшло до третини споживаної потужності. Хоча ніяких рекордів частоти Atom ставити не збирається, та й розміри ядра дуже скромні - мережа йому не підходить. Сигнал з умножителей проходить по древообразная структурі дільників і підсилювачів, тимчасові параметри яких підібрані так, щоб після всіх розгалужень приймачі отримували такти одночасно. Це зменшує витрати на тактирование до величини менше 10% від загальних.

Атом економить вати не тільки всередині ЦП, але і зовні. Мова йде не про чіпсет, а про 64-бітної шині FSB до нього. Економія досягається за рахунок настроюваного режиму термінаторів - кінцевої навантаження шини, яка запобігає «дзвін» та інші паразитні явища, що заважають підвищенню частоти і стабільності. При виготовленні чіпа одноразовим перепалювання перемички вибирається стандартний режим (звичайна GTL) або економний (КМОП). GTL (Gunning Transceiver Logic, передавальна логіка Ганнінг) перемикається між 0,4 В і 1,2 В, що куди менше розмаху стандартних логічних рівнів, але вимагає симетричній термінації, яка споживає дорогоцінні мілівати на кожному бите шини. У режимі КМОП-шини термінатори відключаються, а вхідні компаратори налаштовуються на менший рівень лог. «1» щодо напруги живлення. Т. к. Швидкісних рекордів ставити не треба, цього достатньо для частот 400 і 533 МГц (для останніх моделей, де північний міст ще зовнішній - навіть 667).

види Атома

Замість того, щоб втопити читача в довгій табліце- «простирадлі» з параметрами всіх моделей атомів, краще дати посилання на вже наявну простирадло в Вікіпедії. :) Тут же прокоментуємо побачене.
2-ядерний Diamondville проти однокристального 2-ядерного Pineview з вбудованим північним мостом

Атоми першого покоління діляться на версії Diamondville і Pineview для неттопів (компактних і дешевих десктопів) і нетбуків (аналогічні епітети до ноутбука), а також Silverthorne для MID-пристроїв платформи Menlow (ще більш мобільних «таблеток» і планшетів). Саме в такому порядку падає їх споживана потужність і росте ціна - ці групи можна порівняти з аналогами «просто мобільних» ЦП, LV і ULV. Тож не дивно, що 2-ядерні моделі присутні тільки для неттопів, причому їх ціна не вище «нетбучной» серії N і менше наймобільніших Z-варіантів. Моделі N270 і N280, а також всі з MID-підгрупи вийшли з відключеною 64-Бітність, а віртуалізація вольовим рішенням Intel і зовсім дозволена лише старшим ЦП групи Z (питання про те, навіщо вона взагалі там потрібна, залишимо на потім). Intel також обмовляється, що тільки в моделі Z515 є щось під назвою Burst Performance Technology (BPT), що дозволяє динамічно змінювати частоту між 0,8 і 1,2 ГГц в залежності від обчислювальних вимог.
CoreExpress-Menlow - одна з перших плат на атоми (внизу) і чіпсеті Poulsbo (в центрі) розміром 65 × 58 мм

Куди цікавіше розкид значень TDP при однакових або близьких частотах і живлять напругах. Наприклад, для частоти 1,6 ГГц - від 4 Вт для настільних моделей до 2 для «MID'овскіх». Причому зазначені цифри дані для 1-потокової роботи: для 2-потокової Intel дрібним шрифтом на презентаційних слайдах пише цифру на 20% більшу. Проте, в порівнянні з іншими процесорами різниця багаторазова. І якби процесор був головним споживачем енергії в мобільних пристроях, Атоми напевно мали б шанси витіснити інші архітектури з цього ринку. Але не все так просто - перші плати з Атомами використовували спочатку не призначені для них чіпсети 945GSE (з TDP 6 Вт для північного моста і 3,3 Вт для південного) або навіть 945GC (22 Вт). Для нетбуків і особливо MID-пристроїв Intel рекомендувала однокорпусні чіпсети UL11L або US15 * (з різними літерами) з ТDP 2,3 Вт (разом з Атомом вони становлять платформу Poulsbo), але і це не блискуче рішення - наприклад, через ще більш низької 3D-продуктивності, ніж традиційно очікується навіть від интеловских чіпсетів: заради економії довелося уповільнити в 2-8 разів частоту GPU-ядра GMA 500 (воно ж PowerVR SGX 535 виробництва Imagination Technologies - таке ж, як і в iPhone 3GS і iPad): в US15 * - 200 МГц (що дозволяє прискорювати відео з роздільною здатністю до 1366 × 768), в UL11L - 100 МГц (до 800 × 480). А ще U * 1 ** робляться за технологією аж 130 нм (так що розмір його чіпа втричі більше, ніж у ЦП), підтримують в різних версіях до 0,5-2 ГБ DDR2-533 в одному каналі, і ніяких SATA і USB 3.0. ІКП в Pineview «тримає» вже 4 ГБ DDR2-800.

Також видно, що тільки для MID-пристроїв Intel приготувала особливо компактні версії корпусів, а взагалі для одного ЦП їх невеликий зоопарк:

  • BGA 437 для неттопів і нетбуків без вбудованого північного мосту, а також не дуже дрібних MID;
  • micro-FCBGA8 559 для ЦП з вбудованою «біжутерією»;
  • BGA 441 для найдрібніших пристроїв - всього 13 × 14 мм (перші два види, а також чіпсет - 22 × 22).

Для MID також спостерігається найбільший діапазон частот - від 0,8 до 2 ГГц. З чого логічно зробити висновок, що саме на ці застосування Intel насамперед і розраховує. Якщо тільки не дивитися на ціни: найдешевший з випускаються в світі x86-процесорів - це Atom 230. А найдешевший з 2-ядерних - Atom 330. Причому він коштує майже ті ж $ 45 (рекомендована ціна), що і 1-ядерний Z500 з половиною частотою (зате TDP останнього в 12 раз менше). Самий же крутий Z550 в 2,5 рази швидше і в 3-4 рази дорожче. Його точна ціна невідома: деякі Атоми продаються тільки в комплекті з чіпсетом, але ціна вказана саме для ЦП - навколо цієї дивності рік тому NVIDIA навіть поскандалила з Intel, намагаючись купити тільки процесори без чіпсетів для своєї патформи Ion .
Moorestown в порівнянні з Menlow

У травні 2010 р анонсовано в другому поколінні і 4-й вид атомів - 1-ядерний інтегрований Lincroft (моделі Z6xx з поки ще невідомими номерами і макс. Споживанням 1,2 Вт), що є частиною платформи Moorestown для смартфонів, т. Е. Ще більш компактний і економічний аналог Pineview. Розробка запізнилася до початку масового виробництва на 32 нм, але 45-нанометровий техпроцес оновлений - його SoC-версія (в порівнянні з настільними 45 нм від Intel) обмінює втрату 6-8% максимуму частоти на 2,5-кратне зменшення струму витоку. Також новий чіп отримав:

  • 32-бітний контролер пам'яті зі збільшеною ефективністю і ПСП, причому власне Lincroft буде підтримувати тільки особливо економну LPDDR1-400 (до 1 ГБ), а його поки не названі планшетні версії - тільки DDR2-800 (до 2 ГБ);
  • оновлене і прискорене до 400 МГц GPU-ядро GMA 600 з підтримкою DirectX 9.L і OpenGL 2.1;
  • новий апаратний відеокодек, який реалізує кодування 720p30 H.264 і MPEG-4 і декодування H.264, MPEG-4, WMV і VC-1 з дозволом 1080p30 для планшетів і 720p30 на смартфонах;
  • підтримку більш різноманітною і сучасної периферії, включаючи екрани з роздільною здатністю до 1366 × 768 через інтерфейс LVDS для планшетів і 1024 × 600 через MIPI для смартфонів.

Таємнича BPT тепер на короткі інтервали зможе перевищувати номінальну частоту при відсутності небезпеки перегріву, перетворившись в аналог більш знайомого TurboBoost для Core i. Базові частоти для смартфонів обіцяні 1,2-1,5 ГГц, а для планшетів - до 1,9; пікові з BPT поки невідомі. Тепер уже внутрічіповая шина «ядро↔северний міст» прискорена до 800 МГц, що дає 6,4 ГБ / с для читання, але тільки 4,3 ГБ / с для запису. А нова технологія Bus Turbo Mode дасть додатковий тимчасовий розгін головної шини, ІКП і шини пам'яті, коли їх пропускної здатності не вистачає.

140 млн. Транзисторів чіпа вміщаються на 65 мм² в корпусі розміром 14 × 14 × 1 мм. Такий же компактний південний міст для Z6xx називається Langwell (він же «хаб-контролер платформи» PCH MP20) і виробляється по 65-нанометровому техпроцесу, причому компанією TSMC. Натомість підтримки SATA обіцяють підключення флешевих SSD на швидкостях до 80 МБ / с. Також є DSP обробки зображень (із входом від камери і виходом HDMI) і ще один для звуку з власним буфером - останній може пробуджувати контролер пам'яті в ЦП і зчитувати в себе чергову порцію даних, не включаючи ядро, після чого ЦП знову засинає. Управляється все це невидимим для ОС системним контролером на 32-бітному RISC-ядрі з власним «BIOS».

Як не дивно, Langwell не включає в себе ще один обов'язковий компонент, також вироблений сторонніми компаніями - Briertown (він же MSIC, мікросхема змішаних сигналів), що містить контролер енергоспоживання системи і зарядки акумулятора, генератор напруги живлення для інших чіпів, набір цифрових і аналогових інтерфейсів , прискорювач шифрування і годинник. MSIC через прямий зв'язок з ЦП і південним мостом налаштовує їх блоки управління живленням, виконуючи зустрічні запити налаштування напруги. Для оптимізації балансу швидкості і споживання під конкретну задачу (в т. Ч. Управління «силовими островами» і енергосостояніямі ЦП) Briertown НЕ вгадує обчислювальну навантаження, як аналогічний блок в Core i, а явно програмується профілями енергоспоживання через інтерфейс ACPI. За профілі відповідає підсистема управління живленням ОС (OS Driven Power Management, OSPM), опитували програми про їх запитах ресурсів.

Час роботи з батареєю на 1,5 А · год і 3,7 У обіцяно 45-50 год при програванні звуку і 4-6 ч з відео, серфінгом або дзвінком по 3G. Економія досягається тим, що в чіпсетний частини процесора рясно застосовуються ті ж методи економії, що і в ядрі. У стані S0i3 пара Lincroft + Langwell повинна споживати всього 3 мВт, а вся система - 20-25 мВт, що в 50 разів менше, ніж в платформі Menlow, і порівняно з смартфонами на архітектурі ARM. Хоча в порівнянні з Menlow обіцяно скорочення займаної площі вдвічі, дуже компактним Moorestown не буде, т. К. Крім вищеназваних трьох мікросхем також потрібен контролер бездротового зв'язку і чіп (и) пам'яті - Intel не збирається поміщати логіку і пам'ять в один корпус, як в процесорі A4 для iPad.

Для Lincroft є ще один південний міст - Whitney Point, з яким в сумі виходить платформа Oaktrail для неттопів. Місця він займає стільки ж, але енергії споживає більше, т. К. Додатково містить контролери PCI і SATA. Можемо припустити, що Langwell і Whitney Point це один і той же чіп, просто в смартфонів версії не всі блоки включені - ринкова політика Інтел.

Якщо ви вже заплуталися в назвах і параметрах ядер і платформ - ось кілька шпаргалок, де також видно що виходить в 2011 р третього 32-нанометрове покоління атомів - Medfield з ядром ЦП Saltwell і вбудованим південним мостом:

[Читайте далі: Частина 3: Нерівність, Загадки, Жвавість, Суперники ]

Невже Intel натякає на використання двох модулів пам'яті на дешевих і компактних мобільних ПК?
© 2008 — 2012 offroad.net.ua . All rights reserved. by nucleart.net 2008