Ложное разделение кэша: невидимый убийца производительности многопоточных приложений

Введение
Вы пишете идеально распараллеленный код, задействуете все ядра процессора, но прирост производительности несоразмерен ожиданиям. Профилировщик показывает высокую конкуренцию за кеш-L1 – возможно, вы столкнулись с ложным разделением кеша (false sharing). Эта проблема особенно опасна потому, что не отражается в алгоритмической сложности и остается невидимой при чтении исходного кода. Разберем механику явления и методы борьбы с ним на примере SMT-систем (x86_64/ARM).

Анатомия проблемы: почему кэш-линии имеют значение

Современные CPU оперируют не отдельными байтами, а блоками по 64 байта (типичный размер кэш-линии в x86). Когда два независимых ядра модифицируют данные, физически расположенные в пределах одной кэш-линии, происходит следующее:

Ядро A читает линию в свой L1-кеш
Ядро B читает ту же линию в свой L1-кеш
Ядро A изменяет переменную X в линии → помечает линию как "грязную" (modified)
Система когерентности (MESI-протокол) инвалидирует копию линии у ядра B
Ядро B при запросе к переменной Y вынуждено обновлять линию из L2/L3/памяти
Повторение шагов 3-5 вызывает лавину событий RFO (Request For Ownership)

Результат: катастрофическое падение производительности при формальной работе с разными данными.

Демонстрация проблемы: нанооптимизация, которая убила эффективность

Рассмотрим счетчик операций, обрабатываемый несколькими потоками:

cpp

#include <atomic>
#include <thread>
#include <vector>

constexpr int N_THREADS = 4;
constexpr int ITERATIONS = 100'000'000;

struct Counters {
    std::atomic<int> a, b, c, d;
} counters;

void worker(int idx) {
    for (int i = 0; i < ITERATIONS; ++i) {
        if (idx == 0) counters.a++;
        if (idx == 1) counters.b++;
        if (idx == 2) counters.c++;
        if (idx == 3) counters.d++;
    }
}

int main() {
    std::vector<std::thread> threads;
    for (int i = 0; i < N_THREADS; ++i) {
        threads.emplace_back(worker, i);
    }
    for (auto& t : threads) t.join();
}

На 10-ядерном Intel i9-10900K при компиляции с clang++ -O2 -lpthread этот код выполняется ≈4600мс.

Диагностика с perf:

bash

$ perf stat -e L1-dcache-loads,L1-dcache-load-misses,cache-misses ./a.out
117,683,510,354  L1-dcache-loads         # 32.3% всех L1-попаданий  
 44,735,092      L1-dcache-load-misses   # Непропорционально высокая доля промахов  
 28,461,672      cache-misses

Решение №1: явное выравнивание данных

Изменим структуру Counters, гарантировав размещение атомарных переменных в разных кэш-линиях:

cpp

#include <cstddef>
constexpr size_t CACHE_LINE_SIZE = 64;

struct AlignedCounters {
    alignas(CACHE_LINE_SIZE) std::atomic<int> a;
    alignas(CACHE_LINE_SIZE) std::atomic<int> b;
    alignas(CACHE_LINE_SIZE) std::atomic<int> c;
    alignas(CACHE_LINE_SIZE) std::atomic<int> d;
};

Время выполнения: 720мс (ускорение ≈6.4× – прирост существеннее, чем от перехода на DDR5).

Решение №2: thread-local хранение

Когда частые модификации не требуются немедленной видимости другим потокам:

cpp

thread_local int local_counter;
void worker(int idx) {
    for (int i = 0; i < ITERATIONS; ++i) {
        if (idx == 0) local_counter++;
    }
    if (idx == 0) counters.a += local_counter;
}

Локальные счетчики обновляются без межъядерной синхронизации, финальные результаты агрегируются перед выходом.

Паттерн проектирования: изолированные буферы записи

Для структур типа маршрутизаторов пакетов, где потоки интенсивно пишут данные:

cpp

struct PacketBuffer {
    struct alignas(64) ThreadBuffer {
        std::atomic<int> count;
        byte data[512];
    };
    std::vector<ThreadBuffer> buffers;
    // Агрегация по требованию
};

Инструментарий диагностики

perf c2c (Linux 4.10+): выявляет коллизии кэш-линий

bash

perf c2c record ./app && perf c2c report

valgrind --tool=drd --shared-threshold=64: пороговое детектирование обращений к общей памяти
Hardware counter sampling:

bash

ocperf.py stat -e offcore_response.all_rfo.llc_miss.remote_dram

Когда стоит бить тревогу

Частые обновления атомарных переменных >10⁶ операций/сек в пересчете на ядро
Высокая доля %L1-dcache-load-misses (более 5-10% при топологии Shared L2/L3)
Более 3% времени ЦП в состоянии clearing-dirty (DDIO-системы)

Ошибка №1: constexpr size_t CACHE_LINE_SIZE = 64;
Реальное значение получайте через sysconf(_SC_LEVEL1_DCACHE_LINESIZE) либо через lscpu.

Ошибка №2: Неконтролируемое заполнение структур под std::vector. Выравнивания отдельных элементов недостаточно – заголовок контейнера может нарушить раскладку.

За пределами выравнивания: архитектурные нюансы

ЦП на базе Zen 4/Intel Golden Cove используют "гибридные" кэш-линии 128B (но с обратной совместимостью 64B)
Persistent Memory (Optane DC) чувствителен к RFO даже при работе через DAX
Virtual Address Aliasing может создавать коллизии при неправильной работе с hugepages

Вывод
Ложное разделение кэша – не теоретическая проблема. На многочисленных продакшен-нагрузках мы наблюдали двукратное падение пропускной способности векторных конвейеров и 300% деградацию latency в слотовых циклах обработки сетевых пакетов именно из-за фонового RFO.

Ключевые практики:

Используйте alignas для элементов разделяемых структур
Удаляйте взаимодействие ≈atomic_couters через thread-local промежуточные значения
Верифицируйте расположение критичных данных через pahole -EC
В C++20 используйте std::hardware_destructive_interference_size

Помните: процессоры не будут становиться менее конвейерными, а кэш-линии – меньше. Код, написанный с учётом аппаратных ограничений, дает не только краткосрочные выгоды, но и десятилетиями сохраняет свою эффективность на новых архитектурах.