Windows Audio & Media Programming: Complete Multimedia Guide#

Windows provides comprehensive APIs for audio and media programming, from low-level audio processing to high-level media playback. This guide covers modern audio programming techniques, media frameworks, and multimedia application development.

Why Audio & Media Programming Matters#

Multimedia Applications: Rich user experiences
Audio Processing: Real-time audio effects and analysis
Media Playback: Video and audio streaming
Game Development: 3D audio and dynamic soundtracks

Windows Media Architecture#

1
graph TB
2
    App[Applications]
3
    MediaFoundation[Media Foundation]
4
    DirectShow[DirectShow]
5
    WASAPI[WASAPI]
6
    CoreAudio[Core Audio]
7
    AudioEngine[Audio Engine]
8
    Drivers[Audio Drivers]
9
    Hardware[Audio Hardware]
10

11
    App --> MediaFoundation
12
    App --> DirectShow
13
    App --> WASAPI
14
    MediaFoundation --> CoreAudio
15
    DirectShow --> CoreAudio
16
    WASAPI --> CoreAudio
17
    CoreAudio --> AudioEngine
18
    AudioEngine --> Drivers
19
    Drivers --> Hardware

1. Core Audio and WASAPI#

WASAPI Audio Programming#

1
// Windows Audio Session API (WASAPI) Framework
2
#include <windows.h>
3
#include <mmdeviceapi.h>
4
#include <audioclient.h>
5
#include <audiopolicy.h>
6
#include <functiondiscoverykeys_devpkey.h>
7
#include <iostream>
8
#include <vector>
9
#include <thread>
10
#include <mutex>
11
#include <atomic>
12

13
#pragma comment(lib, "ole32.lib")
14

15
class WASAPIAudioEngine {
16
private:
17
    IMMDeviceEnumerator* m_deviceEnumerator;
18
    IMMDevice* m_device;
19
    IAudioClient* m_audioClient;
20
    IAudioRenderClient* m_renderClient;
21
    IAudioCaptureClient* m_captureClient;
22

23
    WAVEFORMATEX* m_mixFormat;
24
    UINT32 m_bufferFrameCount;
25
    HANDLE m_audioSamplesReadyEvent;
26

27
    std::thread m_audioThread;
28
    std::atomic<bool> m_isPlaying;
29
    std::atomic<bool> m_isRecording;
30
    std::mutex m_audioMutex;
31

32
    // Audio callback function type
33
    using AudioCallback = std::function<void(float* buffer, UINT32 numFrames, UINT32 numChannels)>;
34
    AudioCallback m_playbackCallback;
35
    AudioCallback m_captureCallback;
36

37
public:
38
    WASAPIAudioEngine() : m_deviceEnumerator(nullptr), m_device(nullptr),
39
                         m_audioClient(nullptr), m_renderClient(nullptr),
40
                         m_captureClient(nullptr), m_mixFormat(nullptr),
41
                         m_bufferFrameCount(0), m_audioSamplesReadyEvent(nullptr),
42
                         m_isPlaying(false), m_isRecording(false) {}
43

44
    ~WASAPIAudioEngine() {
45
        Stop();
46
        Cleanup();
47
    }
48

49
    // Initialize audio engine
50
    HRESULT Initialize() {
51
        HRESULT hr = CoInitializeEx(nullptr, COINIT_MULTITHREADED);
52
        if (FAILED(hr)) return hr;
53

54
        // Create device enumerator
55
        hr = CoCreateInstance(__uuidof(MMDeviceEnumerator), nullptr, CLSCTX_ALL,
56
                             __uuidof(IMMDeviceEnumerator),
57
                             (void**)&m_deviceEnumerator);
58

59
        if (FAILED(hr)) {
60
            std::cerr << "Failed to create device enumerator: " << std::hex << hr << std::endl;
61
            return hr;
62
        }
63

64
        return S_OK;
65
    }
66

67
    // Get available audio devices
68
    std::vector<std::pair<std::wstring, std::wstring>> GetAudioDevices(bool capture = false) {
69
        std::vector<std::pair<std::wstring, std::wstring>> devices;
70

71
        if (!m_deviceEnumerator) return devices;
72

73
        IMMDeviceCollection* deviceCollection = nullptr;
74
        HRESULT hr = m_deviceEnumerator->EnumAudioEndpoints(
75
            capture ? eCapture : eRender, DEVICE_STATE_ACTIVE, &deviceCollection);
76

77
        if (SUCCEEDED(hr)) {
78
            UINT count = 0;
79
            deviceCollection->GetCount(&count);
80

81
            for (UINT i = 0; i < count; i++) {
82
                IMMDevice* device = nullptr;
83
                hr = deviceCollection->Item(i, &device);
84

85
                if (SUCCEEDED(hr)) {
86
                    LPWSTR deviceId = nullptr;
87
                    device->GetId(&deviceId);
88

89
                    IPropertyStore* propertyStore = nullptr;
90
                    device->OpenPropertyStore(STGM_READ, &propertyStore);
91

92
                    if (propertyStore) {
93
                        PROPVARIANT friendlyName;
94
                        PropVariantInit(&friendlyName);
95

96
                        hr = propertyStore->GetValue(PKEY_Device_FriendlyName, &friendlyName);
97
                        if (SUCCEEDED(hr)) {
98
                            devices.emplace_back(deviceId ? deviceId : L"Unknown",
99
                                               friendlyName.pwszVal ? friendlyName.pwszVal : L"Unknown");
100
                        }
101

102
                        PropVariantClear(&friendlyName);
103
                        propertyStore->Release();
104
                    }
105

106
                    if (deviceId) CoTaskMemFree(deviceId);
107
                    device->Release();
108
                }
109
            }
110

111
            deviceCollection->Release();
112
        }
113

114
        return devices;
115
    }
116

117
    // Initialize playback
118
    HRESULT InitializePlayback(const std::wstring& deviceId = L"") {
119
        HRESULT hr;
120

121
        // Get default or specified device
122
        if (deviceId.empty()) {
123
            hr = m_deviceEnumerator->GetDefaultAudioEndpoint(eRender, eConsole, &m_device);
124
        } else {
125
            hr = m_deviceEnumerator->GetDevice(deviceId.c_str(), &m_device);
126
        }
127

128
        if (FAILED(hr)) {
129
            std::cerr << "Failed to get audio device: " << std::hex << hr << std::endl;
130
            return hr;
131
        }
132

133
        // Activate audio client
134
        hr = m_device->Activate(__uuidof(IAudioClient), CLSCTX_ALL,
135
                               nullptr, (void**)&m_audioClient);
136

137
        if (FAILED(hr)) {
138
            std::cerr << "Failed to activate audio client: " << std::hex << hr << std::endl;
139
            return hr;
140
        }
141

142
        // Get mix format
143
        hr = m_audioClient->GetMixFormat(&m_mixFormat);
144
        if (FAILED(hr)) {
145
            std::cerr << "Failed to get mix format: " << std::hex << hr << std::endl;
146
            return hr;
147
        }
148

149
        // Initialize audio client
150
        hr = m_audioClient->Initialize(AUDCLNT_SHAREMODE_SHARED, AUDCLNT_STREAMFLAGS_EVENTCALLBACK,
151
                                     10000000, // 1 second buffer
152
                                     0, m_mixFormat, nullptr);
153

154
        if (FAILED(hr)) {
155
            std::cerr << "Failed to initialize audio client: " << std::hex << hr << std::endl;
156
            return hr;
157
        }
158

159
        // Get buffer frame count
160
        hr = m_audioClient->GetBufferSize(&m_bufferFrameCount);
161
        if (FAILED(hr)) return hr;
162

163
        // Get render client
164
        hr = m_audioClient->GetService(__uuidof(IAudioRenderClient),
165
                                     (void**)&m_renderClient);
166

167
        if (FAILED(hr)) {
168
            std::cerr << "Failed to get render client: " << std::hex << hr << std::endl;
169
            return hr;
170
        }
171

172
        // Create event handle
173
        m_audioSamplesReadyEvent = CreateEvent(nullptr, FALSE, FALSE, nullptr);
174
        if (!m_audioSamplesReadyEvent) {
175
            return HRESULT_FROM_WIN32(GetLastError());
176
        }
177

178
        // Set event handle
179
        hr = m_audioClient->SetEventHandle(m_audioSamplesReadyEvent);
180
        if (FAILED(hr)) return hr;
181

182
        return S_OK;
183
    }
184

185
    // Initialize capture
186
    HRESULT InitializeCapture(const std::wstring& deviceId = L"") {
187
        HRESULT hr;
188

189
        // Get default or specified capture device
190
        if (deviceId.empty()) {
191
            hr = m_deviceEnumerator->GetDefaultAudioEndpoint(eCapture, eConsole, &m_device);
192
        } else {
193
            hr = m_deviceEnumerator->GetDevice(deviceId.c_str(), &m_device);
194
        }
195

196
        if (FAILED(hr)) return hr;
197

198
        // Activate audio client
199
        hr = m_device->Activate(__uuidof(IAudioClient), CLSCTX_ALL,
200
                               nullptr, (void**)&m_audioClient);
201

202
        if (FAILED(hr)) return hr;
203

204
        // Get mix format
205
        hr = m_audioClient->GetMixFormat(&m_mixFormat);
206
        if (FAILED(hr)) return hr;
207

208
        // Initialize audio client for capture
209
        hr = m_audioClient->Initialize(AUDCLNT_SHAREMODE_SHARED, AUDCLNT_STREAMFLAGS_EVENTCALLBACK,
210
                                     10000000, 0, m_mixFormat, nullptr);
211

212
        if (FAILED(hr)) return hr;
213

214
        // Get buffer frame count
215
        hr = m_audioClient->GetBufferSize(&m_bufferFrameCount);
216
        if (FAILED(hr)) return hr;
217

218
        // Get capture client
219
        hr = m_audioClient->GetService(__uuidof(IAudioCaptureClient),
220
                                     (void**)&m_captureClient);
221

222
        if (FAILED(hr)) return hr;
223

224
        // Create event handle
225
        m_audioSamplesReadyEvent = CreateEvent(nullptr, FALSE, FALSE, nullptr);
226
        if (!m_audioSamplesReadyEvent) {
227
            return HRESULT_FROM_WIN32(GetLastError());
228
        }
229

230
        // Set event handle
231
        hr = m_audioClient->SetEventHandle(m_audioSamplesReadyEvent);
232
        return hr;
233
    }
234

235
    // Start playback
236
    HRESULT StartPlayback(AudioCallback callback) {
237
        if (!m_audioClient || !m_renderClient) {
238
            return E_NOT_VALID_STATE;
239
        }
240

241
        m_playbackCallback = callback;
242
        m_isPlaying = true;
243

244
        HRESULT hr = m_audioClient->Start();
245
        if (SUCCEEDED(hr)) {
246
            m_audioThread = std::thread(&WASAPIAudioEngine::PlaybackThread, this);
247
        }
248

249
        return hr;
250
    }
251

252
    // Start capture
253
    HRESULT StartCapture(AudioCallback callback) {
254
        if (!m_audioClient || !m_captureClient) {
255
            return E_NOT_VALID_STATE;
256
        }
257

258
        m_captureCallback = callback;
259
        m_isRecording = true;
260

261
        HRESULT hr = m_audioClient->Start();
262
        if (SUCCEEDED(hr)) {
263
            m_audioThread = std::thread(&WASAPIAudioEngine::CaptureThread, this);
264
        }
265

266
        return hr;
267
    }
268

269
    // Stop audio processing
270
    void Stop() {
271
        m_isPlaying = false;
272
        m_isRecording = false;
273

274
        if (m_audioThread.joinable()) {
275
            m_audioThread.join();
276
        }
277

278
        if (m_audioClient) {
279
            m_audioClient->Stop();
280
        }
281
    }
282

283
    // Get audio format info
284
    struct AudioFormat {
285
        UINT32 sampleRate;
286
        UINT16 channels;
287
        UINT16 bitsPerSample;
288
        std::wstring formatName;
289
    };
290

291
    AudioFormat GetAudioFormat() const {
292
        AudioFormat format = {};
293

294
        if (m_mixFormat) {
295
            format.sampleRate = m_mixFormat->nSamplesPerSec;
296
            format.channels = m_mixFormat->nChannels;
297
            format.bitsPerSample = m_mixFormat->wBitsPerSample;
298

299
            switch (m_mixFormat->wFormatTag) {
300
            case WAVE_FORMAT_PCM:
301
                format.formatName = L"PCM";
302
                break;
303
            case WAVE_FORMAT_IEEE_FLOAT:
304
                format.formatName = L"IEEE Float";
305
                break;
306
            case WAVE_FORMAT_EXTENSIBLE:
307
                format.formatName = L"Extensible";
308
                break;
309
            default:
310
                format.formatName = L"Unknown";
311
                break;
312
            }
313
        }
314

315
        return format;
316
    }
317

318
private:
319
    // Playback thread
320
    void PlaybackThread() {
321
        SetThreadPriority(GetCurrentThread(), THREAD_PRIORITY_TIME_CRITICAL);
322

323
        // Pre-fill buffer
324
        BYTE* pData = nullptr;
325
        HRESULT hr = m_renderClient->GetBuffer(m_bufferFrameCount, &pData);
326
        if (SUCCEEDED(hr)) {
327
            // Fill with silence initially
328
            ZeroMemory(pData, m_bufferFrameCount * m_mixFormat->nBlockAlign);
329
            m_renderClient->ReleaseBuffer(m_bufferFrameCount, 0);
330
        }
331

332
        while (m_isPlaying) {
333
            // Wait for buffer to need more data
334
            DWORD waitResult = WaitForSingleObject(m_audioSamplesReadyEvent, 2000);
335
            if (waitResult != WAIT_OBJECT_0) {
336
                continue;
337
            }
338

339
            // Get available space in buffer
340
            UINT32 numFramesPadding = 0;
341
            hr = m_audioClient->GetCurrentPadding(&numFramesPadding);
342
            if (FAILED(hr)) continue;
343

344
            UINT32 numFramesAvailable = m_bufferFrameCount - numFramesPadding;
345
            if (numFramesAvailable == 0) continue;
346

347
            // Get buffer
348
            pData = nullptr;
349
            hr = m_renderClient->GetBuffer(numFramesAvailable, &pData);
350
            if (FAILED(hr)) continue;
351

352
            // Call user callback to fill buffer
353
            if (m_playbackCallback) {
354
                m_playbackCallback(reinterpret_cast<float*>(pData),
355
                                 numFramesAvailable, m_mixFormat->nChannels);
356
            } else {
357
                // Fill with silence if no callback
358
                ZeroMemory(pData, numFramesAvailable * m_mixFormat->nBlockAlign);
359
            }
360

361
            // Release buffer
362
            hr = m_renderClient->ReleaseBuffer(numFramesAvailable, 0);
363
        }
364
    }
365

366
    // Capture thread
367
    void CaptureThread() {
368
        SetThreadPriority(GetCurrentThread(), THREAD_PRIORITY_TIME_CRITICAL);
369

370
        while (m_isRecording) {
371
            // Wait for data to be available
372
            DWORD waitResult = WaitForSingleObject(m_audioSamplesReadyEvent, 2000);
373
            if (waitResult != WAIT_OBJECT_0) {
374
                continue;
375
            }
376

377
            // Get available data
378
            UINT32 packetLength = 0;
379
            HRESULT hr = m_captureClient->GetNextPacketSize(&packetLength);
380
            if (FAILED(hr)) continue;
381

382
            while (packetLength != 0) {
383
                BYTE* pData = nullptr;
384
                UINT32 numFramesAvailable = 0;
385
                DWORD flags = 0;
386

387
                hr = m_captureClient->GetBuffer(&pData, &numFramesAvailable, &flags, nullptr, nullptr);
388
                if (FAILED(hr)) break;
389

390
                if (flags & AUDCLNT_BUFFERFLAGS_SILENT) {
391
                    pData = nullptr; // Treat as silence
392
                }
393

394
                // Call user callback with captured data
395
                if (m_captureCallback && pData) {
396
                    m_captureCallback(reinterpret_cast<float*>(pData),
397
                                    numFramesAvailable, m_mixFormat->nChannels);
398
                }
399

400
                hr = m_captureClient->ReleaseBuffer(numFramesAvailable);
401
                if (FAILED(hr)) break;
402

403
                hr = m_captureClient->GetNextPacketSize(&packetLength);
404
                if (FAILED(hr)) break;
405
            }
406
        }
407
    }
408

409
    // Cleanup resources
410
    void Cleanup() {
411
        if (m_renderClient) {
412
            m_renderClient->Release();
413
            m_renderClient = nullptr;
414
        }
415

416
        if (m_captureClient) {
417
            m_captureClient->Release();
418
            m_captureClient = nullptr;
419
        }
420

421
        if (m_audioClient) {
422
            m_audioClient->Release();
423
            m_audioClient = nullptr;
424
        }
425

426
        if (m_device) {
427
            m_device->Release();
428
            m_device = nullptr;
429
        }
430

431
        if (m_deviceEnumerator) {
432
            m_deviceEnumerator->Release();
433
            m_deviceEnumerator = nullptr;
434
        }
435

436
        if (m_mixFormat) {
437
            CoTaskMemFree(m_mixFormat);
438
            m_mixFormat = nullptr;
439
        }
440

441
        if (m_audioSamplesReadyEvent) {
442
            CloseHandle(m_audioSamplesReadyEvent);
443
            m_audioSamplesReadyEvent = nullptr;
444
        }
445

446
        CoUninitialize();
447
    }
448
};

2. Media Foundation Framework#

Media Player Implementation#

1
// Media Foundation Media Player
2
#include <mfapi.h>
3
#include <mfidl.h>
4
#include <mfreadwrite.h>
5
#include <mferror.h>
6
#include <shlwapi.h>
7
#pragma comment(lib, "mf.lib")
8
#pragma comment(lib, "mfplat.lib")
9
#pragma comment(lib, "mfreadwrite.lib")
10
#pragma comment(lib, "mfuuid.lib")
11
#pragma comment(lib, "shlwapi.lib")
12

13
class MediaFoundationPlayer {
14
private:
15
    IMFMediaSession* m_mediaSession;
16
    IMFMediaSource* m_mediaSource;
17
    IMFTopology* m_topology;
18
    IMFPresentationDescriptor* m_presentationDescriptor;
19

20
    HWND m_videoWindow;
21
    IMFVideoDisplayControl* m_videoDisplay;
22

23
    enum class PlayerState {
24
        Closed,
25
        Ready,
26
        OpenPending,
27
        Started,
28
        Paused,
29
        Stopped,
30
        Closing
31
    };
32

33
    PlayerState m_state;
34
    CRITICAL_SECTION m_stateLock;
35

36
    // Event handling
37
    class MediaEventHandler : public IMFAsyncCallback {
38
    private:
39
        MediaFoundationPlayer* m_player;
40
        LONG m_refCount;
41

42
    public:
43
        MediaEventHandler(MediaFoundationPlayer* player) : m_player(player), m_refCount(1) {}
44

45
        // IUnknown
46
        STDMETHODIMP QueryInterface(REFIID riid, void** ppv) {
47
            if (riid == IID_IUnknown || riid == IID_IMFAsyncCallback) {
48
                *ppv = this;
49
                AddRef();
50
                return S_OK;
51
            }
52
            return E_NOINTERFACE;
53
        }
54

55
        STDMETHODIMP_(ULONG) AddRef() {
56
            return InterlockedIncrement(&m_refCount);
57
        }
58

59
        STDMETHODIMP_(ULONG) Release() {
60
            ULONG count = InterlockedDecrement(&m_refCount);
61
            if (count == 0) delete this;
62
            return count;
63
        }
64

65
        // IMFAsyncCallback
66
        STDMETHODIMP GetParameters(DWORD* pdwFlags, DWORD* pdwQueue) {
67
            *pdwFlags = 0;
68
            *pdwQueue = MFASYNC_CALLBACK_QUEUE_MULTITHREADED;
69
            return S_OK;
70
        }
71

72
        STDMETHODIMP Invoke(IMFAsyncResult* pAsyncResult) {
73
            return m_player->HandleEvent(pAsyncResult);
74
        }
75
    };
76

77
    MediaEventHandler* m_eventHandler;
78

79
public:
80
    MediaFoundationPlayer() : m_mediaSession(nullptr), m_mediaSource(nullptr),
81
                             m_topology(nullptr), m_presentationDescriptor(nullptr),
82
                             m_videoWindow(nullptr), m_videoDisplay(nullptr),
83
                             m_state(PlayerState::Closed), m_eventHandler(nullptr) {
84
        InitializeCriticalSection(&m_stateLock);
85
    }
86

87
    ~MediaFoundationPlayer() {
88
        Shutdown();
89
        DeleteCriticalSection(&m_stateLock);
90
    }
91

92
    // Initialize Media Foundation
93
    HRESULT Initialize() {
94
        HRESULT hr = MFStartup(MF_VERSION);
95
        if (SUCCEEDED(hr)) {
96
            m_eventHandler = new MediaEventHandler(this);
97
        }
98
        return hr;
99
    }
100

101
    // Open media file
102
    HRESULT OpenFile(const WCHAR* filePath, HWND videoWindow = nullptr) {
103
        EnterCriticalSection(&m_stateLock);
104

105
        HRESULT hr = S_OK;
106
        IMFSourceResolver* sourceResolver = nullptr;
107
        MF_OBJECT_TYPE objectType = MF_OBJECT_INVALID;
108
        IUnknown* unknownMediaSource = nullptr;
109

110
        // Create source resolver
111
        hr = MFCreateSourceResolver(&sourceResolver);
112

113
        if (SUCCEEDED(hr)) {
114
            // Create media source from URL
115
            hr = sourceResolver->CreateObjectFromURL(filePath, MF_RESOLUTION_MEDIASOURCE,
116
                                                   nullptr, &objectType, &unknownMediaSource);
117
        }
118

119
        if (SUCCEEDED(hr)) {
120
            hr = unknownMediaSource->QueryInterface(IID_PPV_ARGS(&m_mediaSource));
121
        }
122

123
        if (SUCCEEDED(hr)) {
124
            hr = CreateMediaSession();
125
        }
126

127
        if (SUCCEEDED(hr)) {
128
            hr = CreateTopology(videoWindow);
129
        }
130

131
        if (SUCCEEDED(hr)) {
132
            // Set topology on media session
133
            hr = m_mediaSession->SetTopology(0, m_topology);
134
        }
135

136
        if (SUCCEEDED(hr)) {
137
            m_videoWindow = videoWindow;
138
            m_state = PlayerState::OpenPending;
139
        } else {
140
            m_state = PlayerState::Closed;
141
        }
142

143
        // Cleanup
144
        if (unknownMediaSource) unknownMediaSource->Release();
145
        if (sourceResolver) sourceResolver->Release();
146

147
        LeaveCriticalSection(&m_stateLock);
148
        return hr;
149
    }
150

151
    // Play media
152
    HRESULT Play() {
153
        EnterCriticalSection(&m_stateLock);
154

155
        HRESULT hr = S_OK;
156

157
        if (m_state != PlayerState::Ready && m_state != PlayerState::Paused) {
158
            hr = E_FAIL;
159
        }
160

161
        if (SUCCEEDED(hr)) {
162
            PROPVARIANT varStart;
163
            PropVariantInit(&varStart);
164
            varStart.vt = VT_EMPTY;
165

166
            hr = m_mediaSession->Start(&GUID_NULL, &varStart);
167

168
            if (SUCCEEDED(hr)) {
169
                m_state = PlayerState::Started;
170
            }
171

172
            PropVariantClear(&varStart);
173
        }
174

175
        LeaveCriticalSection(&m_stateLock);
176
        return hr;
177
    }
178

179
    // Pause media
180
    HRESULT Pause() {
181
        EnterCriticalSection(&m_stateLock);
182

183
        HRESULT hr = S_OK;
184

185
        if (m_state != PlayerState::Started) {
186
            hr = E_FAIL;
187
        }
188

189
        if (SUCCEEDED(hr)) {
190
            hr = m_mediaSession->Pause();
191

192
            if (SUCCEEDED(hr)) {
193
                m_state = PlayerState::Paused;
194
            }
195
        }
196

197
        LeaveCriticalSection(&m_stateLock);
198
        return hr;
199
    }
200

201
    // Stop media
202
    HRESULT Stop() {
203
        EnterCriticalSection(&m_stateLock);
204

205
        HRESULT hr = S_OK;
206

207
        if (m_state == PlayerState::Started || m_state == PlayerState::Paused) {
208
            hr = m_mediaSession->Stop();
209

210
            if (SUCCEEDED(hr)) {
211
                m_state = PlayerState::Stopped;
212
            }
213
        }
214

215
        LeaveCriticalSection(&m_stateLock);
216
        return hr;
217
    }
218

219
    // Seek to position
220
    HRESULT Seek(MFTIME position) {
221
        EnterCriticalSection(&m_stateLock);
222

223
        HRESULT hr = S_OK;
224

225
        if (m_state != PlayerState::Started && m_state != PlayerState::Paused) {
226
            hr = E_FAIL;
227
        }
228

229
        if (SUCCEEDED(hr)) {
230
            PROPVARIANT varStart;
231
            PropVariantInit(&varStart);
232
            varStart.vt = VT_I8;
233
            varStart.hVal.QuadPart = position;
234

235
            hr = m_mediaSession->Start(&GUID_NULL, &varStart);
236
            PropVariantClear(&varStart);
237
        }
238

239
        LeaveCriticalSection(&m_stateLock);
240
        return hr;
241
    }
242

243
    // Get duration
244
    HRESULT GetDuration(MFTIME* duration) {
245
        HRESULT hr = E_FAIL;
246

247
        if (m_presentationDescriptor) {
248
            hr = m_presentationDescriptor->GetUINT64(MF_PD_DURATION, (UINT64*)duration);
249
        }
250

251
        return hr;
252
    }
253

254
    // Get current position
255
    HRESULT GetCurrentPosition(MFTIME* position) {
256
        HRESULT hr = E_FAIL;
257

258
        if (m_mediaSession) {
259
            IMFClock* clock = nullptr;
260
            hr = m_mediaSession->GetClock(&clock);
261

262
            if (SUCCEEDED(hr)) {
263
                hr = clock->GetTime(position);
264
                clock->Release();
265
            }
266
        }
267

268
        return hr;
269
    }
270

271
    // Set volume (0.0 to 1.0)
272
    HRESULT SetVolume(float volume) {
273
        HRESULT hr = E_FAIL;
274

275
        if (m_mediaSession) {
276
            IMFSimpleAudioVolume* audioVolume = nullptr;
277
            hr = MFGetService(m_mediaSession, MR_POLICY_VOLUME_SERVICE,
278
                             IID_PPV_ARGS(&audioVolume));
279

280
            if (SUCCEEDED(hr)) {
281
                hr = audioVolume->SetMasterVolume(volume);
282
                audioVolume->Release();
283
            }
284
        }
285

286
        return hr;
287
    }
288

289
    // Resize video
290
    HRESULT ResizeVideo(RECT* destRect) {
291
        HRESULT hr = E_FAIL;
292

293
        if (m_videoDisplay) {
294
            hr = m_videoDisplay->SetVideoPosition(nullptr, destRect);
295
        }
296

297
        return hr;
298
    }
299

300
    PlayerState GetState() {
301
        EnterCriticalSection(&m_stateLock);
302
        PlayerState state = m_state;
303
        LeaveCriticalSection(&m_stateLock);
304
        return state;
305
    }
306

307
private:
308
    // Create media session
309
    HRESULT CreateMediaSession() {
310
        HRESULT hr = MFCreateMediaSession(nullptr, &m_mediaSession);
311

312
        if (SUCCEEDED(hr)) {
313
            hr = m_mediaSession->BeginGetEvent(m_eventHandler, nullptr);
314
        }
315

316
        return hr;
317
    }
318

319
    // Create topology
320
    HRESULT CreateTopology(HWND videoWindow) {
321
        HRESULT hr = MFCreateTopology(&m_topology);
322

323
        if (SUCCEEDED(hr)) {
324
            hr = m_mediaSource->CreatePresentationDescriptor(&m_presentationDescriptor);
325
        }
326

327
        if (SUCCEEDED(hr)) {
328
            DWORD streamCount = 0;
329
            hr = m_presentationDescriptor->GetStreamDescriptorCount(&streamCount);
330

331
            for (DWORD i = 0; i < streamCount && SUCCEEDED(hr); i++) {
332
                BOOL selected = FALSE;
333
                IMFStreamDescriptor* streamDescriptor = nullptr;
334

335
                hr = m_presentationDescriptor->GetStreamDescriptorByIndex(i, &selected, &streamDescriptor);
336

337
                if (SUCCEEDED(hr) && selected) {
338
                    hr = CreateTopologyBranch(streamDescriptor, videoWindow);
339
                }
340

341
                if (streamDescriptor) {
342
                    streamDescriptor->Release();
343
                }
344
            }
345
        }
346

347
        return hr;
348
    }
349

350
    // Create topology branch
351
    HRESULT CreateTopologyBranch(IMFStreamDescriptor* streamDescriptor, HWND videoWindow) {
352
        HRESULT hr = S_OK;
353
        IMFTopologyNode* sourceNode = nullptr;
354
        IMFTopologyNode* outputNode = nullptr;
355
        IMFMediaTypeHandler* mediaTypeHandler = nullptr;
356
        GUID majorType = GUID_NULL;
357

358
        // Create source node
359
        hr = MFCreateTopologyNode(MF_TOPOLOGY_SOURCESTREAM_NODE, &sourceNode);
360

361
        if (SUCCEEDED(hr)) {
362
            hr = sourceNode->SetUnknown(MF_TOPONODE_SOURCE, m_mediaSource);
363
        }
364

365
        if (SUCCEEDED(hr)) {
366
            hr = sourceNode->SetUnknown(MF_TOPONODE_STREAM_DESCRIPTOR, streamDescriptor);
367
        }
368

369
        // Get media type
370
        if (SUCCEEDED(hr)) {
371
            hr = streamDescriptor->GetMediaTypeHandler(&mediaTypeHandler);
372
        }
373

374
        if (SUCCEEDED(hr)) {
375
            hr = mediaTypeHandler->GetMajorType(&majorType);
376
        }
377

378
        // Create output node based on media type
379
        if (SUCCEEDED(hr)) {
380
            if (majorType == MFMediaType_Video) {
381
                hr = CreateVideoOutputNode(&outputNode, videoWindow);
382
            } else if (majorType == MFMediaType_Audio) {
383
                hr = CreateAudioOutputNode(&outputNode);
384
            } else {
385
                hr = E_FAIL;
386
            }
387
        }
388

389
        // Add nodes to topology
390
        if (SUCCEEDED(hr)) {
391
            hr = m_topology->AddNode(sourceNode);
392
        }
393

394
        if (SUCCEEDED(hr)) {
395
            hr = m_topology->AddNode(outputNode);
396
        }
397

398
        // Connect nodes
399
        if (SUCCEEDED(hr)) {
400
            hr = sourceNode->ConnectOutput(0, outputNode, 0);
401
        }
402

403
        // Cleanup
404
        if (mediaTypeHandler) mediaTypeHandler->Release();
405
        if (sourceNode) sourceNode->Release();
406
        if (outputNode) outputNode->Release();
407

408
        return hr;
409
    }
410

411
    // Create video output node
412
    HRESULT CreateVideoOutputNode(IMFTopologyNode** outputNode, HWND videoWindow) {
413
        HRESULT hr = MFCreateTopologyNode(MF_TOPOLOGY_OUTPUT_NODE, outputNode);
414

415
        if (SUCCEEDED(hr)) {
416
            IMFActivate* rendererActivate = nullptr;
417
            hr = MFCreateVideoRendererActivate(videoWindow, &rendererActivate);
418

419
            if (SUCCEEDED(hr)) {
420
                hr = (*outputNode)->SetObject(rendererActivate);
421

422
                // Get video display control for later use
423
                IMFMediaSink* mediaSink = nullptr;
424
                if (SUCCEEDED(rendererActivate->ActivateObject(IID_PPV_ARGS(&mediaSink)))) {
425
                    IMFGetService* getService = nullptr;
426
                    if (SUCCEEDED(mediaSink->QueryInterface(IID_PPV_ARGS(&getService)))) {
427
                        getService->GetService(MR_VIDEO_RENDER_SERVICE,
428
                                             IID_PPV_ARGS(&m_videoDisplay));
429
                        getService->Release();
430
                    }
431
                    mediaSink->Release();
432
                }
433

434
                rendererActivate->Release();
435
            }
436
        }
437

438
        return hr;
439
    }
440

441
    // Create audio output node
442
    HRESULT CreateAudioOutputNode(IMFTopologyNode** outputNode) {
443
        HRESULT hr = MFCreateTopologyNode(MF_TOPOLOGY_OUTPUT_NODE, outputNode);
444

445
        if (SUCCEEDED(hr)) {
446
            IMFActivate* rendererActivate = nullptr;
447
            hr = MFCreateAudioRendererActivate(&rendererActivate);
448

449
            if (SUCCEEDED(hr)) {
450
                hr = (*outputNode)->SetObject(rendererActivate);
451
                rendererActivate->Release();
452
            }
453
        }
454

455
        return hr;
456
    }
457

458
    // Handle media events
459
    HRESULT HandleEvent(IMFAsyncResult* asyncResult) {
460
        HRESULT hr = S_OK;
461
        IMFMediaEvent* mediaEvent = nullptr;
462
        MediaEventType eventType = MEUnknown;
463

464
        hr = m_mediaSession->EndGetEvent(asyncResult, &mediaEvent);
465

466
        if (SUCCEEDED(hr)) {
467
            hr = mediaEvent->GetType(&eventType);
468
        }
469

470
        if (SUCCEEDED(hr)) {
471
            switch (eventType) {
472
            case MESessionTopologyReady:
473
                OnTopologyReady();
474
                break;
475

476
            case MESessionStarted:
477
                OnSessionStarted();
478
                break;
479

480
            case MESessionPaused:
481
                OnSessionPaused();
482
                break;
483

484
            case MESessionStopped:
485
                OnSessionStopped();
486
                break;
487

488
            case MESessionEnded:
489
                OnSessionEnded();
490
                break;
491

492
            case MEError:
493
                OnError(mediaEvent);
494
                break;
495

496
            default:
497
                break;
498
            }
499

500
            // Continue listening for events
501
            hr = m_mediaSession->BeginGetEvent(m_eventHandler, nullptr);
502
        }
503

504
        if (mediaEvent) {
505
            mediaEvent->Release();
506
        }
507

508
        return hr;
509
    }
510

511
    // Event handlers
512
    void OnTopologyReady() {
513
        EnterCriticalSection(&m_stateLock);
514
        m_state = PlayerState::Ready;
515
        LeaveCriticalSection(&m_stateLock);
516
    }
517

518
    void OnSessionStarted() {
519
        EnterCriticalSection(&m_stateLock);
520
        m_state = PlayerState::Started;
521
        LeaveCriticalSection(&m_stateLock);
522
    }
523

524
    void OnSessionPaused() {
525
        EnterCriticalSection(&m_stateLock);
526
        m_state = PlayerState::Paused;
527
        LeaveCriticalSection(&m_stateLock);
528
    }
529

530
    void OnSessionStopped() {
531
        EnterCriticalSection(&m_stateLock);
532
        m_state = PlayerState::Stopped;
533
        LeaveCriticalSection(&m_stateLock);
534
    }
535

536
    void OnSessionEnded() {
537
        EnterCriticalSection(&m_stateLock);
538
        m_state = PlayerState::Stopped;
539
        LeaveCriticalSection(&m_stateLock);
540
    }
541

542
    void OnError(IMFMediaEvent* mediaEvent) {
543
        HRESULT hrStatus = S_OK;
544
        mediaEvent->GetStatus(&hrStatus);
545

546
        EnterCriticalSection(&m_stateLock);
547
        m_state = PlayerState::Closed;
548
        LeaveCriticalSection(&m_stateLock);
549
    }
550

551
    // Shutdown
552
    void Shutdown() {
553
        EnterCriticalSection(&m_stateLock);
554

555
        if (m_mediaSession) {
556
            m_mediaSession->Shutdown();
557
            m_mediaSession->Release();
558
            m_mediaSession = nullptr;
559
        }
560

561
        if (m_mediaSource) {
562
            m_mediaSource->Shutdown();
563
            m_mediaSource->Release();
564
            m_mediaSource = nullptr;
565
        }
566

567
        if (m_topology) {
568
            m_topology->Release();
569
            m_topology = nullptr;
570
        }
571

572
        if (m_presentationDescriptor) {
573
            m_presentationDescriptor->Release();
574
            m_presentationDescriptor = nullptr;
575
        }
576

577
        if (m_videoDisplay) {
578
            m_videoDisplay->Release();
579
            m_videoDisplay = nullptr;
580
        }
581

582
        if (m_eventHandler) {
583
            m_eventHandler->Release();
584
            m_eventHandler = nullptr;
585
        }
586

587
        m_state = PlayerState::Closed;
588

589
        LeaveCriticalSection(&m_stateLock);
590

591
        MFShutdown();
592
    }
593
};

3. Audio Effects and Processing#

Real-time Audio Effects Framework#

1
// Audio Effects Processing Framework
2
#include <vector>
3
#include <complex>
4
#include <cmath>
5

6
class AudioEffectsProcessor {
7
public:
8
    // Base audio effect class
9
    class AudioEffect {
10
    public:
11
        virtual ~AudioEffect() = default;
12
        virtual void ProcessBuffer(float* buffer, UINT32 numFrames, UINT32 numChannels) = 0;
13
        virtual void Reset() {}
14
        virtual void SetParameter(const std::string& name, float value) {}
15
    };
16

17
    // Reverb effect
18
    class ReverbEffect : public AudioEffect {
19
    private:
20
        std::vector<float> m_delayBuffer;
21
        UINT32 m_delayBufferSize;
22
        UINT32 m_delayIndex;
23
        float m_wetLevel;
24
        float m_dryLevel;
25
        float m_feedback;
26
        float m_roomSize;
27

28
    public:
29
        ReverbEffect(UINT32 sampleRate = 44100) : m_delayIndex(0), m_wetLevel(0.3f),
30
                                                  m_dryLevel(0.7f), m_feedback(0.5f),
31
                                                  m_roomSize(0.5f) {
32
            // Calculate delay buffer size (up to 2 seconds)
33
            m_delayBufferSize = static_cast<UINT32>(sampleRate * 2.0f * m_roomSize);
34
            m_delayBuffer.resize(m_delayBufferSize, 0.0f);
35
        }
36

37
        void ProcessBuffer(float* buffer, UINT32 numFrames, UINT32 numChannels) override {
38
            for (UINT32 frame = 0; frame < numFrames; ++frame) {
39
                for (UINT32 channel = 0; channel < numChannels; ++channel) {
40
                    UINT32 sampleIndex = frame * numChannels + channel;
41
                    float inputSample = buffer[sampleIndex];
42

43
                    // Get delayed sample
44
                    float delayedSample = m_delayBuffer[m_delayIndex];
45

46
                    // Mix delayed sample back into delay buffer with feedback
47
                    m_delayBuffer[m_delayIndex] = inputSample + (delayedSample * m_feedback);
48

49
                    // Output mix of dry and wet signals
50
                    buffer[sampleIndex] = (inputSample * m_dryLevel) + (delayedSample * m_wetLevel);
51

52
                    // Advance delay index
53
                    m_delayIndex = (m_delayIndex + 1) % m_delayBufferSize;
54
                }
55
            }
56
        }
57

58
        void SetParameter(const std::string& name, float value) override {
59
            if (name == "wetLevel") {
60
                m_wetLevel = std::clamp(value, 0.0f, 1.0f);
61
            } else if (name == "dryLevel") {
62
                m_dryLevel = std::clamp(value, 0.0f, 1.0f);
63
            } else if (name == "feedback") {
64
                m_feedback = std::clamp(value, 0.0f, 0.95f);
65
            } else if (name == "roomSize") {
66
                m_roomSize = std::clamp(value, 0.1f, 1.0f);
67
                // Resize delay buffer
68
                UINT32 newSize = static_cast<UINT32>(44100 * 2.0f * m_roomSize);
69
                if (newSize != m_delayBufferSize) {
70
                    m_delayBuffer.resize(newSize, 0.0f);
71
                    m_delayBufferSize = newSize;
72
                    m_delayIndex = 0;
73
                }
74
            }
75
        }
76

77
        void Reset() override {
78
            std::fill(m_delayBuffer.begin(), m_delayBuffer.end(), 0.0f);
79
            m_delayIndex = 0;
80
        }
81
    };
82

83
    // Distortion effect
84
    class DistortionEffect : public AudioEffect {
85
    private:
86
        float m_gain;
87
        float m_threshold;
88
        float m_mix;
89

90
    public:
91
        DistortionEffect() : m_gain(2.0f), m_threshold(0.7f), m_mix(0.5f) {}
92

93
        void ProcessBuffer(float* buffer, UINT32 numFrames, UINT32 numChannels) override {
94
            for (UINT32 i = 0; i < numFrames * numChannels; ++i) {
95
                float inputSample = buffer[i];
96
                float amplifiedSample = inputSample * m_gain;
97

98
                // Soft clipping
99
                float distortedSample;
100
                if (std::abs(amplifiedSample) > m_threshold) {
101
                    distortedSample = (amplifiedSample > 0 ? 1.0f : -1.0f) *
102
                                    (m_threshold + (1.0f - m_threshold) *
103
                                     std::tanh((std::abs(amplifiedSample) - m_threshold) / (1.0f - m_threshold)));
104
                } else {
105
                    distortedSample = amplifiedSample;
106
                }
107

108
                // Mix dry and distorted signals
109
                buffer[i] = (inputSample * (1.0f - m_mix)) + (distortedSample * m_mix);
110
            }
111
        }
112

113
        void SetParameter(const std::string& name, float value) override {
114
            if (name == "gain") {
115
                m_gain = std::max(1.0f, value);
116
            } else if (name == "threshold") {
117
                m_threshold = std::clamp(value, 0.1f, 1.0f);
118
            } else if (name == "mix") {
119
                m_mix = std::clamp(value, 0.0f, 1.0f);
120
            }
121
        }
122
    };
123

124
    // Equalizer effect
125
    class EqualizerEffect : public AudioEffect {
126
    private:
127
        struct BiquadFilter {
128
            float b0, b1, b2, a1, a2;
129
            float x1, x2, y1, y2;
130

131
            BiquadFilter() : b0(1), b1(0), b2(0), a1(0), a2(0), x1(0), x2(0), y1(0), y2(0) {}
132

133
            float Process(float input) {
134
                float output = b0 * input + b1 * x1 + b2 * x2 - a1 * y1 - a2 * y2;
135
                x2 = x1; x1 = input;
136
                y2 = y1; y1 = output;
137
                return output;
138
            }
139

140
            void SetPeakingEQ(float sampleRate, float frequency, float Q, float gainDB) {
141
                float A = std::pow(10.0f, gainDB / 40.0f);
142
                float omega = 2.0f * static_cast<float>(M_PI) * frequency / sampleRate;
143
                float sin_omega = std::sin(omega);
144
                float cos_omega = std::cos(omega);
145
                float alpha = sin_omega / (2.0f * Q);
146

147
                b0 = 1.0f + alpha * A;
148
                b1 = -2.0f * cos_omega;
149
                b2 = 1.0f - alpha * A;
150
                a1 = -2.0f * cos_omega;
151
                a2 = 1.0f - alpha / A;
152

153
                // Normalize
154
                float norm = 1.0f / (1.0f + alpha / A);
155
                b0 *= norm; b1 *= norm; b2 *= norm;
156
                a1 *= norm; a2 *= norm;
157
            }
158
        };
159

160
        std::vector<BiquadFilter> m_filters;
161
        std::vector<float> m_gains;
162
        UINT32 m_sampleRate;
163

164
    public:
165
        EqualizerEffect(UINT32 sampleRate = 44100, UINT32 numBands = 5)
166
            : m_sampleRate(sampleRate) {
167
            m_filters.resize(numBands);
168
            m_gains.resize(numBands, 0.0f);
169

170
            // Set up frequency bands (example: 5-band EQ)
171
            if (numBands == 5) {
172
                UpdateFilter(0, 60.0f, 0.7f);    // Bass
173
                UpdateFilter(1, 230.0f, 0.7f);   // Low mid
174
                UpdateFilter(2, 1000.0f, 0.7f);  // Mid
175
                UpdateFilter(3, 4000.0f, 0.7f);  // High mid
176
                UpdateFilter(4, 12000.0f, 0.7f); // Treble
177
            }
178
        }
179

180
        void ProcessBuffer(float* buffer, UINT32 numFrames, UINT32 numChannels) override {
181
            for (UINT32 frame = 0; frame < numFrames; ++frame) {
182
                for (UINT32 channel = 0; channel < numChannels; ++channel) {
183
                    UINT32 sampleIndex = frame * numChannels + channel;
184
                    float sample = buffer[sampleIndex];
185

186
                    // Apply each EQ band
187
                    for (size_t band = 0; band < m_filters.size(); ++band) {
188
                        if (channel == 0) { // Only process left channel filters, duplicate for right
189
                            sample = m_filters[band].Process(sample);
190
                        }
191
                    }
192

193
                    buffer[sampleIndex] = sample;
194
                }
195
            }
196
        }
197

198
        void SetBandGain(UINT32 band, float gainDB) {
199
            if (band < m_gains.size()) {
200
                m_gains[band] = gainDB;
201
                UpdateFilter(band, GetBandFrequency(band), 0.7f);
202
            }
203
        }
204

205
    private:
206
        void UpdateFilter(UINT32 band, float frequency, float Q) {
207
            if (band < m_filters.size()) {
208
                m_filters[band].SetPeakingEQ(static_cast<float>(m_sampleRate),
209
                                           frequency, Q, m_gains[band]);
210
            }
211
        }
212

213
        float GetBandFrequency(UINT32 band) {
214
            const float frequencies[] = { 60.0f, 230.0f, 1000.0f, 4000.0f, 12000.0f };
215
            return (band < 5) ? frequencies[band] : 1000.0f;
216
        }
217
    };
218

219
private:
220
    std::vector<std::unique_ptr<AudioEffect>> m_effects;
221

222
public:
223
    // Add effect to chain
224
    void AddEffect(std::unique_ptr<AudioEffect> effect) {
225
        m_effects.push_back(std::move(effect));
226
    }
227

228
    // Process audio buffer through all effects
229
    void ProcessBuffer(float* buffer, UINT32 numFrames, UINT32 numChannels) {
230
        for (auto& effect : m_effects) {
231
            effect->ProcessBuffer(buffer, numFrames, numChannels);
232
        }
233
    }
234

235
    // Clear all effects
236
    void ClearEffects() {
237
        m_effects.clear();
238
    }
239

240
    // Reset all effects
241
    void ResetAllEffects() {
242
        for (auto& effect : m_effects) {
243
            effect->Reset();
244
        }
245
    }
246

247
    // Get number of effects
248
    size_t GetEffectCount() const {
249
        return m_effects.size();
250
    }
251
};

4. Audio Visualization#

Real-time Audio Analyzer#

1
// Audio Visualization and Analysis
2
#include <fftw3.h>
3
#pragma comment(lib, "libfftw3f-3.lib")
4

5
class AudioAnalyzer {
6
private:
7
    UINT32 m_fftSize;
8
    float* m_fftInput;
9
    fftwf_complex* m_fftOutput;
10
    fftwf_plan m_fftPlan;
11

12
    std::vector<float> m_magnitudeBuffer;
13
    std::vector<float> m_smoothedMagnitudes;
14
    std::vector<float> m_windowFunction;
15

16
    float m_smoothingFactor;
17
    UINT32 m_sampleRate;
18

19
public:
20
    AudioAnalyzer(UINT32 fftSize = 1024, UINT32 sampleRate = 44100)
21
        : m_fftSize(fftSize), m_sampleRate(sampleRate), m_smoothingFactor(0.8f) {
22

23
        // Allocate FFT buffers
24
        m_fftInput = fftwf_alloc_real(m_fftSize);
25
        m_fftOutput = fftwf_alloc_complex(m_fftSize / 2 + 1);
26

27
        // Create FFT plan
28
        m_fftPlan = fftwf_plan_dft_r2c_1d(m_fftSize, m_fftInput, m_fftOutput, FFTW_ESTIMATE);
29

30
        // Initialize buffers
31
        m_magnitudeBuffer.resize(m_fftSize / 2 + 1);
32
        m_smoothedMagnitudes.resize(m_fftSize / 2 + 1, 0.0f);
33

34
        // Create Hanning window
35
        CreateHanningWindow();
36
    }
37

38
    ~AudioAnalyzer() {
39
        fftwf_destroy_plan(m_fftPlan);
40
        fftwf_free(m_fftInput);
41
        fftwf_free(m_fftOutput);
42
        fftwf_cleanup();
43
    }
44

45
    // Analyze audio buffer
46
    void AnalyzeBuffer(const float* buffer, UINT32 numFrames, UINT32 numChannels) {
47
        if (numFrames < m_fftSize) return;
48

49
        // Convert to mono if stereo
50
        for (UINT32 i = 0; i < m_fftSize; ++i) {
51
            if (numChannels == 1) {
52
                m_fftInput[i] = buffer[i];
53
            } else {
54
                // Mix stereo to mono
55
                UINT32 stereoIndex = i * numChannels;
56
                m_fftInput[i] = (buffer[stereoIndex] + buffer[stereoIndex + 1]) * 0.5f;
57
            }
58

59
            // Apply window function
60
            m_fftInput[i] *= m_windowFunction[i];
61
        }
62

63
        // Execute FFT
64
        fftwf_execute(m_fftPlan);
65

66
        // Calculate magnitudes
67
        for (UINT32 i = 0; i < m_magnitudeBuffer.size(); ++i) {
68
            float real = m_fftOutput[i][0];
69
            float imag = m_fftOutput[i][1];
70
            float magnitude = std::sqrt(real * real + imag * imag);
71

72
            // Convert to dB
73
            m_magnitudeBuffer[i] = 20.0f * std::log10(magnitude + 1e-6f);
74

75
            // Apply smoothing
76
            m_smoothedMagnitudes[i] = m_smoothedMagnitudes[i] * m_smoothingFactor +
77
                                    m_magnitudeBuffer[i] * (1.0f - m_smoothingFactor);
78
        }
79
    }
80

81
    // Get frequency magnitudes
82
    const std::vector<float>& GetFrequencyMagnitudes() const {
83
        return m_smoothedMagnitudes;
84
    }
85

86
    // Get frequency for bin index
87
    float GetFrequencyForBin(UINT32 binIndex) const {
88
        return static_cast<float>(binIndex * m_sampleRate) / (2.0f * m_fftSize);
89
    }
90

91
    // Get magnitude for specific frequency
92
    float GetMagnitudeAtFrequency(float frequency) const {
93
        UINT32 binIndex = static_cast<UINT32>(frequency * 2.0f * m_fftSize / m_sampleRate);
94
        if (binIndex < m_smoothedMagnitudes.size()) {
95
            return m_smoothedMagnitudes[binIndex];
96
        }
97
        return 0.0f;
98
    }
99

100
    // Get peak frequency
101
    std::pair<float, float> GetPeakFrequency() const {
102
        float maxMagnitude = -std::numeric_limits<float>::infinity();
103
        UINT32 maxIndex = 0;
104

105
        for (UINT32 i = 1; i < m_smoothedMagnitudes.size(); ++i) {
106
            if (m_smoothedMagnitudes[i] > maxMagnitude) {
107
                maxMagnitude = m_smoothedMagnitudes[i];
108
                maxIndex = i;
109
            }
110
        }
111

112
        float frequency = GetFrequencyForBin(maxIndex);
113
        return std::make_pair(frequency, maxMagnitude);
114
    }
115

116
    // Get RMS level
117
    float GetRMSLevel(const float* buffer, UINT32 numFrames, UINT32 numChannels) {
118
        float sum = 0.0f;
119
        UINT32 totalSamples = numFrames * numChannels;
120

121
        for (UINT32 i = 0; i < totalSamples; ++i) {
122
            sum += buffer[i] * buffer[i];
123
        }
124

125
        return std::sqrt(sum / totalSamples);
126
    }
127

128
    // Get frequency bands (for visualizer)
129
    std::vector<float> GetFrequencyBands(UINT32 numBands) const {
130
        std::vector<float> bands(numBands, 0.0f);
131

132
        // Log scale frequency bands
133
        float logMin = std::log10(20.0f);  // 20 Hz
134
        float logMax = std::log10(20000.0f); // 20 kHz
135
        float logRange = logMax - logMin;
136

137
        for (UINT32 band = 0; band < numBands; ++band) {
138
            float logFreq = logMin + (static_cast<float>(band) / (numBands - 1)) * logRange;
139
            float frequency = std::pow(10.0f, logFreq);
140

141
            UINT32 binIndex = static_cast<UINT32>(frequency * 2.0f * m_fftSize / m_sampleRate);
142
            if (binIndex < m_smoothedMagnitudes.size()) {
143
                bands[band] = std::max(0.0f, m_smoothedMagnitudes[binIndex] + 60.0f) / 60.0f; // Normalize
144
            }
145
        }
146

147
        return bands;
148
    }
149

150
    // Set smoothing factor
151
    void SetSmoothingFactor(float factor) {
152
        m_smoothingFactor = std::clamp(factor, 0.0f, 1.0f);
153
    }
154

155
private:
156
    void CreateHanningWindow() {
157
        m_windowFunction.resize(m_fftSize);
158
        for (UINT32 i = 0; i < m_fftSize; ++i) {
159
            m_windowFunction[i] = 0.5f * (1.0f - std::cos(2.0f * static_cast<float>(M_PI) * i / (m_fftSize - 1)));
160
        }
161
    }
162
};
163

164
// Audio visualization renderer
165
class AudioVisualizer {
166
private:
167
    AudioAnalyzer m_analyzer;
168
    std::vector<float> m_frequencyBands;
169
    std::vector<float> m_peakValues;
170
    UINT32 m_numBands;
171

172
public:
173
    AudioVisualizer(UINT32 numBands = 32) : m_analyzer(1024), m_numBands(numBands) {
174
        m_frequencyBands.resize(m_numBands, 0.0f);
175
        m_peakValues.resize(m_numBands, 0.0f);
176
    }
177

178
    void UpdateVisualization(const float* audioBuffer, UINT32 numFrames, UINT32 numChannels) {
179
        // Analyze audio
180
        m_analyzer.AnalyzeBuffer(audioBuffer, numFrames, numChannels);
181

182
        // Get frequency bands
183
        m_frequencyBands = m_analyzer.GetFrequencyBands(m_numBands);
184

185
        // Update peak values with decay
186
        for (UINT32 i = 0; i < m_numBands; ++i) {
187
            if (m_frequencyBands[i] > m_peakValues[i]) {
188
                m_peakValues[i] = m_frequencyBands[i];
189
            } else {
190
                m_peakValues[i] *= 0.95f; // Peak decay
191
            }
192
        }
193
    }
194

195
    // Get data for rendering
196
    const std::vector<float>& GetFrequencyBands() const { return m_frequencyBands; }
197
    const std::vector<float>& GetPeakValues() const { return m_peakValues; }
198

199
    float GetRMSLevel(const float* buffer, UINT32 numFrames, UINT32 numChannels) {
200
        return m_analyzer.GetRMSLevel(buffer, numFrames, numChannels);
201
    }
202

203
    std::pair<float, float> GetPeakFrequency() {
204
        return m_analyzer.GetPeakFrequency();
205
    }
206
};

Best Practices#

1. Performance Optimization#

Use appropriate buffer sizes for real-time processing
Implement lock-free audio processing where possible
Profile audio threads for timing consistency
Use SIMD instructions for DSP operations

2. Audio Threading#

1
// Real-time audio thread priority
2
void SetAudioThreadPriority() {
3
    HANDLE currentThread = GetCurrentThread();
4
    SetThreadPriority(currentThread, THREAD_PRIORITY_TIME_CRITICAL);
5

6
    // Set thread to avoid core parking
7
    DWORD_PTR affinityMask = 1; // Pin to first CPU core
8
    SetThreadAffinityMask(currentThread, affinityMask);
9
}

3. Memory Management#

Pre-allocate buffers to avoid runtime allocations
Use circular buffers for streaming audio
Implement proper cleanup for COM interfaces
Handle device disconnection gracefully

4. Error Handling#

Check HRESULT values consistently
Implement fallback audio devices
Handle format changes dynamically
Provide user feedback for audio issues

Conclusion#

Windows audio and media programming provides powerful capabilities for multimedia applications. This guide covers essential techniques from low-level WASAPI programming to high-level Media Foundation integration, including real-time effects processing and audio visualization.

Key takeaways:

WASAPI: Low-latency, high-performance audio I/O
Media Foundation: Modern media playback framework
Audio Effects: Real-time DSP processing
Visualization: Frequency analysis and graphical display
Performance: Critical for real-time audio applications

Master these audio programming techniques to build professional-quality multimedia applications on Windows.