OpenCL｜Memeplexes

[PR]

2026年05月18日

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

GPUでニューラルネットワーク更新（Restricted Boltzmann Machine : RBMの隠れニューロン更新）（OpenCL）

隠れニューロンの更新

前回は制限（制約）付きボルツマンマシン（Restricted Boltzmann Machine : RBM）の可視ニューロンを（GPUで）更新しました。
今回は隠れニューロンを更新します。
もちろん使うのはGPUです。

つづきはこちら

[0回]

PR

GPUでニューラルネットワーク更新（マトリクス×ベクトル）　その２　（OpenCL）

パフォーマンス改善

この間、GPUでニューラルネットワークを更新しましたが、その実装は適当でした。
遅いのです。
その実装を流用して制限付きボルツマンマシン(Restricted Boltzmann Machine : RBM)を実装した所、CPUより遅いというありさまでした。
今回はパフォーマンスを改善したやり方でニューラルネットワークの更新をしてみようと思います。
と言っても中身はただのマトリクスとベクトルの乗算です。
他にも流用できそうですね。

つづきはこちら

[0回]

GPUで疑似乱数 (OpenCL, Cloo)(Xorshift)

GPUで擬似乱数

DirectX11を使ってGPUで擬似乱数を生成したので、今度はOpenCLで同じことをやってみます。

Program.cs

using System.Linq;
using Cloo;

struct Xorshift128RandomGpu
{
    public int w, x, y, z;

    public Xorshift128RandomGpu(int seed)
    {
        if (seed == 0)
        {
            seed += 11;
        }

        w = seed;
        x = seed << 16 + seed >> 16;
        y = w + x;
        z = x ^ y;
    }
}

class Program
{
    static void Main()
    {
        var platform = ComputePlatform.Platforms
            .Where(p => p.Devices.Count(d => d.Type == ComputeDeviceTypes.Gpu) > 0)
            .First();
        var devices = platform.Devices
            .Where(d => d.Type == ComputeDeviceTypes.Gpu)
            .ToArray();
        var context = new ComputeContext(
            devices, 
            new ComputeContextPropertyList(platform),
            null,
            System.IntPtr.Zero
            );
        var commandQueue = new ComputeCommandQueue(
            context,
            devices[0], 
            ComputeCommandQueueFlags.None
            );
        const int elementCount = 20;
        var resultBuffer = new ComputeBuffer<float>(
            context, 
            ComputeMemoryFlags.ReadWrite,
            elementCount
            );
        var random = new System.Random(0);
        var randomGeneratorsBuffer = new ComputeBuffer<Xorshift128RandomGpu>(
            context,
            ComputeMemoryFlags.ReadWrite | ComputeMemoryFlags.CopyHostPointer,
            Enumerable.Range(0, elementCount).Select(i=>new Xorshift128RandomGpu(random.Next())).ToArray()
            );
        var program = new ComputeProgram(
            context,
            System.IO.File.ReadAllText("myKernelProgram.cl")
            );
        try
        {
            program.Build(devices, null, null, System.IntPtr.Zero);
        }
        catch
        {
            System.Console.WriteLine(program.GetBuildLog(devices[0]));
        }
        var kernel = program.CreateKernel("updateRandom");
        kernel.SetMemoryArgument(0, resultBuffer);
        kernel.SetMemoryArgument(1, randomGeneratorsBuffer);
        commandQueue.Execute(
            kernel,
            null,
            new long[] { elementCount },
            new long[] { 1 },
            null
            );

        float[] dataFromGpu = new float[elementCount];
        commandQueue.ReadFromBuffer<float>(resultBuffer, ref dataFromGpu, true, null);

        foreach (var number in dataFromGpu)
        {
            System.Console.WriteLine(number);
        }

        kernel.Dispose();
        program.Dispose();
        randomGeneratorsBuffer.Dispose();
        resultBuffer.Dispose();
        commandQueue.Dispose();
        context.Dispose();
    }
}

myKernelProgram.cl

typedef struct
{
	int w;
	int x;
	int y;
	int z;	
}Xorshift128Random;


int next(Xorshift128Random* random)
{
	int t = (random->x ^ (random->x << 11));
	random->x = random->y;
	random->y = random->z;
	random->z = random->w;
	random->w = (random->w = (random->w ^ (random->w >> 19)) ^ (t ^ (t >> 8)));
	return random->w;
}

float nextFloat(Xorshift128Random* random)
{
	return ((float)next(random) / INT_MAX);
}

__kernel void updateRandom(
	__global float *resultBuffer,
	__global Xorshift128Random *randomGeneratorBuffer)
{
	Xorshift128Random random = randomGeneratorBuffer[get_global_id(0)];
	resultBuffer[get_global_id(0)] = nextFloat(&random);
	randomGeneratorBuffer[get_global_id(0)] = random;
}

結果は次のようになります：

この前と結果は同じですね。
seedが同じなので当たり前ですが。
上手く行っているようです。

[1回]

C#でOpenCL入門一覧 (Cloo版)

ClooからOpenCLを使うシリーズをまとめます。

感想

OpenCLNetよりインターフェースが綺麗かなと思って使い始めたClooですが、その…もうちょっとメソッドを簡素化して欲しいです。

Deep LearningはOpenCLNetとClooどっちを使うか迷ってきました。
いや、もしかしたらSlimDXでDirectX11のCompute Shaderあたりを使うかもしれませんね。
もっとも、Xbox Oneが出ることですしもうすぐMicrosoft公式のGPGPUライブラリが出てもおかしくありませんが。

[0回]

C#でOpenCL入門 (Cloo版) スレッドとグループの個数

スレッドとグループの個数

こちらも合わせてお読みください。

つづきはこちら

[0回]

S	M	T	W	T	F	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31