//==============================================================================
// 7-point stencil benchmark designed to highligh key optimizations
// compile with: 
//   cc -Ofast -qopenmp stencil.c -no-ipo -fno-inline-functions -g
// run (1P of a 2P HSW Cori node): 
//   # n.b. SLURM on Cori/HSW defines a 'cpu' as a HW thread.  Thus 32 CPUs == 16 cores.
//   export OMP_NUM_THREADS=16
//   export KMP_AFFINITY=verbose,granularity=thread,compact,1
//   srun -n1 --cpus-per-task=32  ./a.out 
//
//==============================================================================
#include<stdio.h>
#include<stdint.h>
#include<immintrin.h>
#include<omp.h>

//==============================================================================
#define DIM  512
#define TIME  10

//==============================================================================
void bench_stencil_ver0(double * __restrict__ X, double * __restrict__ Y, int dim, int iStride, int jStride, int kStride){
  double StartTime, ElapsedTime=0;
  int nIterations=0;
  int i,j,k;

  double * __restrict__ old = X;
  double * __restrict__ new = Y;
  double * __restrict__ temp;

  StartTime = omp_get_wtime();
  while(ElapsedTime < TIME){
    #pragma omp parallel for
    for(k=1;k<dim+1;k++){
    for(j=1;j<dim+1;j++){
    #pragma novector
    for(i=1;i<dim+1;i++){
      int ijk = i*iStride + j*jStride + k*kStride;
      new[ijk] = -6.0*old[ijk        ] 
                    + old[ijk-iStride]
                    + old[ijk+iStride]
                    + old[ijk-jStride]
                    + old[ijk+jStride]
                    + old[ijk-kStride]
                    + old[ijk+kStride];
    }}}
    nIterations++;
    temp =  old;
     old =  new;
     new = temp;
    ElapsedTime = omp_get_wtime() - StartTime;
  }

  double GBs = 16*(double)(kStride)*(double)(dim+2)*(double)(nIterations)/ElapsedTime/1e9;
  printf("%20s: Dim=%4d, nIterations=%4d, Time=%6.3fs, Useful GB/s=%6.3f\n","Naive",dim,nIterations,ElapsedTime,GBs);fflush(stdout);
}

//==============================================================================
void bench_stencil_ver1(double * __restrict__ X, double * __restrict__ Y, int dim, int iStride, int jStride, int kStride){
  double StartTime, ElapsedTime=0;
  int nIterations=0;
  int i,j,k;

  double * __restrict__ old = X;
  double * __restrict__ new = Y;
  double * __restrict__ temp;

  StartTime = omp_get_wtime();
  while(ElapsedTime < TIME){
    #pragma omp parallel for
    for(k=1;k<dim+1;k++){
    for(j=1;j<dim+1;j++){
    for(i=1;i<dim+1;i++){
      int ijk = i + j*jStride + k*kStride;
      new[ijk] = -6.0*old[ijk        ] 
                    + old[ijk-1      ]
                    + old[ijk+1      ]
                    + old[ijk-jStride]
                    + old[ijk+jStride]
                    + old[ijk-kStride]
                    + old[ijk+kStride];
    }}}
    nIterations++;
    temp =  old;
     old =  new;
     new = temp;
    ElapsedTime = omp_get_wtime() - StartTime;
  }

  double GBs = 16*(double)(kStride)*(double)(dim+2)*(double)(nIterations)/ElapsedTime/1e9;
  printf("%20s: Dim=%4d, nIterations=%4d, Time=%6.3fs, Useful GB/s=%6.3f\n","iStride=1",dim,nIterations,ElapsedTime,GBs);fflush(stdout);
}

//==============================================================================
void bench_stencil_ver2(double * __restrict__ X, double * __restrict__ Y, int dim, int iStride, int jStride, int kStride){
  double StartTime, ElapsedTime=0;
  int nIterations=0;
  int i,j,k;

  double * __restrict__ old = X+1+jStride+kStride;
  double * __restrict__ new = Y+1+jStride+kStride;
  double * __restrict__ temp;
 
  int jTiles = (dim/16); // demands dim%16 == 0
  int kTiles = (dim/16);
  int tile;

  StartTime = omp_get_wtime();
  while(ElapsedTime < TIME){
    #pragma omp parallel for schedule(static,1)
    for(tile=0;tile<jTiles*kTiles;tile++){
      int kLo = 16*(tile/jTiles);
      int jLo = 16*(tile%jTiles); 
      for(k=kLo;k<kLo+16;k++){
      for(j=jLo;j<jLo+16;j++){
      for(i=0;i<dim;i++){
        int ijk = i + j*jStride + k*kStride;
        new[ijk] = -6.0*old[ijk        ] 
                      + old[ijk-1      ]
                      + old[ijk+1      ]
                      + old[ijk-jStride]
                      + old[ijk+jStride]
                      + old[ijk-kStride]
                      + old[ijk+kStride];
      }}}
    }
    nIterations++;
    temp =  old;
     old =  new;
     new = temp;
    ElapsedTime = omp_get_wtime() - StartTime;
  }

  double GBs = 16*(double)(kStride)*(double)(dim+2)*(double)(nIterations)/ElapsedTime/1e9;
  printf("%20s: Dim=%4d, nIterations=%4d, Time=%6.3fs, Useful GB/s=%6.3f\n","jk tiles",dim,nIterations,ElapsedTime,GBs);fflush(stdout);
}

//==============================================================================
void bench_stencil_ver3(double * __restrict__ X, double * __restrict__ Y, int dim, int iStride, int jStride, int kStride){
  double StartTime, ElapsedTime=0;
  int nIterations=0;
  int i,j,k;

  double * __restrict__ old = X+1+jStride+kStride;
  double * __restrict__ new = Y+1+jStride+kStride;
  double * __restrict__ temp;
 
  int jTiles = (dim/16); // demands dim%16 == 0
  int kTiles = (dim/16);
  int tile;

  StartTime = omp_get_wtime();
  while(ElapsedTime < TIME){
    #pragma omp parallel for schedule(static,1)
    for(tile=0;tile<jTiles*kTiles;tile++){
      int kLo = 16*(tile/jTiles);
      int jLo = 16*(tile%jTiles); 
      for(k=kLo;k<kLo+16;k++){
      for(j=jLo;j<jLo+16;j++){
      for(i=0;i<jStride;i++){
        int ijk = i + j*jStride + k*kStride;
        new[ijk] = -6.0*old[ijk        ] 
                      + old[ijk-1      ]
                      + old[ijk+1      ]
                      + old[ijk-jStride]
                      + old[ijk+jStride]
                      + old[ijk-kStride]
                      + old[ijk+kStride];
      }}}
    }
    nIterations++;
    temp =  old;
     old =  new;
     new = temp;
    ElapsedTime = omp_get_wtime() - StartTime;
  }

  double GBs = 16*(double)(kStride)*(double)(dim+2)*(double)(nIterations)/ElapsedTime/1e9;
  printf("%20s: Dim=%4d, nIterations=%4d, Time=%6.3fs, Useful GB/s=%6.3f\n","aligned",dim,nIterations,ElapsedTime,GBs);fflush(stdout);
}

//==============================================================================
void bench_stencil_ver4(double * __restrict__ X, double * __restrict__ Y, int dim, int iStride, int jStride, int kStride){
  double StartTime, ElapsedTime=0;
  int nIterations=0;
  int i,j,k;

  double * __restrict__ old = X+1+jStride+kStride;
  double * __restrict__ new = Y+1+jStride+kStride;
  double * __restrict__ temp;
 
  int jTiles = (dim/16); // demands dim%16 == 0
  int kTiles = (dim/16);
  int tile;

  __assume(jStride%8 == 0);
  __assume(kStride%8 == 0);

  StartTime = omp_get_wtime();
  while(ElapsedTime < TIME){
    #pragma omp parallel for schedule(static,1)
    for(tile=0;tile<jTiles*kTiles;tile++){
      int kLo = 16*(tile/jTiles);
      int jLo = 16*(tile%jTiles); 
      for(k=kLo;k<kLo+16;k++){
      for(j=jLo;j<jLo+16;j++){
      #pragma omp simd aligned(new,old:64)
      #pragma vector nontemporal
      for(i=0;i<jStride;i++){
        int ijk = i + j*jStride + k*kStride;
        new[ijk] = -6.0*old[ijk        ] 
                      + old[ijk-1      ]
                      + old[ijk+1      ]
                      + old[ijk-jStride]
                      + old[ijk+jStride]
                      + old[ijk-kStride]
                      + old[ijk+kStride];
      }}}
    }
    nIterations++;
    temp =  old;
     old =  new;
     new = temp;
    ElapsedTime = omp_get_wtime() - StartTime;
  }

  double GBs = 16*(double)(kStride)*(double)(dim+2)*(double)(nIterations)/ElapsedTime/1e9;
  printf("%20s: Dim=%4d, nIterations=%4d, Time=%6.3fs, Useful GB/s=%6.3f\n","simd/nontemporal",dim,nIterations,ElapsedTime,GBs);fflush(stdout);
}

//==============================================================================
main(){
  int i;
  // pad i-dimension to multiple of 8; pad total allocation w/64B for aligning first non-ghost zone element
  uint64_t size = (DIM+8)*(DIM+2)*(DIM+2)*sizeof(double)+64;
  double * __restrict__ X = _mm_malloc(size,64); // first ghost zone element is 64B-aligned
  double * __restrict__ Y = _mm_malloc(size,64); // first ghost zone element is 64B-aligned

  //----------------------------------------------------------------------------
  // initialize the arrays (scrambled first touch)
  #pragma omp parallel for schedule(static,512)
  for(i=0;i<(size>>3);i++){
    X[i] = 0.0;
    Y[i] = 0.0;
  }

  //----------------------------------------------------------------------------
  bench_stencil_ver0(X,Y,DIM,1,(DIM+2),(DIM+2)*(DIM+2));
  bench_stencil_ver1(X,Y,DIM,1,(DIM+2),(DIM+2)*(DIM+2));
  bench_stencil_ver2(X,Y,DIM,1,(DIM+2),(DIM+2)*(DIM+2));
  X=X+7; // make first non-ghost zone 64B aligned
  Y=Y+7;
  bench_stencil_ver3(X,Y,DIM,1,(DIM+8),(DIM+8)*(DIM+2)); // pad unit-stride == lower AI but better SIMD
  bench_stencil_ver4(X,Y,DIM,1,(DIM+8),(DIM+8)*(DIM+2));

}