hzyjerry
diff --git a/‎roboticstoolbox/cuda/fknm.cu
Lines changed: 52 additions & 43 deletions b/‎roboticstoolbox/cuda/fknm.cu
Lines changed: 52 additions & 43 deletions
diff --git a/‎roboticstoolbox/examples/chomp.py
Lines changed: 119 additions & 1 deletion b/‎roboticstoolbox/examples/chomp.py
Lines changed: 119 additions & 1 deletion
@@ -5,10 +5,10 @@
 #include <cuda.h>
 #include <cuda_runtime.h>
 
-__device__ int _inv(float *m, float *invOut);
-__device__ void mult(float *A, float *B, float *C);
-__device__ void copy(float *A, float *B);
-__device__ void _eye(float *data);
+__device__ int _inv(double *m, double *invOut);
+__device__ void mult(double *A, double *B, double *C);
+__device__ void copy(double *A, double *B);
+__device__ void _eye(double *data);
 
 
 
@@ -24,25 +24,25 @@ __device__ void _eye(float *data);
  *  cdim: (int) number of joints
  *  out: (N, 6, cdim)
  */
-__global__ void _jacob0(float *T,
-                        float *tool, 
-                        float *e_tool, 
-                        float *link_A, 
+__global__ void _jacob0(double *T,
+                        double *tool, 
+                        double *e_tool, 
+                        double *link_A, 
                         int *link_axes,
                         int *link_isjoint, 
                         int N, 
                         int cdim, 
-                        float *out)
+                        double *out)
 {
     int tid = blockIdx.x * blockDim.x + threadIdx.x;
-    float *T_i, *tool_i;
-    float *U, *temp, *etool_i;
-    float *invU;
-    float *link_iA;
-
-    cudaMalloc((void**)&U, sizeof(float) * 16);
-    cudaMalloc((void**)&invU, sizeof(float) * 16);
-    cudaMalloc((void**)&temp, sizeof(float) * 16);
+    double *T_i, *tool_i;
+    double *U, *temp, *etool_i;
+    double *invU;
+    double *link_iA;
+
+    cudaMalloc((void**)&U, sizeof(double) * 16);
+    cudaMalloc((void**)&invU, sizeof(double) * 16);
+    cudaMalloc((void**)&temp, sizeof(double) * 16);
     int j = 0;
 
     T_i = &T[tid * 16];
@@ -65,7 +65,7 @@ __global__ void _jacob0(float *T,
             _inv(U, invU);
             mult(invU, T_i, temp);
 
-            float *out_tid = &out[tid + 16];
+            double *out_tid = &out[tid + 16];
 
             if (link_axes[i] == 0) {
                 out_tid[0 * tid + j] = U[0 * 4 + 2] * temp[1 * 4 + 3] - U[0 * 4 + 1] * temp[2 * 4 + 3];
@@ -134,7 +134,7 @@ __global__ void _jacob0(float *T,
 }
 
 
-__device__ void _eye(float *data)
+__device__ void _eye(double *data)
 {
     data[0] = 1;
     data[1] = 0;
@@ -154,7 +154,7 @@ __device__ void _eye(float *data)
     data[15] = 1;
 }
 
-__device__ void copy(float *A, float *B)
+__device__ void copy(double *A, double *B)
 {
     // copy A into B
     B[0] = A[0];
@@ -175,7 +175,7 @@ __device__ void copy(float *A, float *B)
     B[15] = A[15];
 }
 
-__device__ void mult(float *A, float *B, float *C)
+__device__ void mult(double *A, double *B, double *C)
 {
     const int N = 4;
     int i, j, k;
@@ -195,10 +195,10 @@ __device__ void mult(float *A, float *B, float *C)
     }
 }
 
-__device__ int _inv(float *m, float *invOut)
+__device__ int _inv(double *m, double *invOut)
 {
-    float *inv;
-    cudaMalloc((void**)&inv, sizeof(float) * 16);
+    double *inv;
+    cudaMalloc((void**)&inv, sizeof(double) * 16);
     double det;
     int i;
 
@@ -329,6 +329,9 @@ __device__ int _inv(float *m, float *invOut)
 }
 
 
+
+extern "C"{
+
 /* 
  * Params
  *  T: (N, 4, 4) the final transform matrix of all points (shared)
@@ -340,42 +343,42 @@ __device__ int _inv(float *m, float *invOut)
  *  cdim: (int) number of joints
  *  out: (N, 6, cdim)
  */
-void jacob0(float *T, 
-            float *tool,
-            float *etool,
-            float *link_A, 
+void jacob0(double *T, 
+            double *tool,
+            double *etool,
+            double *link_A, 
             int *link_axes,
             int *link_isjoint, 
             int N, 
             int cdim, 
-            float *out)
+            double *out)
     // affine_T[N]
     // link_axes[cdim]
     // link_A[cdim]
     // link_isjoint[cdim]
     // out
 {
-    float *d_T, *d_tool, *d_etool, *d_link_A;
+    double *d_T, *d_tool, *d_etool, *d_link_A;
     int *d_link_axes, *d_link_isjoint;
-    float *d_out;
+    double *d_out;
 
-    cudaMalloc((void**)&d_T, sizeof(float) * N * 16);
-    cudaMalloc((void**)&d_tool, sizeof(float) * N * 16);
-    cudaMalloc((void**)&d_etool, sizeof(float) * N * 16);
-    cudaMalloc((void**)&d_link_A, sizeof(float) * cdim * 16);
+    cudaMalloc((void**)&d_T, sizeof(double) * N * 16);
+    cudaMalloc((void**)&d_tool, sizeof(double) * N * 16);
+    cudaMalloc((void**)&d_etool, sizeof(double) * N * 16);
+    cudaMalloc((void**)&d_link_A, sizeof(double) * cdim * 16);
     cudaMalloc((void**)&d_link_axes, sizeof(int) * cdim);
     cudaMalloc((void**)&d_link_isjoint, sizeof(int) * cdim);
-    cudaMalloc((void**)&d_out, sizeof(float) * 6 * cdim);
+    cudaMalloc((void**)&d_out, sizeof(double) * 6 * cdim);
 
 
     // Transfer data from host to device memory
-    cudaMemcpy(d_T, T, sizeof(float) * N * 16, cudaMemcpyHostToDevice);
-    cudaMemcpy(d_tool, tool, sizeof(float) * N * 16, cudaMemcpyHostToDevice);
-    cudaMemcpy(d_etool, etool, sizeof(float) * N * 16, cudaMemcpyHostToDevice);
-    cudaMemcpy(d_link_A, link_A, sizeof(float) * cdim * 16, cudaMemcpyHostToDevice);
+    cudaMemcpy(d_T, T, sizeof(double) * N * 16, cudaMemcpyHostToDevice);
+    cudaMemcpy(d_tool, tool, sizeof(double) * N * 16, cudaMemcpyHostToDevice);
+    cudaMemcpy(d_etool, etool, sizeof(double) * N * 16, cudaMemcpyHostToDevice);
+    cudaMemcpy(d_link_A, link_A, sizeof(double) * cdim * 16, cudaMemcpyHostToDevice);
     cudaMemcpy(d_link_axes, link_axes, sizeof(int) * cdim, cudaMemcpyHostToDevice);
     cudaMemcpy(d_link_isjoint, link_isjoint, sizeof(int) * cdim, cudaMemcpyHostToDevice);
-    cudaMemcpy(d_out, out, sizeof(float) * 6 * cdim, cudaMemcpyHostToDevice);
+    cudaMemcpy(d_out, out, sizeof(double) * 6 * cdim, cudaMemcpyHostToDevice);
 
 
     int block_size = 256;
@@ -390,7 +393,10 @@ void jacob0(float *T,
                                       cdim,
                                       d_out);
 
-    cudaMemcpy(out, d_out, sizeof(float) * 6 * cdim, cudaMemcpyDeviceToHost);
+    // memset(out, 1, N * 6 * cdim);
+    // out[0] = 1;
+    cudaMemcpy(out, d_out, sizeof(double) * 6 * cdim, cudaMemcpyDeviceToHost);
+    printf("Out size %d %d %f %f %f %f %f", N, cdim, out[0], out[1], out[2], out[3], out[4]);
 
     // Deallocate device memory
     cudaFree(d_T);
@@ -400,4 +406,7 @@ void jacob0(float *T,
     cudaFree(d_link_axes);
     cudaFree(d_link_isjoint);
     cudaFree(d_out);
-}
+}
+
+
+}//extern "C"
@@ -239,7 +239,125 @@ def get_link_cost(robot, meshes, link, num=-1, parallel=True):
     """
     vertice_xyz = get_vertices_xyz(robot, meshes, link, num, parallel)
 
+def test_parallel():
+    robot = rtb.models.DH.Panda() # load Mesh version (for collisions)
+    T = robot.fkine(robot.qz)  # forward kinematics
+    T = SE3(0.7, 0.2, 0.1) * SE3.OA([0, 1, 0], [0, 0, -1])
+    sol = robot.ikine_LM(T)         # solve IK
+    q_pickup = sol.q
+    qtraj = rtb.jtraj(robot.qz, q_pickup, 50)
+    robot = rtb.models.URDF.Panda()  # load URDF version of the Panda
+    meshes = {}
+    for link in robot.links:
+        if len(link.geometry) != 1:
+            print(len(link.geometry))
+            continue
+        kwargs = trimesh.exchange.dae.load_collada(link.geometry[0].filename)
+        # kwargs = trimesh.exchange.dae.load_collada(filename)
+        mesh = trimesh.exchange.load.load_kwargs(kwargs)
+        meshes[link.name] = mesh.dump(concatenate=True)
+        print(link.name, mesh)
+
+    # Hyperparameters
+    dt = 1
+    nq = 50
+    lmbda = 1000
+    eta = 1000
+    iters = 4
+    num_pts = 5
+
+
+    # Make cost field, starting & end points
+    cdim = len(qtraj.q[0])
+    xidim = cdim * nq
+    AA = np.zeros((xidim, xidim))
+    xi = np.zeros(xidim)
+    robot._set_link_fk(qtraj.q[1])
+
+    link = robot.links[-2]
+    k = link.jindex
+
+
+    link_base = robot.fkine(robot.q, end=link) # x_current, (4, 4)
+    # Non-parallel, use for loop
+    mesh = meshes[link.name]
+
+    # for j in range(num_pts): 
+    #     # For each point: compute Jacobian, compute cost, compute cost gradient
+
+    #     pt_rel = mesh.vertices[j]
+    #     pt_tool = link_base @ SE3(pt_rel)
+    #     pt_pos = pt_tool.t
+
+    #     JJ = robot.jacob0(qt, end=link, tool=SE3(pt_rel)) # (k, 6)                
+    #     import pdb; pdb.set_trace()
+    #     xd = JJ.dot(qd[:k+1]) # x_delta
+    #     vel = np.linalg.norm(xd)
+ 
+    #     xdn = xd / (vel + 1e-3) # speed normalized
+    #     xdd = JJ.dot(xidd[cdim * i: cdim * i + k + 1]) # second derivative of xi
+    #     prj = np.eye(6) - xdn[:, None].dot(xdn[:, None].T) # curvature vector (6, 6)
+    #     kappa = (prj.dot(xdd) / (vel ** 2 + 1e-3)) # (6,)
+
+    #     cost = np.sum(pt_pos)
+    #     total_cost += cost / num_pts
+    #     # delta := negative gradient of obstacle cost in work space, (6, cdim) 
+    #     delta = -1 * np.concatenate([[1, 1, 0], np.zeros(3)])
+    #     # for link in robot.links:
+    #     #     cost = get_link_cost(robot, meshes, link)
+    #     delta_nabla_obs += JJ.T.dot(vel).dot(prj.dot(delta) - cost * kappa)
+    
+    # nabla_obs[cdim * i: cdim * i + k + 1] += (delta_nabla_obs / num_pts)
+    # Parallel, use cuda
+
+    fknm_=np.ctypeslib.load_library('roboticstoolbox/cuda/fknm','.')
+    import ctypes as ct
+    pts = np.array(meshes[link.name].vertices[:num_pts])
+    e_pts = np.zeros((num_pts, 3))
+    pts_tool = np.array(SE3(pts).A)
+    pts_etool = np.array(SE3(e_pts).A)
+    
+    link_As = []
+    link_axes = []
+    for link in robot.links:
+        link_As.append(link.A().A)
+        axis = None
+        if not link.isjoint:
+            axis = -1
+        elif link._v.axis == "Rx":
+            axis = 0
+        elif link._v.axis == "Ry":
+            axis = 1
+        elif link._v.axis == "Rz":
+            axis = 2
+        elif link._v.axis == "tx":
+            axis = 3
+        elif link._v.axis == "ty":
+            axis = 4
+        elif link._v.axis == "tz":
+            axis = 5
+        else:
+            raise NotImplementedError
+        link_axes.append(axis)
+    link_As = np.array(link_As)
+    link_axes = np.array(link_axes, dtype=int)
+    link_isjoint = np.array([l.isjoint for l in robot.links], dtype=int)
+    jacob_out = np.ones((num_pts, 6, cdim))
+
+    fknm_.jacob0(pts.ctypes.data_as(ct.c_void_p),
+                 pts_tool.ctypes.data_as(ct.c_void_p),
+                 pts_etool.ctypes.data_as(ct.c_void_p),
+                 # link_As.ctypes.data_as(ct.c_void_p),
+                 ct.c_void_p(link_As.ctypes.data),
+                 link_axes.ctypes.data_as(ct.c_void_p),
+                 link_isjoint.ctypes.data_as(ct.c_void_p),
+                 ct.c_int(num_pts),
+                 ct.c_int(len(robot.links)),
+                 jacob_out.ctypes.data_as(ct.c_void_p))
+    print(jacob_out)
+    import pdb; pdb.set_trace()
 
 
 if __name__ == "__main__":
-    chomp()
+    # chomp()
+    test_parallel()