De una u otra manera tiene que haber una parte que prevalezca sobre otra. Es decir, si por ejemplo tienes audio de dialogo, textura con expresiones faciales y animación del personaje, una de esas tres debería funcionar como maestra.
En tal caso, la que decidas que funcione como maestra la usarás para sincronizar la siguiente parte con ella. Por ejemplo, si tienes una secuencia de audio con un dialogo, animarías las expresiones, según comentas en After Effects, en base a ese audio. En la siguiente fase, con el resultado de las secuencia animada, animarías en XSI el personaje. Para ello, puedes ayudarte el animation mixer, editor donde puedes cargar clips de audio, video y shapes.