Tout a été dit ou presque :

Les capteurs "classiques" (utilisés par canon/Nikon/sony/Pentax etc.) ont bien X millions de photosites qui correspond au millions de pixels annoncés, seulement, les photosites ont une seule composante R, V ou B selon la matrice de bayer sus cités, là où les pixels auront été traité par le boitier de manière à reconstituer une couleur RVB par pixel (interpolation sur les couleurs des photosites)

Petite digression sur l'utilité de la matrice de bayer :
Pourquoi n'est ce pas gênant d'avoir des composantes par couleur ? tout simplement car l'oeil humain est beaucoup plus sensible aux variations de luminosité (luminance) qu'aux détails des couleurs (chrominance)
De même, notre oeil est beaucoup plus sensible au vert, d'où 2 photosite vert pour un bleu et un rouge (si si, regardez la matrice exposée plus haut, vous comprendrez)

Enfin, il existe un autre type de capteur sans matrice de bayer : les Fovéons utilisés par Sigma (DP1 & 2, SD14), qui vont avoir trois couches de photosites superposés. On leur prête un meilleur rendu des couleurs, n'ayant pas testé par moi même (et n'étant pas intéressé par ces appareils très spécifiques), je ne saurais en dire plus.

Bref, photosite = Point de base de capture de lumière sur la capteur (1 composante par photosite)
pixel = point de base sur le fichier informatique (3 composantes par pixel)

Attention, quand on parle d'écran, on peut encore fausser l'information, on préfère souvent parler de point que de pixel, car là où le point considère un élément comme possédant les 3 composantes, le pixel, selon certains constructeur, va être la diode qui éclaire selon une seule composante (pour un pixel, il faut 3 diodes RVB)