Ed Witten came to do some business, with the big trafo on his hip.

A few weks ago I posted this tweet

Even if that could be said about a number of Witten’s papers, the one I was referring to in particular is his 1982 «An SU(2) anomaly». I was introduced to it not so long ago, during a course on anomalies which I am following, and found it so interesting that I felt like I needed to share it. The paper itself is a work of art. It has everything, from physical intuition to a wide range of mathematical ideas and concepts which are masterfully sewn together. So, strap on, because I am about to deliver a (probably mediocre) recollection of the aforementioned paper, with some heuristic explanations and some fangirling sprinkled throughout.

The key concept which Witten introduces, and which makes this paper so important, is that of global anomalies. For those unfamiliar, an anomaly occurs when a symmetry displayed by a classical system is broken upon quantization. When this happens to non-gauge symmetries, it merely indicates that the symmetry is somehow unphysical, and an artifact of the classical treatment of the theory. However, when it happens to a gauge symmetry, it’s nothing short of a catastrophe, which indicates that our theory as a whole is inconsistent. This is due to the fact that gauge symmetries are not really symmetries in the usual sense, but rather redundancies in our description of a theory which are of great physical relevance, and have very real physical consequences.

Apart from gauge and non-gauge anomalies, there is one further classification which is absolutely key in setting up the stage for Witten’s paper. Symmetry transformations are encoded into group actions. Oftentimes, they are given by Lie groups, on which there is a notion of (path) connectedness. We therefore make the distinction between transformations which are connected to the identity element, and those which are not. For the former, we can follow a perturbative approach, by expanding the transformation near the identity element and using our fancy Lie algebra machinery. However, this cannot be done for the latter. This is indeed a problem, since both types of transformations are perfectly capable of developing anomalies upon quantization, but our techniques are only sensitive to anomalies coming from transformations which are connected to the identity. We call these perturbative anomalies, whereas the remaining ones are known as global anomalies. Because of the seminal paper which we are about to discuss, they are also sometimes called Witten anomalies.

Without further ado, let’s see what these global anomalies are all about. The setup is that of a gauge theory in d=4, where the gauge group is SU(2), and the theory contains n Weyl (chiral) fermions in the fundamental (often denoted by \mathbf{2}) representation on SU(2) in Euclidean signature. To understand how a gauge anomaly may develop, we need to look closely at the gauge transformations themselves. At the mathematical level, the action of choosing a gauge is the same as choosing a section s: \mathcal{M}\to P on a principal fiber bundle \pi: P\to \mathcal{M}, with \mathcal{M} being our base space (in this case Euclidean four-space \mathbb{R}^4), and P the principal fiber bundle that sits on top, with structure group G=SU(2), A gauge transformation is then a map that takes us from one section to another. Because each fiber \pi^{-1}(x) is homeomorphic to the gauge group G, and hence the transition functions are themselves elements of G, then a gauge transformation (in our particular setup) is nothing but a map

\centering \lambda: \mathbb{R}^4\to SU(2)

Furthermore, we will consider gauge transformations that fall off at infinity, which means that

\lambda(x)\to \mathbf{1} for |x|\to \infty

This last condition allows us to identify (at the level of the gauge transformation) all points at infinity to a single one, a one-point compactification. Hence, this defines a map

\frac{\mathbb{R}^4}{\{p_{\infty}\}}\simeq \mathbb{S}^4\to G

This is a key point of the argument, because maps of \mathbb{S}^n into a generic topological space X are precisely what define the homotopy groups \pi_n(X) of said space. In particular, if we use that as a manifold SU(2)\simeq \mathbb{S}^3, we have that the relevant homotopy group for the above gauge transformations is nontrivial, and given by

\pi_4(SU(2))=\mathbb{Z}_2

This tells us that gauge transformations in this setup are classified into two distinct homotopy classes. In particular, maps that belong to one of the classes cannot be continuously deformed to maps in the other class. Because the identity element can only belong to one of the classes, we are led to the conclusion that there are some gauge transformations that cannot be deformed into the identity, and thus cannot be treated perturbatively.

All of the above may sound like abstract nonsense, so it would be of use to come up with some (rather crude) mental picture of the situation. We have said that mathematically, a choice of gauge is a choice of section from the base manifold \mathcal{M} to the principal bundle P sitting «on top» of it. Thus, a gauge transformation is a map that takes us from one choice of section to another. If such a transformation can be deformed to the identity, we would picture this as if the two sections that it connects could be deformed to one another. An obstruction to this would be if the principal bundle P had more than one connected component. All in all, we imagine the situation as follows:

This is a (rather very crude and possibly flawed) way of visualizing the situation. In this case, we have three sections (or gauge choices), labelled s_i. Two of them, s_1 and s_2 can be continuously deformed into one another, and therefore the gauge transformation which would take us from (say) s_1 to $s_2$ can be deformed to the identity. This is to say that this transformation is homotopic to, or in the same homotopy class as, the identity. However, this is not true for s_3, which cannot be deformed into either s_1 or s_2, as they live in different connected components. Therefore, transformations that take us from one component to the other cannot be deformed to the identity. This mental picture illustrates the main consequence of the fact that \pi_4(SU(2))=\mathbb{Z}_2. Let \lambda be some gauge transformation which is not connected to the identity. Then, for each gauge configuration (or, strictly speaking, choice of connection) A_{\mu}, there is a gauge equivalent connection given by

A_{\mu}^{\lambda}=\lambda^{-1} A_{\mu}\lambda-i\lambda^{-1} \partial_{\mu}\lambda

which appears at the level of the (Euclidean) path integral

\int \mathcal{D}A_{\mu} \exp\left[-\frac{1}{2g^2}\int d^4 x \text{tr}\left(F_{\mu\nu}F^{\mu\nu}\right)\right]

Because the path integral runs over all possible connections, there is a double counting: for each A_{\mu} we also have to count A_{\mu}^{\lambda}.

Now, to make things interesting, suppose that we include fermions into the picture. In particular, we will include a single Weyl (chiral) fermion. »Why so?», you might ask. If you are not familiar with gauge anomalies, the answer is, at a surface level, quite straightforward: Gauge fields couple in equal and opposite ways to left- and right- handed fermions (provided they are of the same species), and it turns out that the anomalous variation of the former exactly cancels the anomalous variation of the latter. Thus, a theory which contains Dirac fermions, which can be each decomposed as the combination of a left- and a right- handed fermion, will always be anomaly free. In a more direct way, Dirac fermions admit a mass term, and thus a choice of gauge invariant (Pauli-Villars) regulator, defined in terms of said term. In summary, we want to add an uneven amount of left- and right- handed fermions. Because that can always be reduced to a sum of cases in which there is one chiral fermion, we will only add one chiral fermion.

After this fermion-adding discussion, we would like to integrate out all matter, to leave the partition function (path integral) such that it only depends on the connection A_{\mu}. This integrating out essentially means that we need to perform the path integral over the fermionic fields. Usually, for a Dirac fermion, what we get is the following functional determinant:

\int \mathcal{D}\psi\mathcal{D}\overline{\psi}e^{\int d^4x\overline{\psi}\not{D}\psi}=\det \left(iD\!\!\!\!/\right).

If we instead consider a single Weyl fermion, we run over half of the modes, and hence the result is

\int \mathcal{D}\psi\mathcal{D}\overline{\psi}e^{\int d^4x\overline{\psi}\not{D}\psi}=\sqrt{\det \left(iD\!\!\!\!/\right)},

and because of this square root, there is a potential sign ambiguity in the paritition function.

Suppose we make a particular choice of A_{\mu}, and assign to it some sign for \sqrt{\det \left(iD\!\!\!\!/\right)}. Because it is a sign, it is discrete, and therefore invariant under infinitessimal (continuous) gauge transformations. In turn, this implies that it will be the same in each of the individual SU(2) components. However, it may not be the same between the two of them. Namely, it may change under \lambda, which was the transformation that took us from one component to the other. If that were to be the case, we would have

\sqrt{\det \left(iD\!\!\!\!/\left(A_{\mu}\right)\right)}=-\sqrt{\det \left(iD\!\!\!\!/\left(A_{\mu}^{\lambda}\right)\right)}

This is a phase appearing on the (supposedly gauge-invariant) partition function under a gauge transformation: an Anomaly. But it gets worse! Since each A_{\mu} has one counterpart in the other component of the gauge group given by A_{\mu}^{\lambda}, each contribution from the former to the partition function gets cancelled by the latter, and in the end the whole

Z[A_{\mu}]=\int \mathcal{D}A_{\mu}\det\left(iD\!\!\!\!/\left(A_{\mu}\right)\right)\exp\left[-\frac{1}{2g^2}\int d^4x \text{tr}\left(F_{\mu\nu}F^{\mu\nu}\right)\right]

vanishes identically. This is a catastrophe! Without a partition function we cannot even define expectation values, and we conclude that the theory would be ill defined. This is the famous global SU(2) anomaly.

Up to here, our task is only halfway done, because we still have to check that the above sign ambiguity does indeed happen. In here lies a big portion of the brilliance of Witten’s original paper, and also the germ for a later, more modern generalization of global anomalies, of which I will (if my laughably short attention span permits) write more in the future. What follows will be somewhat more technical than the setup of the anomaly, and I do not claim to be an expert in some of the things which I will mention. Therefore, some of the explanations will either be incredibly subpar or simply nonexistent. To be fair, I am not actually an expert on anything, so everything is okay.

To make our lives somewhat easier, we will take spacetime to be a 4-sphere (whereas up to now we had only identified it to be so at the level of gauge transformations). This implies that the Dirac operator has real eigenvalues, as well as a choice of real regulator. Furthermore, we assume that iD\!\!\!\!/ has no zero modes (i.e. zero eigenvalues). Otherwise the sign difference between the two components of the gauge group would not matter, as the equation would be 0=0. As we said before, for our present choices, the eigenvalues of iD\!\!\!\!/ are real, but we further have that for each eigenvalue k, there is another eigenvalue -k, since

iD\!\!\!\!/\psi=k\psi \Longrightarrow iD\!\!\!\!/(\gamma^5\psi)=-\gamma^5iD\!\!\!\!/(\psi)=-k(\gamma^5\psi).

Here we have used that \psi is a Weyl spinor, and therefore an eigenvector of $\gamma^5$ itself, and that $\gamma^5$ anti-commutes with $\gamma^{\mu}$. We conclude that, because every eigenvalue comes in a pair (k,-k), and each sign is associated with one chirality, \sqrt{\det \left(iD\!\!\!\!/\left(A_{\mu}\right)\right)} is a product over half of the eigenvalues. That is, for each k, we pick one sign out of (k,-k), and chug it in the product.

Because of the above discussion, we have the freedom of choosing a sign for each eigenvalue for a particular configuration. Again, to make our life easier, we choose all positive k for some A_{\mu}. Now, we define a continuous map between the two (which we could understand as a homotopy) as follows

A^t_{\mu}=(1-t)A_{\mu}+tA_{\mu}^{\lambda} \hspace{1cm} t\in[0,1]

While this is of course possible (we have just done it), note that only the initial and final gauge configuration are gauge equivalent. This is not necessarily the case for any intermediate value of t. In fact, this is precisely where the magic happens. Since the initial and final configurations are gauge equivalent, they must give rise to the same eigenvalues of iD\!\!\!\!/, which have to match between the two. However, the intermediate configurations are no man’s land, where anything (that respects the Geneva conventions) can happen. The situation may be visualized as follows

Not only can the eigenvalues reshuffle among themselves, but we will in fact show that it is the case that there is an odd number of crossings between them, which will give rise to the anomaly. The way in which Witten does it is simply brilliant.

To show that the anomaly does take place, we will increase the dimension by 1, and work in five-dimensional space. We do this in order to make use of a result of one of the famous Atiyah-Singer index theorems, in particular the so-called «mod 2 index theorem». To set the stage up, consider SU(2) gauge theory in 5 dimensions with a doublet of fermions which obey the Dirac equation:

iD\!\!\!\!/^{(5)}\Psi=\sum_{i=1}^{5}\gamma^i\left(\partial_i+\sum_{a=1}^3A_i^aT^a\right)\Psi=0

Now strap on because here come a bunch of representation theory facts which I have not checked nor understand pretty well myself. We will have to trust Witten on this one. The spinor \Psi transforms first as the spinor representation of O(5) (namely \text{Spin}(5), the double cover of $SO(5)$), which is pseudo-real, and secondly as an SU(2) doublet, which is also pseudo-real. Here, pseudo-real means that a representation and its conjugate are related by a unitary matrix, as opposed to a real representation, where the matrix is in particular the identity, or a complex representation, where the representation and its conjugate are not equivalent. In any case, while these representations are pseudo-real on their own, their tensor product is in fact real, so this allows us to choose the \gamma^i matrices to be real and symmetric 8\times 8 matrices. On the other hand, the infinitesimal generators T^a of $SU(2)$ are taken to be real, anti-symmetric matrices. These two facts combine to make iD\!\!\!\!/^{(5)} a real, antisymmetric operator acting on an infinite dimensional space of functions. The eigenvalues of an operator with these characteristics are either 0 or come in conjugate pairs (\xi, \overline{\xi}).

The big conclusion to take away from the previous paragraph is that, if we vary the A_{\mu}^{(5)} which defines iD\!\!\!\!/^{(5)} (not to be confused with the A_{\mu} from a few paragraphs back, which was four dimensional), only two things can happen: Either a pair of conjugate eigenvalues «annihilate» and become 0, or a pair of two (previously 0) eigenvalues become a nonzero pair (\xi, \overline{\xi}). As a consequence, the number of zero eigenvalues of iD\!\!\!\!/^{(5)} mod 2 is conserved, which leads us to interpret them as topological invariants. This is precisely the mod 2 index of the Dirac operator.

So, how do we use this information for the task at hand? Witten’s idea was to consider \mathbb{S}^4\times \mathbb{R} as a background, with coordinates (x^{\mu}, \tau), with \mu=1,\ldots, 4. This seems a priori very logical, since it contains both our original four-dimensional background \mathbb{S}^4, plus some additional parameter living in the real line. Here is a mental picture:

Admittedly, I should have drawn it like a straight cylinder, but this has a reason which will hopefully become apparent at the end of the post. On this space, we define the following gauge configuration:

A_{\tau}=0 \hspace{0.1cm} \forall \ x^{\mu},  \tau; \hspace{0.5cm} A_{\mu}^{(5)}(\tau\to-\infty)=A_{\mu} \ (\text{in } 4d); \hspace{0.85cm} A_{\mu}^{(5)}(\tau\to \infty)=A_{\mu}^{\lambda} \ (\text{in } 4d)

Essentially, \tau plays more or less the same role as the parameter t from a few paragraphs ago, which connected both gauge configurations. The crucial difference is that this setup allows us to use the Atiyah-Singer index theorem. Upon doing so, we obtain that with the above configuration, the mod 2 index of iD\!\!\!\!/^{(5)} is 1. In other words, the Dirac operator in five dimensions in this case has an odd number of zero modes. We will now see that these zero modes are related to the crossings in four dimensions.

Now that we know that iD\!\!\!\!/^{(5)} has an odd number of zero modes, let us investigate them further. For each zero mode, we have that

iD\!\!\!\!/^{(5)}\Psi=0 \Leftrightarrow \displaystyle{\frac{d\Psi}{d\tau}=-\gamma^{\tau}}D\!\!\!\!/^{(4)}\Psi

If we interpret \tau as a sort of time parameter, this is an evolution equation whose source term is governed by the (four-dimensional) Dirac operator. Furthermore, because \tau varies over all of \mathbb{R}, we make the evolution as slow as possible, which allows us to work in the so-called adiabatic approximation. In it, we assume that this evolution is slow enough so that, if the system is initially defined by some eigenstate (and there is a gap between eigenstates), then it will stay in said eigenstate for the whole evolution. First we perform a variable split (which is a common technique in PDE theory) by writing

\Psi(x^{\mu},\tau)=F(\tau)\varphi^{\tau}(x^{\mu}).

There is still a notion of a \tau dependence on \varphi^{\tau}(x^{\mu}), because we for each value of \tau we take it to be a smoothly evolving solution to the eigenvalue equation

\gamma^{\tau}D\!\!\!\!/^{(4)}\varphi^{\tau}(x^{\mu})=\kappa(\tau)\varphi^{\tau}(x^{\mu})

which, again, is defined for each \tau. Now, the adiabatic variation of the system in \tau, allows us to assume that the eigenfunctions above will always have the same eigenvalues \kappa(\tau) associated to them. The subtlety is that this does not mean that the eigenvalues themselves cannot change (and, in fact, they will change), but rather that they will do so while still being defined by the same eigenfunction. In other words, they will evolve in the curves which we plotted in the last schematic figure above. To see the particular way in which these eigenvalues evolve, we use the ansatz above to rewrite the zero-mode equation as

\displaystyle{\frac{dF}{d\tau}=-\kappa(\tau)F(\tau)}

As you might know from your undergraduate days, this ODE is solved by

\displaystyle{F(\tau)=F(0)\exp\left(-\int_0^{\tau}ds \ \kappa(s)\right)}

And, now for the grand reveal: this solution is only normalizable if \kappa is positive for \tau\to\infty and negative for \tau\to-\infty. Tracing the definition of this eigenvalue back, this translates to the fact that for each 0 eigenvalue of iD\!\!\!\!/^{(5)}, we get a zero-crossing of an eigenvalue of iD\!\!\!\!/^{(4)}, and vice-versa. Because of the Atiyah-Singer index theorem, we conclude that iD\!\!\!\!/^{(4)} has an odd number of zero-crosings, and finally that the SU(2) anomaly does indeed take place.

I know that this post was maybe way too long (and I appreciate it if you stuck through!), so this might call for a small recap and summary of what we have seen, before the closing paragraph. At the beginning, we discussed the difference between perturbative and global anomalies. The latter of the two are those related to anomalies which cannot be connected or deformed to the identity, but can still develop anomalies. Because of our inability to expand these transformations perturbatively, we required new methods for studying them. In particular, we saw that if G=SU(2), a theory with one Weyl fermion could develop one such global anomaly. After that, we translated the existence of said anomaly to a change of sign in the square root of the functional determinant of the (four-dimensional) Dirac operator. In turn, this led us to consider the amount of its eigenvalues which changed from positive to negative. To study them, Witten proposed jumping one dimension up, and using the Atiyah-Singer index theorem to deduce that in five dimensions, the Dirac operator possessed an odd number of zero modes. The argument was complete when we discovered that these zero modes were in one-to-one correspondence with the zero-crossings of the four-dimensional Dirac operator.

Many years have passed since the publication of Witten´s groundbreaking paper. The world still had to wait for another 19 years for the release of Shrek, the event that still gives hope to a lot of young students around the world, such as myself. In the meantime, people have applied and expanded on these ideas, in ways in which either ecape me or I cannot summarize in this paragraph. There is, however, one of these generalizations which I would like to touch on in the future. You would have noticed that, in order to study a four-dimensional anomaly, we resorted to a five-dimensional setup. If you have seen perturbative anomalies before, you might know that the most natural way to treat them is by means of the anomaly polynomial, which is defined in two dimensions more than the original theory (i.e. for 4d we would have defined the polynomial in 6d). This is another manifestation of the difference between global and local anomalies. Now, I would like to draw your attention to the particular five-dimensional setup which we have used. We could understand it as a cylinder, whose two bases are the original (four-dimensional) manifolds which we had as backgrounds for our theory. The choice of having a cylinder was taken out of convenience, but we could think of other, more esoteric manifolds which somehow connect our backgrounds. For example, we could try punching holes in the middle, or modifying its topology in other ways. Fortunately, our mathematician friends had already been working on exactly this kind of idea for a few decades: they called them cobordisms. Given two (closed and compact) d-dimensional manifolds \mathcal{M} and \mathcal{N}, a cobordism (or bordism) bewteen them is a (d+1)-manifold, which has \mathcal{M} and \mathcal{N} as its boundary. The introduction of cobordisms into the mix led people to what is now known as Dai-Freed anomalies, and also their usage in other contexts, such as topological quantum field theories, or quantum gravity conjectures. If time allows, this will hopefully be one of the next topics of a future post, as it is also related to the kind of research that I currently find myself into.

La luz es geometría: se pronuncia «gueich»

Hoy voy a dedicar la primera entrada del blog a dar una pequeña introducción a un tema que considero tan interesante como útil: la descripción matemática de las teorías gauge. No pretendo con ello presentar un tratado sistemático y detallado Más bien se trata de una pequeña reformulación de unas ideas <<básicas>> que en su día me parecieron profundamente interesantes y constituyeron un pequeño cambio de paradigma en mi cabeza. He escrito <<básicas>>, entre comillas, porque el punto de partida del desarrollo presupone unos ciertos conocimientos sobre teoría clásica de campos (en especial, la formulación covariante del electromagnetismo). Advierto ya de primeras que es altamente probable que se me vaya la mano escribiendo, pero espero que la lectura no se haga bola.

Comencemos por el principio: ¿Qué demonios es una teoría gauge? De forma lo más general posible, podríamos definir una teoría gauge como una teoría que describe un sistema con grados de libertad redundantes. Es decir, simple y llanamente, información que nos sobra. Por ejemplo, en la teoría del electromagnetismo que hoy nos incumbe, el campo con el que describimos un fotón es A_{\mu}(x), un 4-vector. No obstante, si habéis sido obligados por vuestras respectivas universidades a tragaros más ECTS de óptica de los que os gustaría admitir, sabréis que un fotón puede describirse empleando dos ejes de polarización. Por lo tanto, hay dos componentes (mejor dicho, grados de libertad) de A_{\mu}(x) que sobran. Esto es una cosa que quiero que cale bien: las <<simetrías>> gauge no son realmente simetrías al uso, sino transformaciones que conectan configuraciones equivalentes del sistema que estamos estudiando. En ambos casos, la acción ha de ser invariante bajo dichas transformaciones, pero la diferencia es algo más sutil. Más adelante explicaré en detalle por qué para el electromagnetismo esto tiene sentido. En principio, puede parecer que al plantear una teoría que tenga en cuenta estas equivalencias (o ambiguedades, como quiera verse), lo único que estamos haciendo es <<tirar grados de libertad por la borda>>, pero la realidad es muy distinta. Resulta que la manera en la que se dan estas equivalencias determina en gran manera los resultados físicos de nuestra teoría. Claro ejemplo de ello es el comportamiento tan distinto de la electrodinámica cuántica (QED) y las teorías de Yang-Mills. En esta entrada (por brevedad), repasaremos la primera, y la reformularemos de tal manera que la segunda sea una generalización directa. Como nota final, cabe destacar que otro ejemplo de una teoría gauge es la Relatividad General, en la que las reparametrizaciones de las coordenadas con las que describimos el sistema juegan el papel de las transformaciones gauge.

Pues bien, metámonos en harina. Nos centraremos primero en QED (aunque no nos será necesario hacer un tratamiento cuántico), la teoría gauge por antonomasia. En aras de una cierta completitud, y para dejar claro el cambio de perspectiva sobre la misma cosa, resumiremos muy brevemente la introducción estándar (y de miras muy estrechas) a esta teoría. En primer lugar, supongamos que hemos definido el electromagnetismo de forma covariante. Es decir, tenemos definidos el 4-vector A_{\mu}(x)=(\varphi(x), A_1(x), A_2(x), A_3(x)) (si somos matemáticamente exqusitos, esto es realmente, y de forma natural, un co-vector), el tensor (a efectos de la explicación entendido como una matriz <<spicy>>) F_{\mu\nu}=\frac{1}{2}(\partial_{\mu}A_{\nu}-\partial_{\mu}A_{\nu}), y además tenemos una noción de algo a lo que llamamos transformación gauge, que transforma A_{\mu}(x) en A'_{\mu}(x)=A_{\mu}(x)+\partial_{\mu}(x)\alpha(x), y deja (como debe ser) invariante a F_{\mu\nu}. Finalmente, las ecuaciones de Maxwell, en todo su esplendor covariante, se reducen a \partial_{\mu}F^{\mu\nu}=0. Estas pueden ser obtenidas del siguiente lagrangiano:

\displaystyle\mathcal{L}_M=-\frac{1}{4}F_{\mu\nu}F^{\mu\nu}.

Una vez tenemos el electromagnetismo por un lado, consideramos por otro una teoría con un campo fermiónico masivo. El lagrangiano que gobierna uno de estos campos (salvo posibles virguerías) es

\displaystyle \mathcal{L}_D=\overline{\psi}(i\gamma^{\mu}\partial_{\mu}-m)\psi.

Debido a la aparición del conjugado (de Dirac), este es invariante bajo un cambio de fase global, es decir, una transformación \psi'(x)=e^{i\alpha}\psi(x), donde \alpha es una constante real. Ahora, por algún motivo, Dios sabe cuál, hacemos que \alpha pase a depender de las coordenadas espaciotemporales, de tal modo que \alpha=\alpha(x), y la transformación anterior pasa a ser un cambio de fase local. Esto nos induce ciertos problemas, ya que ahora, tras una de estas transformaciones, la derivada \partial_{\mu} produce un término extra, y el lagrangiano deja de ser invariante. Esto solo es una inconveniencia, pues resulta que lo último que se pierde es la invariancia, y si sustituimos \partial_{\mu} por D_{\mu}=\partial_{\mu}+ieA_{\mu}, operador al que llamamos derivada covariante, podemos compensar este término extra por una transformación gauge sobre A_{\mu}. Este paso es el que suele poner fin a la construcción del lagrangiano de la electrodinámica.

Personalmente, creo que este tipo de explicaciones hacen aguas por todos lados, y lo único que hacen es generar muchas más preguntas de las que resuelven. Antes de plantear otra introducción, y como buenas personas curiosas que somos, empecemos por identificar los puntos problemáticos. En primer lugar podemos preguntar el porqué de la necesidad de invariancia bajo transformaciones de fase locales. Pero es que esto no es lo peor, porque el requerimiento de esta invariancia abre la caja de Pandora de la incertidumbre. Resulta que a través de esta decisión aparentemente arbitraria, vemos que las transformaciones locales de fase están íntimamente relacionadas con las transformaciones gauge, aunque a priori sean cosas independientes. Si quisiésemos meter el dedo un poco más en la llaga, nos preguntaríamos por qué el operador que resuelve toda la cuestión de la invariancia se llama derivada covariante. ¿Cómo que covariante? ¿Las derivadas covariantes no eran las de Relatividad General? ¿Será que ambas cosas tienen algo que ver? Estas son el tipo de preguntas sobre las que trataré de arrojar algo de luz en lo que sigue.

Por conveniencia, delegaré la motivación de la invariancia de la teoría bajo la transformación \psi'(x)=e^{i\alpha(x)}\psi(x) para el final, y la tomaremos como punto de partida. Es decir, nos olvidamos del campo electromagnético por el momento, y nos centramos en construir una acción para una teoría de fermiones masivos que sea invariante bajo esta transformación. Con este campo, podemos escribir un <<término de masa>> sin problema alguno, ya que estos son de la forma general \sim m\overline{\psi}\psi. Ambas partes se transforman a la inversa tanto por cambios de fase globales como locales, y por lo tanto el término es invariante. El problema, como antes, viene cuando intentamos incluir términos dinámicos en la acción (algo que es deseable, si no queremos que nuestra teoría sea trivial), dado que contienen derivadas actuando sobre los campos. Merece la pena ponderar esto más allá del hecho de que <<hay una cosa más que depende de x y por lo tanto me sale un término más. En esencia, una derivada es una comparación de una función entre dos puntos que están infinitesimalmente cercanos el uno del otro (¡pero no son el mismo!). En nuestro caso, tendríamos

\displaystyle n^{\mu}\partial_{\mu}\psi(x)=\lim_{h\to 0}\frac{\psi(x+hn)-\psi(x)}{h},

siendo n^{\mu} un vector unitario que determina la dirección de la derivada. El problema fundamental es que este límite no está bien definido. Esto se debe a que los dos campos que estamos comparando se transforman de forma distinta bajo un cambio de fase local, ya que están evaluados en puntos distintos, y por lo tanto el límite depende de la fase local que escojamos. Este no es el caso si consideramos cambios de fase globales, que son independientes del punto en el que evaluemos el campo. Una manera sencilla de visualizar la situación es asumiendo que estamos trabajando en una sola dimensión espacial, y por tanto los campos \psi toman valores en la recta real. Como una fase está determinada (salvo periodicidad) por un ángulo, hay entonces una correspondencia entre fases y puntos sobre un círculo \mathbb{S}^1, y como sobre cada punto podemos tomar una elección de fase, nos podemos imaginar que sobre cada punto de nuestro espacio x\in\mathbb{R} colocamos una copia de \mathbb{S}^1. Esto hace que nuestro espacio total sea un cilindro como el de la figura

Vemos que <<abajo>> o, en términos más rigurosos (que no explicaré ahora), en la base del espacio, la derivada está perfectamente bien definida. Por contra, una vez implementamos la invariancia bajo cambios de fase locales, nos vamos <<arriba>> o, rigurosamente (por los mismos motivos que antes, que seguiré sin explicar), al espacio total, la derivada depende de la elección de fase que tomemos.

Pues bien, ya hemos identificado el problema. Esto, en física y en matemáticas suele ser el 75% del camino a la solución, y el resto suele dejarse como ejercicio al lector o al becario, dependiendo de la importancia del autor. Como yo no soy importante, cargaré también con el peso del 25% restante. Lo primero de lo que nos podemos dar cuenta es de que el problema de la mala definición de la derivada viene, de alguna manera, de la libertad que tenemos para colocar \psi(x), con x fijo, en cualquier punto de \mathbb{S}^1. Por contra, intuimos que la derivada estaría bien definida si, para cualquier transformación de fase, pudiésemos colocar los campos en distintos puntos <<a la misma altura>>. Dicho de otra manera, el problema de la derivada viene de la verticalidad en el espacio total, y desaparecería si pudiésemos imponer una cierta horizontalidad en el mismo. Para resolver este dilema, supongamos que podemos definir una cierta función W(x,y), que bajo un cambio de fase local se transformase como

W(x,y)\mapsto e^{i\alpha(x)}W(x,y)e^{-i\alpha(y)}.

Es sencillo ver por qué una transformación tan esotérica haría que tuviésemos una noción bien definida de derivada. Ahora podemos restar (comparar) dos valores del campo en distintos puntos, ya que bajo un cambio de fase local

\begin{aligned} \psi(x)-W(x,y)\psi(y) &\mapsto e^{i\alpha(x)}\psi(x)-e^{i\alpha(x)}W(x,y)e^{-i\alpha(y)}e^{i\alpha(y)}\psi(y) \\ &=e^{i\alpha(x)}\left[\psi(x)-W(x,y)\psi(y)\right]\end{aligned}.

Por lo tanto, las restas están definidas salvo un factor global (es decir, que multiplica a toda la expresión) de fase. Esto es fantástico, ya que en el lagrangiano dicha fase se cancelaría con el factor opuesto que viene de \overline{\psi}, lo cual nos dejaría en la misma situación que con el término de masa, y nos permitiría incluir un término con derivadas. En particular nos permitiría definir el operador D_{\mu} como sigue

\displaystyle n^{\mu}D_{\mu}\psi(x)=\lim_{h\to 0}\frac{\psi(x+hn)-W(x+hn, x)\psi(x)}{h}.

Llamamos a dicho operador la derivada covariante, y a la función W(x,y) una conexión.

«Todo esto está muy bien»-te escucho decir-«pero eso de la conexión te lo acabas de sacar de la manga, ¡estás haciendo lo que criticabas en la introducción! Eres un fraude que no tiene ni idea de lo que habla, un charlatán que nos tiene engañados a todos y probablemente no tengas ni un ápice de originalidad intelectual». Escucho tu frustración, es cierto que no he argumentado que tal conexión pueda existir. En matemáticas, este tipo de cosas suelen ir acompañadas de teoremas de existencia (y posiblemente unicidad, aunque no es el caso), de elevada dificultad técnica. No obstante, recurriré a la que posiblemente es la mejor clase de demostraciones de existencia: existe porque te lo puedo escribir. En efecto, para el caso que tenemos entre manos podemos dar una expresión explícita de la conexión como sigue

\displaystyle W(x,y)=\exp\left(ie\int^y_xdz^{\mu}A_{\mu}(z)\right).

Aunque no aparezca de forma explícita, la integral se define sobre un camino parametrizado por z^{\mu} que empieza en x y acaba en y. Finalmente, e es (por el momento) una constante arbitraria y real. Ahora queda por ver que esta cantidad se transforme exactamente como queremos. Ahora vemos que el uso de un vector, y más aún, la elección de llamarlo A_{\mu} no es para nada fortuito. Resulta que si hacemos la transformación A_{\mu}(z)\mapsto A_{\mu}+\partial_{\mu}\alpha(z), y aplicamos el teorema fundamental del cálculo, obtenemos precisamente la transformación que profetizamos más arriba. Es por esto que el requerimiento de construir una teoría invariante bajo cambios de fase locales requiere y produce un cierto vector que se transforma por lo que comúnmente llamamos transformación gauge. Nos damos cuenta de que ambas cosas son dos caras de la misma moneda, y por lo tanto a partir de ahora llamaremos a ambas del mismo modo.

Todavía quedan un par de cabos sueltos en todo esto, y resolveremos el primero ahora mismo. Si volvemos sobre la definición que dimos de derivada covariante, ahora armados con una expresión explícita de W(x,y), vemos que como los dos puntos sobre los que está evaluada la conexión están infinitesimalmente cerca, podemos hacer una expansión a primer orden, y obtenemos

W(x+hn,x)=1+iehn^{\mu}A_{\mu}(x)+\mathcal{O}(h^2).

Aquí hemos usado que W(x,x)=1, algo que podríamos haber deducido sin la necesidad de la fórmula explícita, y hemos aproximado el valor de la integral en un intervalo infinitesimal por la regla del trapecio (valor del integrando en un punto multiplicado por la longitud del intervalo). Si ahora sustituimos en la definición de la derivada, encontramos que toma una forma muy familiar:

D_{\mu}\psi(x)=\partial_{\mu}\psi(x)-ieA_{\mu}(x)\psi(x).

Cabe destacar que, de haber incluido términos de orden superior en h, se habrían cancelado. Además de recuperar una expresión conocida, nos da una intuición del papel que juega la constante e (que, en efecto, es la carga asociada a \psi). Esta tiene que ver con como se transforma el campo bajo transformaciones gauge. Dependiendo de cómo se transforme un campo, tendrá una carga u otra.

Estamos ya casi al final de esta discusión, pero hay algo muy crucial que todavía nos falta para completar la teoría. Para obtenerla, recurriremos a una analogía con la teoría de la relatividad general. Una de las cosas que se aprende en esta disciplina es que, cunado uno está trabajando con una variedad (geométricamente) curvada, el camino sí importa, y cúanto importa depende de lo curvada que esté la variedad. En particular, resulta que, si denotamos por \nabla_{\mu} la derivada covariante (geométrica), y por V^{\rho} un vector tangente a la variedad,

[\nabla_{\mu}, \nabla_{\nu}]V^{\rho}={R^{\rho}}_{\sigma\mu\nu}V^{\rho}.

El commutador de dos derivadas covariantes, que mide la diferencia entre el recorrido x\to\mu\to\nu y el x\to\nu\to\mu, viene precisamente dado por el tensor de Riemann, que mide la curvatura de la variedad. La pregunta lógica, dado todo lo que llevamos visto es, ¿qué pasa si en vez de derivadas covariantes geométricas hacemos el cálculo con derivadas covariantes gauge? ¿Qué nos dará la diferencia entre dos caminos en el espacio total?

La respuesta requiere solo una pequeña cuenta:

\begin{aligned} [D_{\mu},D_{\nu}]\psi&=[\partial_{\mu}, \partial_{\nu}]\psi-ie\left([\partial_{\mu}, A_{\nu}]+[A_{\mu}, \partial_{\nu}]\right)\psi-e^2[A_{\mu},A_{\nu}]\psi \\ &-ie(\partial_{\mu}A_{\nu}-\partial_{\nu}A_{\mu})\psi \\ &-ieF_{\mu\nu}\psi \end{aligned}.

Si lo anterior no te había sorprendido, esto seguro que lo ha hecho. Por lo menos a mí en su momento me dejó un poco boquiabierto. Resulta que este tensor que habíamos construido para describir el electromagnetismo surge naturalmente como curvatura asociada a una estructura gauge. Más aún, todo el electromagnetismo de Maxwell puede resumirse en que la función de onda del electrón es invariante gauge.

Además de haber recuperado el electromagnetismo por completo, esta nueva manera de ver las cosas nos invita a hacer una generalización de forma relativamente sencilla. Hasta ahora, habíamos considerado cambios de fase locales como transformaciones gauge. En el argot técnico, esto se expresa diciendo que <<el grupo gauge es U(1)>>. La generalización más directa es entonces cambiar este grupo gauge de rotaciones complejas de un número por otros grupos más complejos. En particular, podemos cambiar U(1)=SU(1) por SU(N), el grupo especial unitario en N dimensiones. Este es precisamente el primer paso en las teorías de Yang-Mills. Si el grupo U(1) describe la interacción electromagnética, el grupo SU(2) describe la fuerza débil, y el grupo $SU(3)$ la fuerte. Hay una serie de complicaciones técnicas que son necesarias para tratar con estas teorías (principalmente como consecuencia de que U(1) es un grupo abeliano, mientras que el resto no lo son), con lo que no discutiré más sobre este tema.

Antes de por fin rematar el post, trataré de explicar la raison d’être de la invariancia gauge. Hemos visto que imponer dicha invariancia sobre un campo fermiónico es precisamente lo que nos da dos cosas: a) una noción de carga y b) un campo mediador sin masa y que obedece las ecuaciones de Maxwell (o podemos hacer que lo haga de forma natural). Esto es importante, pues está a la base de la localidad de nuestra teoría (entendiendo localidad como no-violación de los principios de la relatividad especial). Supongamos que tenemos dos observadores en el espacio, llamémoslos Alice y Bob, moviéndose con velocidades distintas, y supongamos que, de repente, por arte de magia, aparece una carga (descrita por uno de nuestros \psi) en reposo con respecto a uno de Alice. Para que una carga pueda ser detectada, necesita interactuar con un aparato de medida, lo cual hace a través del campo A_{\mu}. Si este campo no se moviese a la velocidad de la luz, podríamos plantear una situación en la que Bob se moviese tan rápido que, antes de que le llegue la señal de la aparición de la partícula, a Alice le de tiempo a detectarla e informarle de su existencia. Esto es claramente incoherente con la conservación de la carga en un punto, y es en general una situación absurda. Por lo tanto, el campo mensajero ha de moverse a la velocidad de la luz y, como consecuencia de esto, necesariamente ha de carecer de masa.

La intolerable cantidad de ECTS que me he tragado de óptica me obliga a dar otra motivación a nivel de la propagación de la luz. Hemos visto que para que la teoría sea consistente, una transformación gauge sobre $\psi$ induce una transformación gauge sobre el campo asociado al fotón, A_{\mu}. Esta es necesaria, ya que A_{\mu} dispone de 4 componentes, pero es sabido (aunque hubiese preferido no saberlo tan bien), que la propagación del fotón se puede describir a través de dos ejes transversales de polarización. Justamente, se puede comprobar que mediante sucesivas transformaciones gauge sobre A_{\mu} podemos fijar dos de sus componentes, dejando únicamente los dos grados de libertad que son precisos para describir el fotón.

Como última nota, y para concluir el post, diré que todo lo que hemos visto hasta ahora se enmarca dentro de la teoría gauge matemática (mathematical gauge theory en inglés). En particular, hemos estado discutiendo versiones concretas y simples de conexiones en fibrados principales. Cabe destacar que la conexión y derivada covariante de la relatividad especial también cae dentro de esta disciplina. A lo largo de la explicación, he tratado de ser lo más honesto posible a la hora de nombrar los diferentes elementos, y orientar las interpretaciones y explicaciones de tal manera que, si uno se interesa más por este campo, las explicaciones más rigurosas y generales sean lo más naturales posibles.

Presentación

Bienvenido/a! Si no sabes muy bien cómo has acabado aquí, no te preocupes, ¡yo tampoco! RiemannSpace, además de ser el nombre que uso en todas mis redes, es ahora un pequeño proyecto de blog personal. La mayoría de lo que escribiré aquí tendrá que ver con la física y las matemáticas, e incluirá no solo textos a nivel académico, sino también contenido de divulgación para aquellos lectores que no estén iniciados en el bello arte de llorar sobre garabatos en un papel. No obstante, mi intención es darle un toque personal a todo ello, y no limitarme a ser un blog de divulgación. De hecho, entre mis objetivos está el de abrir una ventana a la experiencia de alguien que todavía está tratando de escalar a la copa del gran árbol de la ciencia, y tratar de desmitificar un poco la figura de científico promedio.

Todo efecto, por definición, viene precedido de una causa. En este caso, el motivo principal que me ha llevado a abrir este blog es que este año me embarco en la escritura de mi tesis de fin de máster. Sin meterme (todavía) en detalles sobre la misma, esto me permitirá explorar temas de lo más diversos, tanto en física como en matemáticas. Considero que no hay mejor manera de aprender que explicando, y explicar y escribir son cosas que siempre me ha gustado hacer. Por lo tanto, el único paso lógico era la apertura de este blog. Cierto es que podría haber intentado abrir un canal de YouTube, o algo por el estilo. El problema con esto es que soy una persona asquerosamente perfeccionista, y por el momento no tengo ni de lejos los medios o el tiempo para crear un proyecto que considere medianamente presentable. Ya tardo bastante en redactar un puñado de párrafos, como para encima tener que grabarme recitándolos (cosa que, además, me da un cierto repelús) y editarlo todo. Como argumento a favor del formato, diré que me siento más cómodo expresándome a través de la escritura. No solo es uno de mis favoritos, sino que además tengo mayor control sobre el producto que presento al lector (eso es, claro está, si es que alguien se digna a leerme).

De cualquier modo, dejando discusiones sobre el formato de lado, y como ya he dicho más arriba, no quiero limitarme a hacer divulgación. Quiero también arrojar un poco de luz sobre el proceso científico en el ámbito de la investigación, y además tener la libertad de hacer pequeños ensayos sobre temas que yo considere importantes. Estos últimos pueden ser de lo más variopintos, aunque tengo la sensación de que me voy a ceñir principalmente sobre la filosofía (principalmente de la ciencia) y la política.

En cuanto a la frecuencia con la que publicaré, he de decir que, conociéndome, no puedo prometer nada. Si he de sincerarme, llevo abriendo y cerrando esta presentación durante cosa de dos semanas. No sé muy bien en qué evolucionará todo esto, y por lo tanto me resulta muy difícil hacer una presentación concisa. Por ello es por lo que cuanto más la releo, peor me parece. De hecho, pediría a cualquiera que lea esto que no juzgase la calidad de lo que pueda publicar en el futuro por esta misma presentación.

En fin, espero que este barco llegue a buen puerto, y que pueda abrirme un poco de paso en el mundo de la divulgación. Tampoco busco mucho, solo poder transmitir algunas de las ideas que tengo a un conjunto no vacío de personas. Así que, si has llegado hasta aquí y te he convencido, espero que te quedes, y espero aún más que puedas sacar algo en claro de los párrafos mediocres que pueda escribir.