Computational Linguistics, by Lucas Freitas

>> LUCAS FREITAS: Hey. Benvinguts tots. El meu nom és Lluc Freitas. Sóc un júnior a [inaudible] d'estudiar ciències de la computació amb un enfocament en lingüística computacional. Així que el meu secundària és en el llenguatge i la teoria lingüística. Estic molt emocionat d'ensenyar a nois una mica sobre el camp. És una zona molt interessant per estudiar. També amb molt potencial per al futur. Per tant, estic molt emocionada que vostès estan considerant projectes en lingüística computacional. I jo estaré més que feliç per assessorar algun de vostès si decideix perseguir un d'aquests. >> Així que en primer lloc quins són computacional la lingüística? Així que la lingüística computacional és el intersecció entre la lingüística i la ciències de la computació. Llavors, què és la lingüística? Què és la informàtica? Doncs des de la lingüística, la qual cosa prenem són els idiomes. Així que la lingüística és en realitat l'estudi del llenguatge natural en general. Així que el llenguatge natural - es parla de llenguatge que realment fem servir per comunicar-se entre si. Així que no estem parlant exactament sobre C o Java. Estem parlant més sobre Anglès i Xinès i altres idiomes que utilitzar per comunicar-se entre si. >> El difícil d'això és que en aquest moment tenim gairebé 7.000 idiomes en el món. Així que hi ha una molt alta diversitat d'idiomes que podem estudiar. I llavors vostè pensa que és probable que sigui molt difícil de fer, per exemple, traducció d'una llengua a l' altra, tenint en compte que vostè té gairebé 7.000 d'ells. Per tant, si vostè pensa de fer la traducció d'una llengua a l'altra que tenen gairebé més d'un milió diferents combinacions que pugui tenir d'un idioma a un altre. Així que és realment difícil de fer alguns tipus de sistema d'exemple de traducció per tots els idiomes. >> Per tant, la lingüística tracta amb la sintaxi, la semàntica, la pragmàtica. Vostès no necessiten exactament saber el que és. Però l'interessant és que com un parlant nadiu, quan s'aprèn llenguatge com a nen, en realitat s'aprèn totes aquestes coses - la semàntica de sintaxi i la pragmàtica - per si mateix. I ningú ha d'ensenyar sintaxi per a entendre com les oracions són estructurat. Així que és molt interessant perquè que és una cosa que ve molt intuïtivament. >> I el que portes de la ciència de la computació? Bé, la cosa més important que tenir en ciències de la computació és davant tot, la intel · ligència artificial i l'aprenentatge automàtic. Per tant, el que estem tractant de fer la lingüística computacional és ensenyar seu equip com fer alguna cosa amb el llenguatge. >> Així, per exemple, en la màquina traducció. Estic tractant d'ensenyar al meu equip com saber com fer la transició d'un idioma a un altre. Així que, com bàsicament l'ensenyament 01:00 informàtics dos idiomes. Si *** el processament del llenguatge natural, que és el cas per exemple de De Facebook Graph motor, ensenyar seu equip la manera d'entendre consultes així. >> Per tant, si vostè diu "les fotos del meu amics. "Facebook no tracta que com tota una cadena que té només un munt de paraules. En realitat, entén la relació entre les "fotos" i "els meus amics" i entén que les "fotos" són propietat de "els meus amics". >> Llavors, això és part de, per exemple, processament del llenguatge natural. Està tractant d'entendre el que és la relació entre les paraules en una oració. I la gran pregunta és, pot ensenyar a un ordinador com parlar un llenguatge en general? El que és una pregunta molt interessant pensar, com si potser en el futur, vostè serà capaç de parli amb el seu telèfon mòbil. Una cosa així com el que fem amb Siri, però una mica més semblant, en realitat es pot dir el que vulguis i el telèfon va a entendre tot. I pot tenir preguntes de seguiment i seguir parlant. Això és una cosa molt emocionant, al meu entendre. >> Per tant, una mica de les llengües naturals. Una cosa realment interessant d' llenguatges naturals és que, i això és crèdit al meu professor de lingüística, Maria Polinsky. Ella dóna un exemple i crec que és realment interessant. Perquè aprenem el llenguatge de quan naixem i després el nostre natiu tipus de llenguatge creix en nosaltres. >> I, bàsicament, a aprendre l'idioma de participació mínima, no? Vostè és només l'aportació de la seva els pares del que sona el seu idioma agrada i que acaba d'aprendre. Així, és interessant perquè si ens fixem en aquestes frases, per exemple. Mires: "Maria es posa una capa de cada vegada que surt de la casa ". >> En aquest cas, és possible tenir la paraula "ella" es refereixen a Maria, no? Vostè pot dir "Maria es posa una capa de cada vegada que Maria deixa la casa. ", pel que està bé. Però si ens fixem en la sentència "Ella es posa una capa cada vegada que Maria surt de la casa. "saps que és impossible dir que "ella" és referint-se a Maria. >> No hi ha manera de dir que "Maria posa en una capa cada vegada que Maria deixa la casa ". Així que és interessant perquè aquest és el tipus de la intuïció que cada parlant nadiu té. I a ningú se li va ensenyar que això és la forma en què funciona la sintaxi. I això només es pot tenir aquest "ella" referint-se a Maria en aquest primer cas, i en realitat en aquesta altra també, però no en aquest. Però tothom es posa tipus de a la mateixa resposta. Tots estan d'acord en això. Així que és realment interessant com tot vostè no sap totes les regles en el seu idioma quin tipus d'entendre com funciona l'idioma. >> Així que l'interessant de naturals llenguatge és que vostè no ha de conèixer qualsevol sintaxi per saber si una sentència és gramatical o gramatical per la majoria dels casos. Què et fa pensar que potser el que que passa és que a través de la seva vida, es tornen cada vegada més i més frases van dir a vostè. I després segueixes memorització totes les sentències. I després, quan algú et diu alguna cosa, s'escolta aquesta frase i ens fixem en el seu vocabulari de les sentències i veure si aquesta frase hi és. I si és que cal diuen que és gramatical. Si no és vostè diu que és ungrammatical. >> Així que, en aquest cas, vostè diria, oh, el que té una enorme llista de tots els possibles condemnes. I després, quan s'escolta una oració, vostè sap si és gramatical o no es basa en això. La cosa és que si ens fixem en una frase, per exemple, "El cinc caps CS50 TFS cuinat els cecs pop utilitzant una tassa DAPA. "És definitivament no és una sentència de que has escoltat abans. Però al mateix temps, vostè sap que és gairebé gramatical, oi? No hi ha errors gramaticals i es pot dir que és una possible sentència. >> Pel que ens fa pensar que en realitat l' manera com aprenem el llenguatge no és només per tenir una gran base de dades de possibles paraules o frases, però més de la comprensió de la relació entre paraules en aquestes frases. Això té sentit? Així, doncs, la pregunta és, pot ordinadors aprenen idiomes? Podem ensenyar el llenguatge de les computadores? >> Per tant, anem a pensar en la diferència entre un parlant nadiu de la llengua i un ordinador. Així que, què passa amb l'altaveu? Doncs bé, el parlant nadiu aprèn una el llenguatge de l'exposició a la mateixa. Normalment els seus primers anys d'infància. Així que, bàsicament, que acaba de tenir un ***ó, i segueixes parlant amb ella, i només aprèn a parlar el llenguatge, no? Així que, bàsicament estàs donant d'entrada per al ***ó. Així que, a continuació, es pot argumentar que un ordinador pot fer el mateix, oi? Vostè només pot donar idioma com a entrada per a l'ordinador. >> Com per exemple, un munt d'arxius que tenen els llibres en anglès. Potser aquesta és una manera que vostè possiblement podria ensenyar una ordinador Anglès, oi? I de fet, si es pensa en això, que et porta potser un parell dia per llegir un llibre. Per a un equip que es necessita un segon per veure totes les paraules en un llibre. Així que vostè pot pensar que pot tractar-se d'aquesta argument d'entrada del teu voltant, això no és suficient per dir que això és cosa que només els éssers humans poden fer. Vostè pot pensar en els ordinadors També pot obtenir l'entrada. >> La segona cosa és que els parlants nadius també tenen un cervell que té capacitat d'aprenentatge d'idiomes. Però si es pensa en això, un cervell és una cosa sòlida. Quan neixes, ja està establert - aquesta és la teva cervell. I a mesura que creixen, que acaba d'obtenir més entrada de la llengua i potser els nutrients i altres coses. Però més o menys el seu cervell és una cosa sòlida. >> Així que vostè pot dir, bé, potser vostè pot construir un equip que té un munt de funcions i mètodes que només imiten capacitat d'aprenentatge d'idiomes. Així que en aquest sentit, es podria dir, bé, pot tenir un equip que té tot el coses que he d'aprendre el llenguatge. I l'últim és que un nadiu parlant aprèn d'assaig i error. Així que, bàsicament, una altra cosa important en l'aprenentatge d'idiomes és quin tipus d'aprendre coses per fer generalitzacions del que se sent. >> Així com estàs creixent aprens que algunes paraules són més semblants als substantius, alguns altres són adjectius. I vostè no ha de tenir cap coneixement de la lingüística entendre això. Però vostè acaba de saber que hi ha algunes paraules estan col · locats en una part de la frase i alguns altres en una altra parts de l'oració. >> I que quan fas una cosa que és com una sentència que no és correcta - potser a causa d'una generalització sobre per exemple. Potser quan estàs creixent, t'adones que el plural és generalment format per posar en S al final de la paraula. I a continuació, intenta fer el plural "Cérvol" com "cérvols" o "dent" com "Tooths". Així que els teus pares o algú et corregeix i diu, no, el plural de "deer" és "cérvol", i el plural de "dent" és "dents". I després a aprendre aquestes coses. Així s'aprèn de prova i error. >> Però també es pot fer això amb un ordinador. Vostè pot tenir alguna cosa que es diu aprenentatge per reforç. La qual cosa és, bàsicament, com donar un equip una recompensa cada vegada que ho fa alguna cosa correctament. I donant-li el contrari d'una recompensa i quan fa alguna cosa malament. En realitat es pot veure que si vas el traductor de Google i s'intenta traduir una frase, li demana la seva opinió. Així que si vostè diu, oh, hi ha una millor traducció d'aquesta frase. Vostè pot escriure i després, si una gran quantitat de la gent segueix dient que és una millor traducció, només s'assabenta que ella que ha d'usar la traducció en lloc de el que estava donant. >> Així que, és una pregunta molt filosòfica per veure si els ordinadors seran capaç de parlar o no en el futur. Però tinc grans esperances que puguin només sobre la base d'aquests arguments. Però és només més d'un filosòfic qüestió. >> Així, mentre que els ordinadors encara no poden parlar, quines són les coses que podem fer? Algunes coses molt interessants són classificació de dades. Així, per exemple, que vostès saben que els serveis de correu electrònic fan, per exemple, el filtratge de correu brossa. Així que quan vostè rep spam, es tracta de filtrar a una altra caixa. Llavors, com ho fa? No és que l'ordinador només sap adreces de correu electrònic que envien spam. Així que està més basat en el contingut de el missatge, o potser el títol, o potser algun patró que vostè té. >> Així que, bàsicament, el que pots fer és aconseguir un gran quantitat de dades de missatges de correu electrònic que són spam, correus electrònics que no són spam i aprenen el tipus de patrons que té al els que són SPAM. I això és part del càlcul la lingüística. Es diu la classificació de dades. I de fet anem a veure un exemple que en les pròximes diapositives. >> La segona cosa és el llenguatge natural processament, que és el que el Gràfic Search està fent de deixar s'escriu una frase. I confia que entén el és el significat i dóna Ets un resultat millor. En realitat, si vostè va a Google o Bing i buscar alguna cosa com Lady Alçada de Gaga, en realitat està passant per obtenir 5 '1 "en lloc de la informació d'ella, ja que en realitat entén el que estàs parlant. Així que això és part dels recursos naturals el processament del llenguatge. >> O també quan s'utilitza Siri, primer vostè té un algoritme que intenta traduir el que dius en paraules, en el text. I llavors s'intenta traduir que en significat. Així que això és part dels recursos naturals el processament del llenguatge. >> Llavors vostè té la traducció automàtica - que és en realitat una dels meus favorits - que s'acaba de traduir del una llengua a l'altra. Així que vostè pot pensar que quan vostè està fent traducció automàtica, vostè té infinites possibilitats de sentències. Així que no hi ha manera de simplement emmagatzemar cada traducció individual. Així que has de pujar amb interessant algoritmes per poder traduir cada frase d'alguna manera. >> Vostès tenen alguna pregunta fins ara? No? D'acord. >> Així que el que anem a veure avui? En primer lloc, vaig a parlar de el problema de classificació. Així que el que jo estava dient d'spam. El que faré és, lletres donades una cançó, es pot tractar d'esbrinar amb alta probabilitat qui és el cantant? Anem a dir que no tinc cançons de Lady Gaga i Katy Perry, si et dono un nova cançó, pots esbrinar si és Katy Perry o Lady Gaga? >> La segona, que només parlaré sobre el problema de la segmentació. Així que no sé si vostès ho saben, però Xinès, japonès, un altre d'Àsia Oriental idiomes i altres llengües en general, no tenen espais entre les paraules. I després, si es pensa en la forma en què seva amable equip d'intents per entendre el processament del llenguatge natural, es veu en les paraules i tracta de comprendre les relacions entre ells, oi? Però llavors, si vostè té el xinès, i vostè té zero espais, és molt difícil esbrinar quina és la relació entre És a dir, pel fet que no tenen cap paraules a primera. Així que has de fer alguna cosa que es diu segmentació que només significa posar espais entre el que nosaltres anomenaríem paraules en aquests idiomes. Té sentit? >> I després anem a parlar de la sintaxi. Així que una mica sobre física el processament del llenguatge. Serà només un resum. Així que avui, bàsicament el que vull fer és donar-li nois una mica d'un dins del que són les possibilitats que vostè pot fer amb computacional la lingüística. I llavors vostè pot veure el que vostè pensa és fresc entre les coses. I potser vostè pot pensar en un projecte i vine a parlar amb mi. I jo et puc donar consells sobre la manera de posar-la en pràctica. >> Així sintaxi serà una mica Gràfic sobre Recerca i màquina traducció. Només donaré un exemple de com vostè podria, per exemple, traduir una mica de Portuguès a Anglès. Sona bé? >> Així que en primer lloc, el problema de classificació. Vaig a dir que aquesta part del seminari serà la més difícil un simplement perquè no va a ser una mica de codi. Però serà Python. Sé que vostès no saben Python, per la qual cosa Jo només vaig a explicar en l'alt nivell o el que estic fent. I vostè no ha de preocupar realment *** molt sobre la sintaxi, perquè això és cosa que vostès poden aprendre. ¿D'acord? Sona bé. >> Llavors, quin és el problema de classificació? Així que et donen algunes lletres per una cançó i vol endevinar que cantava. I això pot ser de qualsevol tipus d'altres problemes. Així que pot ser, per exemple, té una campanya presidencial i té un la parla i la que voleu cercar si ho va ser, per exemple, Obama o Mitt Romney. O vostè pot tenir un munt de correus electrònics i vol esbrinar si són spam o no. Així que és només una mica de la classificació les dades basats en les paraules que vostè té allà. >> Així que per fer això, vostè ha de fer algunes suposicions. Així que molt de la lingüística computacional està fent suposicions, supòsits generalment intel · ligents, de manera que vostè pot aconseguir bons resultats. Tractar de crear un model per a ell. I després provar-ho i veure si funciona, si et dóna una bona precisió. I si ho fa, llavors vostè tractar de millorar-lo. Si no és així, ets com, OK, potser ha de fer una suposició diferent. >> Així que la suposició que anem a fer és que un artista canta generalment sobre un tema en múltiples ocasions, i potser utilitza paraules múltiples vegades només perquè estan acostumats a això. Vostè només pot pensar en el seu amic. Estic segur que vostès tots tenen amics que diuen que la seva frase de la firma, literalment cada frase - com una paraula específica o alguns específics frase que se sol dir de cada frase. >> I què es pot dir és que si vostè veu una frase que té una signatura frase, es pot endevinar que probablement el teu amic és el que ho diu, no? Així que vostè fa aquesta suposició i després així és com es crea un model. >> L'exemple que donaré és el com Lady Gaga, per exemple, les persones diu que ella usa "***ó" de totes les seves cançons nombre un. I en realitat es tracta d'un vídeo que mostra ella dient la paraula "***ó" de diferents cançons. >> [REPRODUCCIÓ DE VÍDEO] >> - (CANT) Bebè. ***ó. ***ó. ***ó. ***ó. Nena. ***ó. ***ó. ***ó. ***ó. >> [FI REPRODUCCIÓ DE VÍDEO- >> LUCAS FREITAS: Així que hi ha, crec, 40 cançons aquí al que diu la paraula "***ó". Així que bàsicament es pot endevinar que si veus una cançó que té la paraula "***ó", que hi ha alguns d'alta probabilitat que es tracta de Lady Gaga. Però anem a tractar de desenvolupar aquest encara de manera més formal. >> Així que aquestes són les lletres de les cançons de Lady Gaga i Katy Perry. Així que ens fixem en Lady Gaga, que es veu que tenen un munt d'aparicions de "***ó", un gran quantitat d'aparicions de "camí". I després Katy Perry té una gran quantitat d'aparicions de "El", un munt d'aparicions de "foc". >> Així que bàsicament el que volem fer és, s'obté una lletra. Diguem que vostè rep una lletra per a una cançó que és "bebè," només "***ó". Si que acaba d'obtenir la paraula "***ó", i això és que totes les dades que tingui amb Lady Gaga i Katy Perry, que faria Pots endevinar és la persona qui canta la cançó? Lady Gaga o Katy Perry? Lady Gaga, oi? Perquè ella és l'única que diu "***ó". Això sona estúpid, oi? OK, això és molt fàcil. Només estic mirant les dues cançons i d' Per descomptat, ella és l'única persona que té "***ó". >> Però el que si vostè té un munt de paraules? Si vostè té una lírica actual, cosa com, "***ó, només va anar a veure [? CFT?] conferència ", o alguna cosa així, i llavors vostè realment ha d'esbrinar - sobre la base de totes aquestes paraules - qui és l'artista que probablement cantar aquesta cançó? Així que anem a tractar de desenvolupar això una mica més. >> OK, així que basat només en les dades que ens aconseguit, sembla que Gaga és probablement la cantant. Però, com podem escriure de manera més formal? I serà una mica poc d'estadístiques. Així que si et perds, simplement intenta per entendre el concepte. No importa si vostè entén les equacions perfectament bé. Tot això estarà en línia. >> Així que bàsicament el que estic calculant és el probabilitat que aquesta cançó és per Lady Gaga ja que - de manera que aquest bar significa ja que - Vaig veure la paraula "***ó". Això té sentit? Així que estic tractant de calcular aquesta probabilitat. >> Així que hi ha aquest teorema anomenat el El teorema de Bayes que diu que el probabilitat d'A donat B, és la probabilitat de B donat A, vegades el probabilitat de A, sobre la probabilitat de B. Aquesta és una equació llarga. Però, què cal entendre per és a dir que això és el que vull calcular, oi? Per tant la probabilitat que aquesta cançó és per Lady Gaga ja que vaig veure la paraula "***ó". >> I ara el que vull arribar és el probabilitat que la paraula "***ó", donat que tinc Lady Gaga. I què és això bàsicament? El que això significa és, quina és la probabilitat de veure la paraula "***ó" en Gaga lletres? Si vull calcular que en un temps molt manera simple, és sols un nombre de vegades veig "***ó" sobre el total de les paraules en lletres Gaga, oi? Quina és la freqüència que veig aquesta paraula en el treball de Gaga? Té sentit? >> El segon terme és la probabilitat de Gaga. Què significa això? Això significa, bàsicament, el que és la probabilitat de classificar algunes lletres com Gaga? I això és una mica estrany, però pensem en un exemple. Així que diguem que la probabilitat tenir "***ó" en una cançó és la mateixa per Gaga i Britney Spears. Però Britney Spears té dues vegades més cançons que Lady Gaga. Així que si algú et dóna just a l'atzar lletra de "***ó", el primer que miri, és a dir, quina és la probabilitat de tenir "***ó" en una cançó Gaga, "***ó" en una cançó de Britney? I és la mateixa cosa. >> Així que la segona cosa que vostè veurà és, així, quina és la probabilitat de aquesta lletra per si mateixa ser una lletra Gaga, i quina és la probabilitat de sent una lletra Britney? Així que des que Britney té moltes més lletres que Gaga, vostè probablement diguem, bé, això és probablement una lletra Britney. Així que és per això que tenim aquesta cridar aquí. Probabilitat de Gaga. Té sentit? Ho fa? D'acord. >> I l'últim és la probabilitat de "***ó", que no Realment importa tant. Però és la probabilitat veure "***ó" en anglès. En general, no ens importa que molt d'aquest terme. Això té sentit? Per tant la probabilitat de Gaga és anomenat la probabilitat prèvia de la Gaga classe. Com que només vol dir que, el que és el probabilitat de tenir aquesta classe - que és Gaga - només en general, només sense condicions. >> I després quan tinc probabilitat Gaga donat "***ó", en diem més Teary una probabilitat perquè és la probabilitat de tenir Gaga dóna algunes proves. Així que et vaig a donar l'evidència que vaig veure la paraula ***ó i la cançó té sentit? D'acord. >> Així que si he calculat que per cada de les cançons de Lady Gaga, el que seria - pel que sembla, no em puc moure això. La probabilitat de Gaga serà alguna cosa així com: 2 sobre 24, multiplicada per 1/2, més de 2 sobre 53. No importa si vostè sap el que aquests números estan venint. Però és només un nombre que es va per ser més que 0, no? >> I després quan ho *** Katy Perry, la probabilitat de "***ó" donada Katy és ia 0, no? Com que no hi ha un "bebè" en Katy Perry. Llavors això es converteix en 0, i Gaga victòries, el que significa que Gaga és probablement el cantant. Això té sentit? D'acord. >> Així que si vull fer això més oficial, De fet, em puc fer un model de diverses paraules. Així que anem a dir que tinc alguna cosa com, "nena, jo sóc en flames ", o alguna cosa així. Pel que té diverses paraules. I en aquest cas, es pot veure que "***ó" està en Gaga, però no és en Katy. I "foc" es troba en Katy, però no està en Gaga, oi? Així que cada vegada és més complicat, no? Perquè sembla que gairebé tenir un llaç entre els dos. >> Així que el que has de fer és assumir independència entre les paraules. Així que bàsicament el que això significa és que Només estic calculant quin és el probabilitat de veure "***ó", el que és la probabilitat de veure "jo", i "Am" i "on" i "foc" tot per separat. Llavors estic multiplicant tots ells. I estic veient quina és la probabilitat de veure a tota la frase. Té sentit? >> Així que, bàsicament, si tinc una sola paraula, el que jo vull saber és el arg max, el que significa, el que és la classe que és em dóna la major probabilitat? Llavors, quina és la classe que està donant me la probabilitat més alta de probabilitat de classe donada paraula. Així que en aquest cas, donat Gaga "***ó". O Katy donat "***ó". Té sentit? >> I només de Bayes, que equació que li vaig mostrar, creem aquesta fracció. L'única cosa és que es veu que la probabilitat de la paraula donada la els canvis de classe en funció a la classe, oi? El nombre de "baby" es que tinc en Gaga és diferent de Katy. La probabilitat de la classe també canvis, perquè és sols un nombre de cançons de cada un d'ells té. >> Però la probabilitat que la paraula en si serà la mateixa per a tots els artistes, no? Per tant la probabilitat de la paraula és simplement, quina és la probabilitat de veure aquesta paraula en el Anglès? Així que és el mateix per a tots ells. Així que ja que això és constant, podem simplement deixar això i no es preocupen per ell. Així que aquest serà en realitat el equació que estem buscant. >> I si tinc diverses paraules, estic encara tindrà la prèvia probabilitat aquí. L'única cosa és que estic multiplicant la probabilitat de totes les altres paraules. Així que estic multiplicant tots ells. Té sentit? Sembla estrany, però bàsicament vol dir, calcular el prior de la classe, i després multiplica per la probabilitat de cada de les paraules que estan en aquesta classe. >> I vostè sap que la probabilitat d'un paraula donada una classe serà la nombre de vegades que vostè veu aquesta paraula en aquesta classe, dividit pel nombre de paraules que tenen en aquest de classes en general. Té sentit? És només la forma "***ó" va ser de 2 sobre el nombre de paraules que Tenia en les lletres. Així que la freqüència. >> Però hi ha una cosa. Recorda que m'estava mostrant que la probabilitat de "baby" ser lletres de Katy Perry de 0 només perquè Katy Perry no tenia "***ó" en absolut? Però sona una mica dur a poc Simplement diuen que les lletres no poden ser de un artista només perquè no tenen aquesta paraula en particular en qualsevol moment. >> Així que vostè podria dir, bé, si vostè no tenen aquesta paraula, vaig a donar-li una probabilitat més baixa, però estic simplement no va a donar-li 0 seguida. Com que potser era una cosa així com: "Foc, foc, foc, foc", que és totalment Katy Perry. I després, "***ó", i que només serveix per 0 seguida perquè n'hi havia un "***ó". >> Així que bàsicament el que fem és una cosa anomenada de Laplace de suavitzat. I això només significa que estic donant certa probabilitat fins i tot a les paraules que no existeixen. Així que el que *** és que quan estic el càlcul d'aquest, sempre afegeixo 1 a el numerador. Així que encara que no existeix la paraula, en aquest cas, si això és 0, segueixo sent el càlcul d'aquest com 1 sobre el nombre total de paraules. En cas contrari, em surt la quantitat de paraules Tinc i agrego 1. Així que estic explicant en ambdós casos. Té sentit? >> Així que ara anem a fer una mica de codi. Vaig a haver de fer-ho molt ràpid, però és igual d'important que vostè nois entenen els conceptes. Així que el que estem tractant de fer és exactament l'aplicació d'aquest El que acabo de dir - Vull que posis la lletra de Lady Gaga i Katy Perry. I el programa serà capaç de dir si aquestes noves lletres són de Gaga o Katy Perry. Té sentit? D'acord. >> Així que tinc aquest programa que vaig cridar classify.py. Així que això és Python. És un nou llenguatge de programació. És molt similar en alguns aspectes a C i PHP. És similar, perquè si vols aprendre Python després de conèixer C, és Realment no és molt d'un desafiament només perquè Python és molt més fàcil que C, primer de tot. I un munt de coses que ja estan implementat per a vostè. Llavors, com ara PHP té funcions que ordenar una llista, o afegir alguna cosa a una matriu, o bla, bla, bla. Python té tots aquests també. >> Així que només vaig a explicar ràpidament com podríem fer la classificació problema per aquí. Així que anem a dir que en aquest cas, tinc lletres de Gaga i Katy Perry. La manera que tinc aquestes lletres és que la primera paraula de la lletra és el nom de l'artista, i la resta és la lletra. Així que anem a dir que tinc aquesta llista en dels quals el primer és lletra de Gaga. Així que aquí estic en el camí correcte. I el següent és Katy, i sinó que també té la lletra. >> Així que així és com es declara una variable en Python. No ha de donar el tipus de dades. Vostè acaba d'escriure "lletres" Una cosa així com en PHP. Té sentit? >> Quines són les coses que he de calcular per ser capaç de calcular la probabilitats? He de calcular les "probabilitats a priori" de cada un dels diferents classes que tinc. He de calcular els "darrere" o més o menys les probabilitats de cadascuna de les diferents paraules que Jo puc tenir per a cada artista. Així que dins de Gaga, per exemple, vaig tenir una llista de les vegades que veig cadascuna de les paraules. Té sentit? >> I, finalment, jo només vaig a tenir un llista anomenada "paraules" que només va tenir el nombre de paraules que tenir per a cada artista. Així que per Gaga, per exemple, quan miro a la lletra, jo hi havia, crec, 24 paraules en total. Així que aquesta llista és només tindrà Gaga 24, i Katy un altre número. Té sentit? D'acord. >> Així que ara, en realitat, anem a anar a la codificació. Així que en Python, en realitat es pot tornar un munt de diferents coses d'una funció. Així que jo vaig a crear aquesta funció anomenada "condicional", que es va per tornar totes aquestes coses, la "Probabilitats a priori", els "probabilitats", i el "Paraules". Així que "condicional", i que és posarà en "lletres". >> Així que ara vull que en realitat escriure aquesta funció. Així que la forma en què jo puc escriure això funció és que m'acaba de definir aquesta funcionar amb "def". Així que ho vaig fer "def condicional ", i que està prenent "Lletres". I el que això farà és, primer de tot, tinc les meves priors que vull calcular. >> Així que la forma en què jo puc fer això és crear un diccionari en Python, que és més o menys el mateix que un hash taula, o que és un procés iteratiu matriu en PHP. Així és com em declaro un diccionari. I bàsicament el que això significa és que priors de Gaga és 0.5, per exemple, si 50% de les lletres són de Gaga, 50% són de Katy. Té sentit? Així que he de trobar la manera per calcular els priors. >> Els propers els que he de fer, també, són les probabilitats i les paraules. Així que les probabilitats de Gaga és la llista de totes les probabilitats que jo tenir per a cadascuna de les paraules per Gaga. Així que si em vaig a les probabilitats de Gaga "***ó", per exemple, em donarà una mena 2 sobre 24 en aquest cas. Té sentit? Així que em vaig a "probabilitats", aneu a la Cub "Gaga" que té una llista de tots els les paraules Gaga, llavors em van a "***ó" i veig la probabilitat. >> I finalment tinc aquest Diccionari "paraules". Així que aquí, "les probabilitats". I després "Paraules". Així que si ho *** "paraules", "Gaga" el que va a succeir és que es tracta d' em donarà 24, dient que tenir 24 paraules en les cançons de Gaga. Té sentit? Així que aquí, "paraules" és igual a dah-dah-dah. Bé >> Així que el que faré és que vaig a iterar sobre cadascuna de les lletres, de manera cadascuna de les cadenes que Tinc a la llista. I jo vaig a calcular aquestes coses per a cada un dels candidats. Té sentit? Així que he de fer un bucle for. >> Així que en Python el que puc fer és "per a la línia en lletres. "El mateix que un "Per a cada" declaració en PHP. Recordes si va ser PHP vaig poder dir "per cada lletra com la línia. "Té sentit? Així que em vaig a portar cadascuna de les línies, en aquest cas, aquesta cadena i la propera cadena per la qual cosa per a cadascuna de les línies del que estic farem és en primer lloc, vaig a dividir aquesta línia en una llista de paraules separades per espais. >> Així que el bo de Python és que vostè podria simplement Google com "Com puc dividir una cadena en paraules? "I és vaig a dir com fer-ho. I la manera de fer-ho, és només "la línia = Linea.split () "i és bàsicament vaig a donar una llista amb cadascuna de les paraules aquí. Té sentit? Així que ara que ho vaig fer jo vull saber qui és el cantant de la cançó. I per fer això he d'aconseguir el primer element de la matriu, no? Així que només puc dir que "cantant = Línia (0) "Té sentit? >> I llavors, què he de fer és, en primer lloc tot, vaig a actualitzar el nombre de paraules que tenen baix "Gaga". així que estic va a calcular el nombre de paraules que tenir en aquesta llista, oi? Com que aquest és el nombre de paraules que tinc en la lletra i jo només vaig a afegir a la matriu "Gaga". Això té sentit? No es concentri *** en la sintaxi. Pensa més en els conceptes. Aquesta és la part més important. D'acord. >> Així que el que puc fer és si "Gaga" és Ja en aquesta llista, de manera que "si el cantant a paraules "el que significa que ja tenir paraules de Gaga. Només vull afegir l'addicional paraules a això. Així que el que *** és "paraules (cantant) + = Len (line) - 1 ". I llavors jo puc fer el longitud de la línia. Així que el nombre d'elements de R tenir en la matriu. I he de fer almenys 1 només perquè el primer element de la matriu és només un cantant i els que no són lletres. Té sentit? D'acord. >> "Si no," que vol dir que vull en realitat inseriu Gaga a la llista. Així que acabo de fer "les paraules (cantant) = Len (line) - 1, "ho sento. Així que l'única diferència entre els dos línies és que aquest, no és així encara existeixo, així que estic inicialitzar. Aquesta realitat estic agregant. D'acord. Així que això se suma a les paraules. >> Ara vull afegir als priors. Llavors, com puc calcular els antecedents? Els priors es poden calcular per la quantitat de vegades. Llavors, quantes vegades es veu que la cantant entre tots els cantants que li tenir, no? Així que per Gaga i Katy Perry, en aquest cas, no veig Gaga una vegada, Katy Perry una vegada. >> Així que, bàsicament, els priors de Gaga i per Katy Perry faria només un, oi? Només el nombre de vegades Veig l'artista. Així que això és molt fàcil de calcular. Puc només alguna cosa similar a com "si cantant en priors, "Jo només vaig afegir 1 al seu quadre d'antecedents. Per tant, "priors (cantar)" + = 1 "i després" si no " Jo faré "probabilitats a priori (cantant) = 1 ". Té sentit? >> Així que si no hi ha Acabo de posar com 1, en cas contrari Acabo d'afegir 1. OK, així que ara l'únic que em queda per fer També és afegir cadascuna de les paraules a l' probabilitats. Així que he de comptar quantes vegades Veig cadascuna de les paraules. Així que només he de fer una altra bucle en la línia. >> Així que el primer que faré és comprovar si el cantant ja té una probabilitats matriu. Així que estic comprovant si el cantant no té una matriu de probabilitats, jo només sóc va a inicialitzar una per a ells. Ni tan sols és una matriu, ho sento, es tracta d'un diccionari. Així que les probabilitats que el cantant es va ser un diccionari, així que estic simplement inicialitzar un diccionari per a això. ¿D'acord? >> I ara puc realment fer un bucle per al càlcul de cadascuna de les paraules ' probabilitats. D'acord. Així que el que puc fer és un bucle for. Així que només vaig a repetir sobre la matriu. Així que la forma en què jo puc fer això en Python és "for i in range". A partir de l'1 perquè vull començar en el segon element perquè el primer és el Nom del cantant. Així que des d'un fins al longitud de la línia. I quan ho *** rang que realment van des com aquí l'1 al llenguatge del almenys la línia 1. Així que ja ho fa aquesta cosa de fer n menys 1 per a les matrius que és molt convenient. Té sentit? >> Així que per a cada un d'ells, el que vaig a fer és, igual que en l'altre, Vaig a comprovar si la paraula en aquest posició en la línia ja està en probabilitats. I després, com ja he dit aquí, les probabilitats És a dir, com en vaig posar "Probabilitats (cantant)". Així que el nom de la cantant. Així que si ja està en "Probabilit (cantant)", vol dir que Vull afegir 1 a la mateixa, de manera que vaig a fer "probabilitats (cantant)", i la paraula es diu "línia (i)". Vaig a afegir 1 i "si no" jo només sóc va a inicialitzar a 1. "Línia (i)". Té sentit? >> Per tant, vaig calcular tots els arrays. Així doncs, ara tot el que he de fer per aquest és només "tornar priors, probabilitats i paraules. "anem a veure si hi ha algun, a D'acord. Sembla que tot està treballant fins ara. Per tant, això té sentit? D'alguna manera? D'acord. Així que ara tinc totes les probabilitats. Així que ara l'únic que em queda és només per tenir aquesta cosa que calcula el producte de tots els probabilitats quan si les lletres. >> Així que diguem que jo vull cridar ara aquesta funció "classificar ()" i la cosa que la funció de presa és només un argument. Diguem que "Baby, estic en flames" i és va a esbrinar el que és la probabilitat que aquest és Gaga? Quina és la probabilitat que aquest és Katie? Sona bé? Així que estic haurà de crear un nova funció anomenada "classificar ()" i que prendrà algun lletres també. I a més de les lletres que també ha de trametre els antecedents, la probabilitats i les paraules. Així que vaig a enviar lletres, priors, probabilitats, paraules. >> Així que això està prenent lletres, priors, probabilitats, paraules. Llavors, què fa? És, bàsicament, passarà per tot els possibles candidats que es tenir com a cantant. I on són els candidats? Estan en els priors, oi? Així que he tots els que hi eren. Així que vaig a tenir un diccionari de tots els possibles candidats. I a continuació, per a cada candidat a la priors, pel que significa que es va a ser Gaga, Katie si tingués més seria més. Vaig a començar a calcular aquesta probabilitat. La probabilitat com hem vist al PowerPoint és els temps anteriors la producte de cadascun dels altres probabilitats. >> Així que jo puc fer el mateix aquí. Jo només puc fer probabilitat és inicialment només l'anterior. Així priors del candidat. Cert? I ara he de iterar sobre tots els paraules que tinc a les lletres per a ser capaç d'afegir la probabilitat per a cada un d'ells, d'acord? Així, "per paraula en lletres" el que vaig de fer és, si la paraula està en "Probabilitats (candidats)", que significa que és una paraula que el candidat té en les seves lletres - per exemple, "***ó" de Gaga - el que vaig a fer és que el probabilitat serà multiplicat per 1 més les probabilitats de el candidat a aquesta paraula. I es diu "paraula". Aquesta dividit pel nombre de paraules que tinc per aquest candidat. El nombre total de paraules que tinc per al cantant que estic mirant. >> "D'una altra manera". significa que és una nova paraula pel que seria com, per exemple, "Foc" de Lady Gaga. Així que només vull fer més d'1 "Paraula (candidat)". Així que no vull posar aquest terme aquí. >> Així que serà, bàsicament, copiar i enganxar aquest. Però jo vaig a esborrar aquesta part. Així que és només va a ser 1 més d'això. Sona bé? I ara, al final, jo només vaig a imprimir el nom del candidat i la probabilitat que vostè té de tenint l'S en les seves lletres. Té sentit? I jo realment *** ni tan sols Necessitareu aquest diccionari. Té sentit? >> Per tant, anem a veure si això realment funciona. Així que si executo això, no va funcionar. Esperi un segon. "Paraules (candidats)", "paraules (candidats)", això és el nom de la matriu. Acceptar tant, es diu que hi ha algun error per al candidat en antecedents. Permetin-me simplement relaxar-se una mica. D'acord. Anem a tractar. D'acord. >> Així que dóna Katy Perry té aquesta probabilitat que això vegades 10 a la menys 7, i Gaga té aquest vegades 10 a la menys 6. Així que ja veus que demostra que Gaga té una probabilitat més alta. Així que "Amor meu, estic en flames" es probablement una cançó de Gaga. Té sentit? Així que això és el que vam fer. >> Aquest codi serà publicat a Internet, així que vostès poden comprovar-ho. Potser fer servir una part per si vols fer un projecte o alguna cosa semblant. D'acord. Això va ser només per mostrar el computacional codi de la lingüística s'assembla. Però ara anirem a més coses d'alt nivell. D'acord. >> Així que els altres problemes que estava parlant - el problema de la segmentació és el primer d'ells. Així que tens aquí japonès. I llavors es veu que no hi ha espais. Així que això és bàsicament significa que és la part superior de la cadira, no? Parles japonès? És la part superior de la cadira, no? >> ESTUDIANT: No sé el que el kanji d'allà és. >> LUCAS FREITAS: És [parla japonesa] D'acord. Així que, bàsicament, significa que la cadira de la part superior. Així que si hagués de posar un espai seria aquí. I llavors vostè ha [? Ueda-sant. ?] El que bàsicament significa senyor Ueda. I pots veure que "Ueda" i té una espai i després "sant". Així que ja veus que aquí "Ue" és com per si mateix. I aquí té un caràcter al costat d'ell. >> Així que no és com en aquests idiomes personatges que significa una paraula, per la qual cosa només cal posar un munt d'espais. Caràcters es relacionen entre si. I poden estar junts com dos, tres, un. Així que vostè realment ha de crear algun tipus de manera de posar aquests espais. >> I això és que cada vegada que rebi dades d'aquests idiomes asiàtics, tot ve no segmentat. Perquè ningú que escriu japonès o el xinès s'escriu amb espais. Cada vegada que vostè està escrivint xinesa, Japonès que acaba d'escriure tot el que sense espais. Fins i tot no té sentit posar espais. Així que quan arribi a les dades d'alguns Idioma Àsia oriental, si vol realment fer alguna cosa amb això vostè ha de primer segment. >> Penseu en fer l'exemple de les lletres sense espais. Així que les úniques lletres que tens serà frases, oi? Separats per punts. Però després tenir només la frase no és realment ajudar a donar informació que aquestes lletres són a. Cert? Així que vostè ha primer posa espais. Llavors, com pot vostè fer això? >> Llavors ve la idea d'un llenguatge model que és una cosa realment important per computacional la lingüística. Pel que un model de llenguatge és bàsicament un taula de probabilitats que els programes de en primer lloc, quina és la probabilitat de tenir la paraula en un idioma? Així mostra la freqüència amb una paraula és. I a continuació també mostra la relació entre les paraules en una oració. >> Així que la idea principal és que, si es va produir un estrany a tu i va dir una frase per vostè, quina és la probabilitat que, per exemple, "aquesta és la meva germana [? GTF"?] va ser la frase que va dir la persona? Així que, òbviament, algunes frases són més comuns que altres. Per exemple, "bon dia" o "bones nit "o" Hola, "és molt més comú que la majoria de les sentències que tenim un anglès. Per què són aquestes frases amb més freqüència? >> En primer lloc, és perquè vostè té paraules que són més freqüents. Així, per exemple, si vostè diu que el gos és gran, i el gos és gegantina, que en general, probablement sentir el gos és gran més sovint perquè "gran" és més freqüent en anglès de "gegantí". Així, un dels coses és la freqüència de la paraula. >> La segona cosa que és realment important és només el ordre de les paraules. Així, és comú dir "el gat està dins de la caixa. "però no solen veure a "El quadre interior és el gat." així veus que hi ha alguna cosa d'importància en l'ordre de les paraules. No es pot simplement dir que aquests dos frases tenen la mateixa probabilitat només perquè tenen les mateixes paraules. Segur que ha de tenir cura sobre l'ordre també. Té sentit? >> Llavors, què fem? Així que el que jo podria tractar d'aconseguir que? Estic tractant d'aconseguir el que trucar als models n-gram. Així models de n-gram bàsicament assumeixen que per a cada paraula que que té en una frase. És la probabilitat d'haver de paraula no depèn no només de la freqüència d'aquesta paraula en l'idioma, però també en les paraules que s'envolta. >> Així, per exemple, generalment quan es veu cosa així com el o pel que ets probablement va a veure una substantiu després d'ella, oi? Perquè quan vostè té una preposició en general es necessita un nom després d'ell. O si vostè té un verb que és transitiva en general, va a tenir un sintagma nominal. Per tant, tindrà un nom en algun lloc al voltant d'ella. >> Així que, bàsicament, el que fa és que considera la probabilitat de tenir paraules un al costat de l'altre, quan vostè està calculant la probabilitat d'una condemna. I això és el que és un idioma model és bàsicament. Simplement dir quina és la probabilitat d'haver una específica frase en un idioma? Així que per què és tan útil, bàsicament? I en primer lloc el que és un model de n-grames, llavors? >> Així que significa un model de n-grames que cada paraula depèn de la següent N almenys 1 paraules. Així que, bàsicament, vol dir que si miro, Per exemple, en el TF CS50 quan Estic càlcul de la probabilitat de la sentència, que serà com "la probabilitat de tenir la paraula "the" vegades la probabilitat de tenir "la CS50 vegades "la probabilitat de tenir "El TF CS50." Així que, bàsicament, conte totes les formes possibles de estirar. >> I després, en general quan vostè està fent això, com en un projecte, es posa N sigui un valor baix. Així que, en general tenen bigrames o trigrames. Així que acaba de comptar dues paraules, una grup de dues paraules o tres paraules, només pels problemes de rendiment. I també perquè potser si té alguna cosa així com "La TF CS50." Quan té "TF", que és molt important que "CS50" està al costat d'ella, oi? Aquestes dues coses són en general un al costat de l'altre. >> Si vostè pensa en "TF", que és probablement va a tenir el que classe està TF'ing per. També "la" és realment important per TF CS50. Però si vostè té alguna cosa així com "El CS50 TF va anar a classe i va donar el seu estudiants una mica de caramel. "" Candy "i" el " no tenir relació de veritat, no? Són tan distants entre si que en realitat no importa el que paraules que tenen. >> Així que fent un bigram o trigrama, es simplement vol dir que vostè està limitant vostè mateix a algunes paraules que estan al voltant. Té sentit? Així que quan vostè vol fer la segmentació, bàsicament, el que vols fer és veure Quines són totes les formes possibles que vostè pot la frase segment. >> De tal manera que vostè veu el que és el probabilitat que cadascuna d'aquestes frases existent en l'idioma? Així que el que fas és com, bé, anem a jo tracte de posar un espai aquí. Així es posa un espai no i veus el que és la probabilitat que la sentència? Llavors vostè és com, OK, potser que no era tan bo. Així que vaig posar un espai allà i un espai allà, i es calcula el probabilitat d'ara, i vostè veurà que que és una probabilitat més alta. >> Així que aquest és un algoritme anomenat TANGO algorisme de segmentació, que és en realitat una cosa que seria molt fresc per a un projecte, que bàsicament pren el text no segmentat que pot ser japonès o xinès o potser Anglès sense espais i tracta de posar espais entre les paraules i ho fa que mitjançant l'ús d'un model de llenguatge i tractant de veure quina és la més alta probabilitat que vostè pot aconseguir. D'acord. Així que aquesta és la segmentació. >> Ara sintaxi. Per tant, la sintaxi s'utilitza per tantes coses ara mateix. Així que per al gràfic de recerca, per Siri per gairebé qualsevol tipus de naturals processament del llenguatge que té. Llavors, què són els importants coses sobre la sintaxi? Així, les oracions en general tenen el que anomenem constituents. Què són alguna cosa així com grups de paraules que tenen una funció en la frase. I en realitat no poden ser separats uns dels altres. >> Així que, si jo dic, per exemple, "Lauren estima Milo. "Jo sé que" Lauren "és un constituent i després "amors Milo "és també un altre. Perquè no es pot dir com "Lauren Milo estima "tenir el mateix significat. No tindrà el mateix significat. O jo no puc dir com "Milo Lauren estima. "No tot té el mateix que significa fer això. >> Així que les dues coses més importants sobre sintaxi són els tipus lèxics que és bàsicament la funció que tenir per a les paraules per si soles. Així que vostè ha de saber que "Lauren" i "Milo" són substantius. "Love" és un verb. I la segona cosa important és que són tipus amb preposició. Així que ja saps que "estima Milo" és en realitat una frase verbal. Així que quan dic "Lauren," jo sé que Lauren està fent alguna cosa. Què fa? Ella és amant de Milo. Així que és una cosa totalment. Però els seus components són un substantiu i un verb. Però junts, fan una frase verbal. >> Així que, què podem fer realment amb lingüística computacional? Així que, si tinc alguna cosa, per exemple, "Amics d'Allison". Veig si em va realitzar un arbre sintàctic que sabria que "Amics" és un sintagma nominal que és un substantiu i després "d'Allison" és una sintagma preposicional en què "de" és una proposta i "Allison" és un substantiu. El que podria fer és ensenyar al meu equip que quan tinc un sintagma nominal i un a continuació, una frase preposicional. Així que en aquest cas, "amics" i després "de Milo "Jo sé que això vol dir que NP2, la segona, és propietària de NP1. >> Així que pot crear algun tipus de relació, algun tipus de funció per a això. Així que cada vegada que veig aquesta estructura, que coincideix exactament amb "amics de Allison: "Jo sabia que Allison posseeix els amics. Així que els amics són una mica que Allison té. Té sentit? Així que això és bàsicament el que Gràfic Search fa. Simplement crea regles per a un munt de coses. Així que els "amics d'Allison", "els meus amics que viuen a Cambridge "," els meus amics d'anar a Harvard ". Crea regles per totes aquestes coses. >> Ara la traducció automàtica. Per tant, la traducció automàtica és també alguna cosa estadística. I en realitat, si t'involucres en lingüística computacional, una gran quantitat de les teves coses serà estadístiques. Així com jo estava fent l'exemple amb moltes probabilitats que jo era càlcul, i després arribar a aquest nombre molt petit que és la final probabilitat, i això és el li dóna la resposta. La traducció automàtica utilitza també un model estadístic. I si vostè vol pensar en la màquina traducció en el més simple possible Així, el que es pot pensar és només traduir paraula per paraula, oi? >> Quan vostè està aprenent un idioma per al primera vegada, que és en general el ho fa, no? Per traduir una oració en el seu idioma per a la llengua vostè està aprenent, en general primer, traduirà cadascuna de les paraules individualment, a continuació, intenta posar les paraules al seu lloc. >> Així que si jo volia traduir això, [Parla Portuguesa] que significa "el gat blanc es va escapar." Si volgués traduir del Portuguès a Anglès, el que podríem fer és, primer, que acabo de traduir paraula per paraula. Així que "o" és "el", "gat", "gat" "Branco", "blanc", i després "refugi" és "Es va escapar". >> Així que tinc totes les paraules aquí, però no estan en ordre. És com "el gat blanc es va escapar" que és gramaticalment incorrecta. Així, llavors puc tenir un segon pas, que es trobarà l'ideal posició per a cadascuna de les paraules. Així que sé que realment vull tenir "Gat blanc" en lloc de "gat blanc". Així el que puc fer és, el mètode més ingènua seria la creació de tot el permutacions possibles d' paraules, de posicions. I després veure quin té el probabilitat més alta d'acord al meu model de llenguatge. I després, quan em trobo amb el qual té la probabilitat més alta, la qual cosa és probablement "la gata blanca es va escapar" aquest és el meu traducció. >> I aquesta és una manera senzilla d'explicar com una gran quantitat de la traducció automàtica algoritmes funcionen. Això té sentit? Això també és una cosa realment emocionant que vostès potser pot explorar una projecte final, no? >> Estudiant: Bé, vostè va dir que era la manera ingènua, quin és la forma no ingenu? >> LUCAS FREITAS: La forma no ingenu? D'acord. Així que la primera cosa que és dolent sobre aquest mètode és que jo només vaig traduir paraules, paraula per paraula. Però de vegades hi ha paraules que pot tenir diverses traduccions. Vaig a tractar de pensar d'alguna cosa. Per exemple, "manga" en llauna Portuguès o bé ser "mangle" o "manga". Així quan vostè està tractant de traduir la paraula mitjançant la paraula, podria estar donant cosa que no té sentit. >> Així que vostè vol realment ens fixem en tots els les possibles traduccions de la paraules i veure, en primer lloc, Quin és l'ordre. Estàvem parlant de permutació les coses? Per veure totes les possibles ordres i triar el que tingui el més alt probabilitat? També pot triar tot el possible traduccions per paraula i després veure - combinat amb les permutacions - que un té la probabilitat més alta. >> A més, vostè també pot veure no només paraules, si les frases. perquè pugui analitzar les relacions entre les paraules i després agafar un millor traducció. També una altra cosa, de manera que aquest semestre De fet, m'estic fent la recerca en Xinès-Anglès traducció automàtica, de manera que la traducció del Xinès a l'anglès. >> I una cosa que fem és, a més d'utilitzar un model estadístic, que és just veure les probabilitats de veure alguna posició en una frase, jo sóc en realitat també afegir una mica de sintaxi per a mi model, dient: Oh, si jo veig aquest tipus de la construcció, això és el que vull per canviar-ho a quan tradueixo. Així també es pot afegir algun tipus de element de la sintaxi perquè el una traducció més eficaç i més precisa. D'acord. >> Llavors, com es pot començar, si vols fer alguna cosa en còmput la lingüística? >> En primer lloc, es tria un projecte que involucra idiomes. Així, hi ha molts per aquí. Hi ha tantes coses que pots fer. I llavors es pot pensar en un model que es pot utilitzar. En general, això significa que el pensament de supòsits, segons com, oh, quan jo era com el pensament de les lletres. Jo estava com, bé, si vull esbrinar 1 que va escriure això, probablement jo vull mirar a les paraules que la persona utilitza i veure qui fa servir aquesta paraula molt sovint. Així que tracti de fer suposicions i tracti de pensar en models. I llavors també pot buscar en línia per el tipus de problema que vostè té, i va a suggerir a vostès, els models que potser modelat aquesta cosa també. >> I també sempre pots enviar-me un correu electrònic. me@lfreitas.com. I jo només puc ajudar-vos. Podem fins i tot podríem reunir-nos de manera que pugui donar suggeriments sobre la forma d' la implementació del seu projecte. I vull dir que si t'involucres amb lingüística computacional, que va per ser gran. Vas a veure que hi ha tant potencial. I la indústria vol contractar que tan malament per això. Així que espero que vostès hagin gaudit això. Si vostès tenen alguna pregunta, vostè em pot preguntar per això. Però gràcies.