Giter Club home page Giter Club logo

Comments (13)

bogo8liuk avatar bogo8liuk commented on July 3, 2024 1

@bogo8liuk https://arxiv.org/abs/1607.01759? Mi sembra sia figo questo, permette anche classificazione con training ez e supporta italiano, huggingface lo ha senza problemi, ci sono già word embedding in italiano per dire https://huggingface.co/facebook/fasttext-it-vectors Se ho tempo stasera lo provo.

https://github.com/facebookresearch/fastText?tab=readme-ov-file#text-classification (questo dovrebbe essere allenato da zero credo !?)

Uh sembra molto carino, inoltre utilizza veramente poche risorse, lo terrò in considerazione.
Io sto utilizzando la libreria spaCy https://spacy.io/ , che fa una cosa abbastanza simile a quello che hai proposto e ha anche il supporto per l'italiano.

from informabot.

samuelemusiani avatar samuelemusiani commented on July 3, 2024

Per ora il bot risponde soltanto se nel messaggio si trova la combinazione di parole vendo appunti. Se cambia anche solo leggermente, come riportato nell'esempio sopra, il bot non viene più triggerato. Sarebbe quindi carino espandere l'euristica per fare in modo che il bot riconosca anche altre frasi

from informabot.

Flecart avatar Flecart commented on July 3, 2024

Si potrebbe pensare di chiederlo a un modello xD?
image

Forse si può trainare un embedding ad hoc e comparare una sorta di distanza!?. Non so se esistono metodi che danno una sorta di distanza semantica fra frasi...

from informabot.

samuelemusiani avatar samuelemusiani commented on July 3, 2024

È abbastanza divertente come venga scritto qualcosa solo quando la issue è stata chiusa ahahah. Comunque a parte gli scherzi: da un certo punto di vista sono consapevole che un AI sia decisamente meglio dell'euristica implementata da me per riconoscere variazioni della stessa frase. Allo stesso tempo però mi vengono un po' di dubbi:

  1. Questo modello come lo vorresti creare? Sarebbe integrato direttamente nella repo del bot? Sarebbe parte del bot stesso o opzionale?
  2. Quante risorse potrebbe chiedere il modello per girare e riconoscere questo tipo di frasi?
  3. Come facciamo a trainarlo se la frase che abbiamo in input nelle autoreplies è solo "vendo appunti"? Se ne aggiungiamo un'altra non dovrebbe essere necessario rifare il training giusto?

from informabot.

Flecart avatar Flecart commented on July 3, 2024

Dovrei fare delle ricerche, per rispondere a 1, sarebbe direttamente dentro al bot, come dipendenza per fare questa operazione.
2. Sicuramente il modello in immagine è out of scope per noi.

Per il punto 3 anche questo si dovrebbe andare a cercare.
A pancia dovremmo trovare qualcosa che semplicemente faccia un embedding per il contesto, e poi lo andiamo a confrontare con quanto è distante rispetto a "vendo appunti".
Word2Vec fa embedding, ma non lo conosco bene e non so se si può adattare a questi usi, dovrei leggere qualcosina per risponderti bene.

from informabot.

samuelemusiani avatar samuelemusiani commented on July 3, 2024

Allora se hai voglia puoi guardarci, appena hai una idea di come potremmo fare ci risentiamo

from informabot.

bogo8liuk avatar bogo8liuk commented on July 3, 2024

Buongiorno ragazzi @Flecart @samuelemusiani , io e un mio collega della magistrale volevamo estendere la funzionalità proprio con un modello (volevamo portare avanti questa cosa come progetto dell'esame di IA per la magistrale). Se volete si può iniziare una collaborazione o, se qualcuno ci sta già lavorando, provare a vedere i modelli più precisi, il tutto con una sana competizione :)

from informabot.

samuelemusiani avatar samuelemusiani commented on July 3, 2024

Ciao @bogo8liuk! Io non ci sto lavorando quindi aspetterei una risposte di @Flecart per capire se lui ha già iniziato a fare qualcosa. Comunque per me potete tranquillamente lavorarci anche per vedere cosa viene fuori. Alcuni dubbi però mi rimangono in base a come gestire la cosa a livello del bot:

  1. Quante risorse potrebbe chiedere il modello per girare e riconoscere questo tipo di frasi?
  2. Come facciamo a trainarlo se la frase che abbiamo in input nelle autoreplies è solo "vendo appunti"? Se ne aggiungiamo un'altra non dovrebbe essere necessario rifare il training giusto?

from informabot.

Flecart avatar Flecart commented on July 3, 2024

Per me ok @bogo8liuk! Fai pure.

from informabot.

bogo8liuk avatar bogo8liuk commented on July 3, 2024

@samuelemusiani per rispondere alle tue domande:

  1. Quante risorse potrebbe chiedere il modello per girare e riconoscere questo tipo di frasi?

Questo sarà probabilmente il punto più critico da verificare, nel senso che purtroppo non lo so ancora. Io e il mio collega non utilizzeremo modelli come code-llama o simili; quello che cercheremo di fare sarà di creare un modello "quasi da zero".

  1. Come facciamo a trainarlo se la frase che abbiamo in input nelle autoreplies è solo "vendo appunti"? Se ne aggiungiamo un'altra non dovrebbe essere necessario rifare il training giusto?

Noi andremo a misurare proprio la similarità (qualunque cosa voglia dire) con "vendo appunti". Tuttavia, ciò che ci interessa individuare in un messaggio è il concetto di vendita di risorse didattiche, quindi al momento ti direi che non è necessario.

from informabot.

bogo8liuk avatar bogo8liuk commented on July 3, 2024

Comunque direi che si può riaprire la issue

from informabot.

samuelemusiani avatar samuelemusiani commented on July 3, 2024

Perfetto @bogo8liuk, aspetteremo tue notizie

from informabot.

Flecart avatar Flecart commented on July 3, 2024

@bogo8liuk https://arxiv.org/abs/1607.01759?
Mi sembra sia figo questo, permette anche classificazione con training ez e supporta italiano, huggingface lo ha senza problemi, ci sono già word embedding in italiano per dire https://huggingface.co/facebook/fasttext-it-vectors

https://github.com/facebookresearch/fastText?tab=readme-ov-file#text-classification (questo dovrebbe essere allenato da zero credo !?)

from informabot.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.