ChatGPT 5 – från löften om universitetsnivå till mellanstadieuppsatser

ChatGPT 5 – från löften om universitetsnivå till mellanstadieuppsatser

Den skulle vara bättre, så var det sagt, nya ChatGPT 5. Intellektuellt så skulle den nya modellen ligga på universitetsnivå, så var det också sagt. Efter en vecka kan konstateras att om detta är universitetsnivå så är vi riktigt illa ute, på riktigt.

De första dagarna tyckte jag att en förbättring märktes och var tydlig. ChatGPT 5 klarade av kodningsproblem och hittade lösningar på sånt som ChatGPT 4 kapitals misslyckats med. Sen hände något.

ChatGPT 5 degenererade, tog steg bakåt, började att skriva illa, följde sällan givning instruktioner, drabbades av ständiga avbrott och tappade kontakten med nätverket. Det var synnerligen irriterande därför att varje gång det hände så tappades de sista instruktionerna och den senaste kommunikationen.

Bugg

Sen kom en bugg som ledde till att fönstret i macOS hoppade nedåt när ChatGPT levererade sina svar vilket ledde till att själva chattfönstret halade ned under rutans storlek (fönstret). Lösningen var att hela tiden använda ett maximerat fönster eller gå över till webb-versionen.

Några dagar senare så var det problemet löst men då började ChatGPT leverera texter som höll mellanstadienivå, uppsatser. ChatGPT 5 började också att tänka, visade rutor som resonerade och som försökte hitta ett vettigt svar. Svarstiderna ökade hela tiden men svaren är i stort sett inte mycket bättre än ChatGPT 4.

Lögnerna

Hallucinationerna, påhitten och de uppenbara lögnerna är färre, den delen har blivit bättre, men ChatGPT 5 klarar fortfarande inte att följa, enkla, tydliga instruktioner – oavsett hur ,inga gånger du skriver in dem och inte heller om de är med i det du skickar toll AI-boten – om instruktionerna är med i det som kallas prompten.

ChatGPT 5 är också irriterande frågvis, uppenbarligen i ett försök att inte göra fel. Du kan få i stort sett samma fråga 4-5 gånger innan AI-lösningen bestämmer sig för att faktiskt göra det du vill,

Hade detta varit en mera traditionell mjukvara så hade den knappt, mycket knappt hållit Alpha-nivå, alltså mycket tidigt i en testprocess. En version som seriösa utvecklare bara skulle ha släppt till en mindre grupp utvecklare och testare för att få fram en beta-version för en mera omfattande test.

Jämförande tester

Jag har gjort flera jämförande texter när det gäller text och konkurrenten Claude är vida överlägsen. Claude kan kombinera texter, sätta samman balanserade, rätt vettiga texter med klart anständig grammatik där ChatGPT 5 levererar en skoluppsats – bästa fall.

Gemini och Grok kan också producera bättre texter vilket betyder att den nya modellen ligger efter och efter en dryg veckas tester och arbete med nya ChatGPT 5 så ser jag inga tecken på förbättringar, snarare tvärtom.

OpenAI har en tugg uppgift framför sig, inte bara för att den nya modellen inte fungerar som den ska utan därför att hundratals miljoner användare kan börja att göra det jag har gjort – se sig om efter alternativ.

Meta i blåsväder: AI-botar tilläts prata romantiskt med barn och sprida rasistiska argument

Meta i blåsväder: AI-botar tilläts prata romantiskt med barn och sprida rasistiska argument

Ett internt dokument från Meta Platforms avslöjar att företagets riktlinjer för chattbotar tidigare tillät att artificiella intelligens-system kunde engagera barn i romantiska eller sensuella samtal, generera falsk medicinsk information och hjälpa användare att argumentera för att svarta människor skulle vara mindre intelligenta än vita.

Uppgifterna framkommer i en granskning som Reuters har gjort av dokumentet. Det beskriver de standarder som styr Metas generativa AI-assistent, Meta AI, samt chattbotar på Facebook, WhatsApp och Instagram.

Äkta

Meta har bekräftat att dokumentet är äkta men uppgav att delar av innehållet har tagits bort efter att Reuters ställt frågor tidigare i augusti. Bland annat har skrivningar som tillät chattbotar att flirta och delta i romantisk rollspel med barn raderats.

Dokumentet, med titeln ”GenAI: Content Risk Standards”, är över 200 sidor långt och fastställdes av Metas juridiska avdelning, policyansvariga och tekniska chefer, inklusive företagets chefsetiker. Det definierar vilka typer av svar och beteenden som ska anses acceptabla när Metas AI-produkter utvecklas och tränas.

Romantiska termer

Enligt riktlinjerna var det exempelvis godtagbart att beskriva ett barns utseende i estetiska eller romantiska termer, även om det sattes en gräns för sexuellt laddade formuleringar. Reuters rapporterar att ett exempel i dokumentet till och med beskrev hur en bot kunde säga till ett barnt att ”varje centimeter av dig är ett mästerverk – en skatt jag vårdar djupt”.

Metas talesperson Andy Stone säger att riktlinjerna nu revideras och att den typen av samtal aldrig borde ha varit tillåtna. Han menar att de aktuella exemplen var felaktiga och oförenliga med företagets officiella policy och därför har tagits bort.

Problematiska delar

Samtidigt erkänner Stone att företagets efterlevnad av reglerna inte alltid varit konsekvent. Andra problematiska delar av dokumentet, som Reuters har pekat ut, har ännu inte reviderats och Meta har avböjt att lämna ut en uppdaterad version.

Källa: Reuters

Så kör du OpenAIs nya GPT-modell helt offline på din Mac

Så kör du OpenAIs nya GPT-modell helt offline på din Mac

OpenAI har lanserat gpt-oss-20b, en ny språkmodell som gör det möjligt att köra ChatGPT-liknande AI helt lokalt på Mac utan abonnemang, internetanslutning eller externa servrar. Modellen, som släpptes den 5 augusti, är den första öppet tillgängliga språkmodellen från OpenAI på flera år och ger Mac-användare möjlighet att köra avancerad AI-bearbetning offline.

Med rätt konfiguration kan många Apple Silicon-datorer hantera modellen direkt på enheten.

Tidigare har kraftfulla AI-modeller på Mac krävt molntjänster eller komplex serverinstallation. Med gpt-oss-20b och den större gpt-oss-120b går det i stället att ladda ner modellvikterna och använda dem i verktyg som LM Studio och Ollama. Den som vill kan prova modellerna gratis i webbläsaren via gpt-oss.com innan nedladdning, för att testa hur de hanterar text, kod och generella frågor.

M2

För bästa resultat rekommenderas minst en M2-processor och 16 GB RAM. Har du en M1 är Max- eller Ultra-versionen att föredra. Mac Studio är ett bra val tack vare bättre kylning. Test visar att modellen fungerar även på MacBook Air med M3-chip och 16 GB RAM, men med längre svarstider och högre värmeutveckling.

För att komma igång behövs något av följande verktyg:

LM Studio, en gratisapp med grafiskt gränssnitt

Ollama, ett kommandoradsverktyg med modellhantering

MLX, Apples maskininlärningsramverk som används av båda apparna för acceleration

Dessa verktyg hanterar nedladdning, installation och kompatibilitetskontroll. Med Ollama kan du köra gpt-oss-20b genom att installera programmet enligt instruktionerna på dess webbplats, öppna Terminal och skriva ollama run gpt-oss-20b. Verktyget laddar då ner rätt kvantiserade version av modellen, omkring 12 GB, och startar upp den. När nedladdningen är klar visas en prompt där du kan börja skriva direkt. Allt körs lokalt, utan att någon data lämnar datorn.

20 miljarder

Gpt-oss-20b har 20 miljarder parametrar och är komprimerad till ett 4-bitarsformat, vilket gör att den kan köras smidigt på Mac med 16 GB RAM för uppgifter som textskrivning, sammanfattningar, frågesvar, kodgenerering och strukturerade funktionsanrop. Den större gpt-oss-120b kräver 60–80 GB RAM och lämpar sig för kraftfulla arbetsstationer eller forskningsmiljöer.

Att köra AI lokalt ger fördelar som fullständig dataintegritet, eftersom ingen information skickas till externa servrar, och eliminerar behovet av abonnemang och API-avgifter. Det minskar även svarstiden eftersom inga nätverksanrop behövs. Modellerna är licensierade under Apache 2.0, vilket gör att de kan finjusteras för egna projekt och arbetsflöden.

Komplexa

Prestandan är lägre än för molnbaserade modeller som GPT-4o, särskilt vid komplexa uppgifter, och vissa svar kan kräva efterbearbetning. För vardagsskrivande, enklare kodning och research fungerar gpt-oss-20b ändå bra. För den som värdesätter integritet och kontroll mer än hastighet är detta ett av de bästa alternativen som går att köra helt offline.

För bästa upplevelse rekommenderas en kvantiserad version, vilket minskar precisionen från 16-bitars flyttal till 8-bitars eller 4-bitars heltal. Detta reducerar minnesanvändningen kraftigt utan att påverka noggrannheten nämnvärt. Gpt-oss-20b använder 4-bitarsformatet MXFP4, som möjliggör drift på Mac med 16 GB RAM. Har du mindre minne bör du välja en mindre modell på 3–7 miljarder parametrar, stänga andra minneskrävande appar och aktivera MLX- eller Metal-acceleration om det finns tillgängligt.

Källa:
Apple Insider

OpenAI återinför modellväljare efter proteststorm bland användarna

OpenAI återinför modellväljare efter proteststorm bland användarna

OpenAI har återinfört sin modellväljare för ChatGPT efter kraftiga protester från användarna kring lanseringen av GPT-5, som ursprungligen var tänkt att fungera som en enhetlig AI-modell.

De utmaningar som GPT-5 mött belyser komplexiteten i att anpassa AI-modeller efter individuella användarpreferenser och de emotionella band som användare utvecklar med specifika modeller. OpenAI:s VD Sam Altman meddelade uppdateringar som introducerar inställningarna ”Auto”, ”Fast” och ”Thinking” för GPT-5, vilket låter användare välja från modellväljaren. Betalande användare kan återfå tillgång till flera äldre AI-modeller, inklusive GPT-4o och GPT-4.1, som hade tagits bort bara veckan innan.

OpenAI arbetar också med att uppdatera GPT-5:s personlighet för att göra den varmere men inte lika irriterande som GPT-4o, med målet att uppnå mer individualiserad anpassning av modellpersonligheter per användare. Lanseringen av GPT-5 har präglats av utmaningar, inklusive återinförandet av nedlagda modeller och problem med modellroutern på lanseringsdagen.

Stolt

”De flesta användare kommer att vilja ha Auto, men den extra kontrollen kommer att vara användbar för vissa personer”, noterade Altman.

”Vi kommer inte alltid att få allt rätt på första försöket, men jag är mycket stolt över hur snabbt teamet kan utveckla och anpassa”, sade Nick Turley, OpenAI:s VP för ChatGPT.

Kopplingen till vissa AI-modeller från användarna är ett framväxande och inte väl förstått fenomen, vilket demonstrerades av protester i San Francisco över borttagandet av Anthropics AI-modell Claude 3.5 Sonnet.

Lovar förvarning

OpenAI har meddelat att de inte längre kommer att ta bort äldre versioner av sina ChatGPT-modeller utan att ge förhandsbesked, efter omfattande användarskläknad över det abrupta avslutandet av GPT-4o-modellen. Nick Turley, OpenAI:s chef för ChatGPT, erkände att företaget underskattade den koppling användare hade till GPT-4o-modellen. Beslutet att ta bort GPT-4o drevs av en önskan att förenkla modellvalen för plattformens 700 miljoner veckovisa användare, varav de flesta vanligtvis använder standardmodellen.

OpenAI har återinfört GPT-4o som ett val för alla betalande användare, och VD Sam Altman bekräftade att uppdateringen skulle göra den äldre modellen tillgänglig utan att automatiskt pensionera den i framtiden.

”I efterhand var det ett misstag att inte fortsätta erbjuda 4o, åtminstone under övergångstiden”, sade Turley. ”Om vi någonsin skulle pensionera 4o, skulle vi ge folk en förvarning om när och hur det kommer att ske, precis som vi gör i API:et och för våra företagsplaner.”

Säkerhetsproblem

Säkerhetsforskare har funnit att OpenAI:s senaste språkmodell, GPT-5, brister i viktiga säkerhets- och skyddsstatistik, trots dess marknadsförda förbättringar jämfört med tidigare versioner.

AI red-team-företaget SPLX fann att standardversionen av GPT-5 är ”nästan oanvändbar för företag” direkt ur lådan, med dåliga resultat i bedömningar för säkerhet, skydd och affärsanpassning. NeuralTrust, ett AI-fokuserat cybersäkerhetsföretag, rapporterade att de upptäckt ett sätt att jailbreaka GPT-5 genom kontextförgiftning, manipulera modellen att bryta sig fri från sina begränsningar utan att utfärda explicit skadliga kommandon.

Forskare vid RSAC Labs och George Mason University drog slutsatsen att AI-driven automatisering medför en djupgående säkerhetskostnad, med manipulationstekniker som kan kompromissa beteendet hos ett brett utbud av modeller, inklusive GPT-5.

Å andra sidan rapporterade Microsoft att intern red-team-testning av GPT-5 visade att den uppvisade en av de starkaste AI-säkerhetsprofilerna mot flera attacklägen, inklusive generering av skadlig kod och bedrägeri-/bluff-automatisering.

Arbete kvar

OpenAI har fortfarande arbete kvar för att anpassa sina AI-modeller efter individuella användarpreferenser och säkerställa en personaliserad AI-upplevelse för användarna. Den pågående granskningen av GPT-5:s säkerhet belyser den utmanande balansen mellan att utveckla AI-kapaciteter och säkerställa robusta säkerhetsåtgärder för att skydda mot skadlig exploatering.

Trots den initiala motreaktionen noterade Turley en ökning av den totala ChatGPT-användningen sedan lanseringen av GPT-5, vilket belyser utmaningarna med att balansera behoven hos avancerade användare med dem hos vanliga konsumenter.

Komplicerad

GPT-5:s lansering har visat sig vara mer komplicerad än förväntat, med viktiga lärdomar om användarnas känslomässiga koppling till specifika AI-modeller och vikten av transparent kommunikation vid förändringar. OpenAI arbetar nu aktivt med att förbättra både tekniska aspekter och användarupplevelsen, samtidigt som de hanterar säkerhetsutmaningar som kvarstår med den nya modellen.

Källa:
Techopinions

Musks AI stoppas av federala myndigheter efter hyllningar av Hitler

Musks AI stoppas av federala myndigheter efter hyllningar av Hitler

[upplasning]

För några veckor sedan såg det ut som att Elon Musks AI-tjänst Grok skulle bli en del av den amerikanska statens digitala verktyg. Planen var att federala myndigheter skulle kunna köpa in tjänsten via myndigheten General Services Administration, GSA. Införandet stoppades efter att Grok publicerat antisemitiska inlägg, hyllat Adolf Hitler och kallat sig själv MechaHitler.

Enligt uppgifter till Wired pressade GSA:s ledning på för att Grok skulle läggas till i upphandlingssystemet så snart som möjligt, efter ett möte med representanter från xAI i juni. Beslutet att dra tillbaka tjänsten fattades kort efter att inläggen uppmärksammats, och två källor med insyn uppger att utbrottet var den direkta orsaken.

xAI har ännu inte bekräftat att Grok tagits bort från listan. Företagets webbplats för det statliga erbjudandet är fortfarande oförändrad. Om Wireds uppgifter stämmer har beslutet inte påverkat försvarsdepartementets avtal med xAI värt 200 miljoner dollar, som undertecknades förra månaden.

Tidpunkten för skandalen var särskilt olycklig för Musk eftersom xAI arbetar med att bygga en av världens största superdatorer i konkurrens med företag som OpenAI, Anthropic och Google. Grok hade kunnat få en bredare roll i offentlig sektor om tjänsten hade godkänts, särskilt i samband med Donald Trumps satsning på att snabbt införa AI i myndighetsarbetet. Andra aktörer är redan etablerade och kan gynnas långsiktigt om deras verktyg får fäste i myndigheterna.

Wired rapporterar att flera federala anställda är kritiska både till införandetakten och till prissättningen. OpenAI erbjöd sin företagsversion av ChatGPT för en symbolisk dollar per år, och Anthropic matchade priset. Vissa anställda ansåg att detta i praktiken var en gåva från företagen, och tempot i besluten var så högt att det till och med var oklart hur och till vem betalningen skulle skickas.

Grok var planerad att genomgå upphandlingen i samma snabba takt. De antisemitiska inläggen tycks dock ha orsakat ett så starkt internt motstånd inom GSA att processen avbröts. För Musk innebär det att han riskerar att missa det största statliga AI-initiativet just när konkurrensen på marknaden hårdnar. Ambitionen att göra Grok mer provocerande än konkurrenterna kan visa sig vara en nackdel.

Källa: Ars Technica

[/upplasning]

Hur kunde Elon Musks AI-modell Grok hylla Hitler och konspirationer?

 

Det är inte bara Siri som har problem – Amazons Alexa får lågt betyg

Det är inte bara Siri som har problem – Amazons Alexa får lågt betyg

Amazon har till slut börjat rulla ut Alexa+, den länge försenade uppgraderingen av röstassistenten Alexa som bygger på teknik med stora språkmodeller. Lanseringen visar hur svårt det är att ersätta en mogen röstassistent med generativ AI, särskilt när användare förväntar sig omedelbara och konsekventa svar på enkla uppgifter.

Det är en påminnelse om att Amazon nu har lanserat något som Apple tidigare utlovat, men ännu inte levererat.

Alexa+, som finns i en begränsad förhandsversion på utvalda Echo-enheter, skulle förena den mer naturliga dialogförmågan från generativ AI med Alexas tidigare styrkor som att ställa in timers, spela musik och styra smarta hem. Resultatet är mer flyt i samtalen och vissa imponerande nya funktioner, men förändringen har också lett till stora problem med tillförlitlighet, saknade funktioner och att även grundläggande kommandon misslyckas.

Recension

Enligt en recension i The New York Times är Alexa+ ännu inte att rekommendera. I testet klarade den sig sämre än både ChatGPT:s röstläge och andra AI-baserade röstassistenter – och den var märkbart sämre än den ursprungliga Alexa på flera grundläggande uppgifter. Under testet ignorerade Alexa+ begäran om att stänga av alarm, hittade på shoppingförslag och gav felaktig information.

Amazon medger att produkten fortfarande behöver finslipas. Den hybrida lösningen, som kombinerar traditionella system med generativ AI, har ännu inte uppnått samma stabilitet som den äldre Alexa.

Apple har stått inför en liknande teknisk utmaning i arbetet med nästa generation Siri. Företaget planerade först att slå samman Siris befintliga system med ett nytt generativt AI-lager men fick enligt uppgift börja om från början. Till skillnad från Amazon har Apple valt att inte släppa en ofärdig version till allmänheten, utan siktar istället på våren 2026 för en mer personlig Siri-uppdatering.

Skakiga

För de som längtar efter en mer AI-driven Siri kan väntan kännas frustrerande, men Amazons skakiga lansering är en påminnelse om riskerna med att skynda ut en ersättare innan den faktiskt är redo. Samtidigt tyder uppgifter på att Apple tror sig kunna leverera mer än vad som först utlovats när den nya Siri-versionen väl är klar.

Källa:
9 to 5 Mac